기본 콘텐츠로 건너뛰기

Classification 기능을 통해 OPLS-DA 모델을 평가하는 방법

 안녕하세요~ 


이번 시간에는 다양한 클러스터 데이터를 비교하기 위해 사용하는 OPLS-DA 모델을 평가하는 기능에 대해 알아보고자 합니다. 일반적으로 2개 이상의 Class를 사용하여 데이터를 분석할 때 사용하는 것으로 각 그룹이 잘 구분이 되는지, 혹은 그룹 데이터가 혼용되거나 섞이지는 않는지 확인할 수 있습니다. 


이전 포스팅(https://sartoriusda.blogspot.com/2020/06/manual-simca-workset-class.html)에서 OPLS-DA와 PCA-X를 비교한 자료를 보여드렸었습니다. 일반적으로 분석에 들어가는 변수들을 X로 설정하고 분석을 진행하는데, OPLS-DA는 Y에 Class를 설정한다는 것이 큰 차이점이죠. 이렇게 분석한 데이터에 대해 그룹화 정도를 평가하는 것을 빼놓을 수는 없습니다. 바로 Classification 기능입니다. 



해당 기능은 SIMCA 소프트웨어의 Predict 탭에 있는 것으로, Class의 구분 능력을 볼 때 사용하는 다양한 기능들이 들어가 있습니다. 오늘은 그 중에서 ROC plot과 Misclassification table 2가지에 대해 알아보고자 합니다. 



첫번째는 ROC plot 입니다. 

그래프의 x축이 False Positive classification Rate, y축이 True Positive classification Rate 입니다. 각 Class 별로 다른 모습을 보여주는데, 좋은 모델일수록 커브가 좌상단 지점까지 빠르게 도달합니다. 대각 방향으로 있는 회색 점선의 경우 굉장히 낮은 설명력을 가지는 것이라고 볼 수 있겠죠. 샘플이 많지 않은 Class는 샘플끼리 편차가 많을 시에 예시 그래프의 파란색 선과 같이 나타날 수 있습니다. 이 경우에는 그룹을 구성하는데 있어 샘플 간의 연관성이 다소 낮다고 평가할 수 있습니다. 보완을 위해서 같은 Class의 더 많은 샘플 데이터를 넣거나, 잘못 관측된 데이터는 없는지 한 번 더 확인할 수는 있겠습니다. 



두번째는 Misclassification table 입니다. 

이 표에서는 Correct에 있는 %를 가지고 각 Class를 평가할 수 있습니다. 셀이 노란색으로 나오는 경우 다른 Class에 속해있을 확률이 있는 관측점의 개수를 노란색으로 표기해서 보여줍니다. 예를 들어 1번 Class의 전체 300개 데이터 중에 293개는 올바르게 구분된 데이터로 간주할 수 있으며, 7개의 관측점은 4번 Class의 Loading에 유사한 벡터를 가지고 있는 것으로 간주한다고 볼 수 있습니다. 물론 실제로 해당 데이터가 4번 Class라는 의미를 얘기하는 것은 아닙니다. 여기에서 우리는 7개의 관측점이 정말 1번 Class로 분류되는 결과가 맞는지 Cross-check를 하고, 1번 Class에서 다른 293개의 데이터와는 다른 양상을 보이는 특이한 결과로서 평가하는 것이 일반적일 것 같습니다. 


이렇게 Discriminant Analysis 모델을 평가하는 2가지 기능에 대해 알아보았습니다. OPLS-DA는 여러개의 Class를 가진 데이터에서 유용하게 활용되는 만큼, 해당 모델을 검증하는 기능으로 Classification에 있는 ROC plot과 Misclassification을 잘 활용 하셨으면 좋겠습니다. 



댓글