기본 콘텐츠로 건너뛰기

CV-ANOVA를 이용한 PLS, OPLS 모델 검증

이번 포스팅은 PLS, OPLS 모델의 Cross Validation (교차 검증) 에 대해 알아보고자 합니다. SIMCA에서 지원하는 교차 검증은 'k-겹 교차 검증(k-fold cross validation)' 알고리즘을 사용합니다. 기본 세팅은 7로 되어 있으며, 변경도 가능합니다. 

File > Options > Project options > Fit > Cross-validation rounds

https://en.wikipedia.org/wiki/Cross-validation_(statistics)

SIMCA에서의 검증 목적은 아래와 같이 정리할 수 있습니다. 

- PLS(OPLS) : X-Y의 관계가 유의한지

- PLS-DA(OPLS-DA) : Y로 설정된 Class가 유의한지

Class에 대한 내용은 이전 포스팅에서도 다룬 바가 있어 참고로 링크 드립니다. 

- PCA-X vs. PLS(OPLS)-DA

- Classification

그러면 아래 모델에 대한 CV-ANOVA표를 통해 확인해 보도록 하겠습니다. 

CV-ANOVA Table

M3 : SIMCA에서 생성된 모델 정보
SS : 제곱합
DF : 자유도 (N-1), N은 관측수를 의미합니다. 
MS : 평균제곱 (SS/DF)
F : F-Test 
p : p-Value 
SD : 표준편차 (MS의 제곱근)
Total corr. : 해당 Y (그래프에서 Peak Titer) 에 속해있는 관측수-1
Regression : 해당 Y에 대한 CV 결과값 
Residual : Total corr. - Regression 

해당 결과에서 각 그룹의 p-value가 0.05 이하이면 각 Y에 대한 Cross Validation이 유의하다고 볼 수 있습니다. 모델에 따라서 p-Value가 0으로 표시될 수도 있는데, 이는 0에 매우 근접하여 소수점 유효 숫자 표기로 인한 것으로 원본 데이터를 Duplicate하여 F-test 값을 감소 시켜서 p-Value에 유효 숫자 이내로 표기할 수 있게 테스트를 시도할 수 있습니다. 

댓글