안녕하세요,
이번 포스팅에서는 OPLS를 통해서 숨겨져 있는 노이즈를 찾는 방법에 대해 이야기 하고자 합니다. PLS 대비 OPLS의 큰 특징이라고 하면 행렬의 직교 성분이 추가되는 점입니다. 아래 그림에서 PLS, 2nd-comp in Y를 보면 해당 벡터의 방향으로 생성된 데이터가 있을 시, 연관성이 있는 데이터로 분류되어 편향 해석이 될 가능성이 높습니다.
OPLS에서는 이러한 수직 벡터를 Predictive가 아닌 Orthogonal로 지정하여 일반적으로 낮은 R2값을 갖는 2nd-comp in Y 대비 노이즈 탐색에 월등한 부분을 가지고 있습니다.
|
(좌) PLS는 Component를 추가하면 X, Y에 모두 추가가 됩니다. (우) OPLS의 경우 Y에 최초 1개의 Predictive Component만 생성 됩니다. |
반대로 얘기하면 Single-Y 데이터 세트에서만 효과적인 해석 방법이 될 수 있습니다.
만약 분석하고자 하는 데이터가 Multi Y일 경우 PLS를 그대로 사용하는 것을 추천 드립니다.
|
PLS와 OPLS의 비교 |
|
OPLS(위)에선 R2(Cum)이 Predictive에만 1개 존재하고, PLS(아래)에선 모든 Component에 있어 R2Y(Cum)이 OPLS의 R2(Cum)과 같음을 볼 수 있습니다. |
Single-Y인 케이스는 어떤 것이 있을까요? 네, 바로 배치 데이터입니다. 배치 데이터 분석은 Batch Age만 Y변수로 설정하여 Y(시간)이 변하는 동안 어떤 X가 가장 많은 변동이 있었는지 보게 됩니다. 아래 예시와 같이 동일한 배치 데이터를 각각 PLS와 OPLS로 분석한 결과를 보시면 OPLS에서는 명백히 Outlier인 배치를 볼 수 있으나, PLS에서는 나타나지 않는 것을 보실 수 있을겁니다.
|
같은 데이터를 분석한 결과로, OPLS (우측) 에서 보다 노이즈를 뚜렷하게 찾을 수 있습니다. |
이처럼 숨겨져 있는 노이즈를 탐색할 수 있는 OPLS에 대해 알아보았습니다. 해당 알고리즘을 이용해 CPP를 보다 쉽게 찾아낼 수 있는 점 참고하셔서 유용하게 활용하셨으면 좋겠습니다. 궁금하신 사항은 댓글로 남겨주시면 답변 드릴 수 있도록 하겠습니다.
댓글
댓글 쓰기