기본 콘텐츠로 건너뛰기

SIMCA® PCA Plot에서 Score 와 Loading의 연관성

안녕하세요,

이번에는 SIMCA® PCA Plot에서 Score 와 Loading의 연관성에 대해 알아보려 합니다.


Score와 Loading의 연관성을 알아보기 전, 해석하는 방법에 대해서는 이전 포스팅을 참고 부탁 드립니다.

이전 포스팅의 내용을 요약하자면,

Score Plot의 각 점은 하나의 샘플을 표현하며, 

근접한 점들은 비슷한 특성을 가진 샘플을 나타내고, 대각 방향으로 벌어진 점들은 반대의 의미를 가지며, 대각 이외의 방향에 위치한 점들은 단순히 다르다는 해석이 가능합니다.

또한, Loading Plot의 각 점은 하나의 변수를 표현하며, 근접한 점들은 변수들 간의 상관성이 크다고 해석할 수 있습니다.

이에 따라, Biplot에서 얻을 수 있는 정보는

Score 와 Loading의 각 점들이 비슷한 위치에 있는 경우에, 해당 변수의 영향을 많이 받은 샘플이라고 해석 할 수 있다는 점입니다.


그렇다면 PCA Plot에서 Score와 Loading은 어떤 연관성을 가질까요?

둘의 연관성을 식으로 나타내면 

Y=XP

으로 나타낼 수 있습니다.

1. Y 주성분 점수 Score(n*p) 

2. P 원데이터(X)의 공분산 행렬(Covariance Matrix)의 고유벡터행렬 Loading(p*p)

3. X는 원데이터 행렬 (n*p)

으로 나타낼 수 있습니다.


다음은 각각의 요소를 이해를 돕기 위해 다양한 시각으로 해석해보겠습니다.

Y는 주성분 점수인 Score(n*p)로, 수학적으로 해석하면 Y는 새로운 변수로, 기존 변수X들과 고유벡터 행렬 P의 선형 결합을 나타냅니다.

Figure 1: Projection


위의 그래프와 같이 이를 시각적으로 해석하면, 

Score는 각각의 PC(PC1, PC2)에 대해 투영된 'Observation Datas' 라고 표현할 수 있습니다.


P 원데이터(X)의 공분산 행렬의 고유벡터행렬 Loading(p*p)입니다.

공분산 행렬에 관한 내용은 다음 포스팅을 참고 부탁드립니다.

즉, Loading은 각각의 PC와 변수들 사이의 Correlation 값으로, 변수 각각이 각 PC에 대해 상대적으로 얼마나 중요한지 확인할 수 있습니다.


Figure 2 : Loading Values


Figure 1에서는 샘플이 새롭게 발견된 PC 축 어디에 위치하는 지를 정의하지만, Figure 2에서는 PC 축이 원래 축에 상대적으로 어디에 위치하는 지를 알려줍니다.

로딩은 코사인 함수에 의해 정의되므로 -1(회전각도 0°)에서 +1(회전각도 180°)사이의 값으로 정의되며, 로딩의 부호는 변수가 PC에 어떻게 기여하는지(-: 변수의 부재가 PC에 어느정도 기여함, +:변수의 존재가 PC에 어느정도 기여함)를 나타내며, 로딩의 절대값은 크기가 클수록 PC에 미치는 영향이 더 큽니다.


X는 원데이터 행렬 (n*p)로 기존변수들을 나타냅니다.


이와 같이 score와 loading의 연관성을 다양한 각도로 설명해보았습니다. 혹시나 글을 보시면서 지적해주실 부분이 있으면 언제든지 댓글로 남겨 주시기 바라며, 문의 사항 역시 남겨 주시면 답변 드릴 수 있도록 하겠습니다~


Reference

[1] David T. Harvey & Bryan A. Hanson(2022). Understanding Scores and Loadings. Understanding Scores and Loadings (r-project.org)

댓글