안녕하세요,
이번 포스팅에서는 SIMCA®를 사용하여 더 효과적이고 직관적인 분석을 위해 모델 최적화 작업에 필요한 Loading Vector와 관련된 값에 대해 알아보겠습니다.
1. P (Loading):
각 예측 변수(X 변수)에 대한 로딩(Loading)은 해당 변수가 모델에 얼마나 기여하는지를 나타내는 값입니다.
높은 로딩 값은 해당 변수가 모델에서 중요한 역할을 한다는 것을 의미합니다.
2. Residual Sum of Squares (SS):
잔차 제곱합은 모델의 예측값과 실제 관측값 간의 차이를 측정합니다.
SS는 잔차(실제 값과 예측 값의 차이)를 제곱한 값들의 합으로, 모델이 관찰 데이터를 얼마나 잘 설명하는지 나타냅니다.
작은 잔차 제곱합은 모델이 데이터를 잘 설명하고 있다는 것을 의미하며, 모델의 예측력이 높다는 것을 시사합니다.
3. Standard error (SE):
표준 오차는 모델의 예측 값의 변동성을 나타내는 측정 지표입니다.
표준 오차는 모델의 예측 값에 대한 예상 오차의 표준 편차로, 모델의 불확실성을 측정합니다.
작은 표준 오차는 모델이 일관되고 정확한 예측을 제공한다는 것을 나타내며, 큰 표준 오차는 모델의 불확실성이 높다는 것을 나타냅니다.
따라서 잔차 제곱합은 모델의 적합도를 평가하는 데 사용되는 반면, 표준 오차는 모델의 예측 불확실성을 평가하는 데 사용됩니다.
4. cvSE (Cross-Validation Standard Error):
모델의 결과에 대한 교차검증 (CV)의 모든 결과로 계산된 표준 오차를 의미합니다.
이러한 표준 오차는 모델의 예측 불확실성을 나타내며, 교차 검증 결과를 통합하여 모델의 일반화 성능에 대한 신뢰 구간을 제공하는 데 사용될 수 있습니다.
5. pcvSE (Jack-knife Standard Error of Loading):
pcvSE는 각 예측 변수X의 로딩p에 대한 표준 오차를 계산한 값입니다.
이 표준오차는 로딩p의 불확실성을 나타내고, 이는 모델의 예측 변수X에 대한 가중치p의 신뢰성과 안정성을 평가하기 위해 사용될 수 있습니다.
6. p/pcvSE (Ratio of Loading to Jack-knife Standard Error):
p/pcvSE는 로딩 값p을 표준 오차(pcvSE)로 나눈 비율을 나타냅니다.
이 비율이 클수록 해당 변수의 로딩p이 표준 오차에 비해 크다는 것을 의미합니다. 이는 모델이 특정 예측 변수X에 더 큰 가중치를 부여하고 있으며, 이로 인해 해당 변수가 모델의 예측에 미치는 영향이 크다는 것을 나타냅니다.
반대로, 비율이 작을수록 해당변수의 로딩p이 표준 오차에 비해 작다는 것을 의미합니다. 이는 모델이 특정 예측 변수X에 더 낮은 가중치를 부여하고 있으며, 이로 인해 해당 변수가 모델의 예측에 미치는 영향이 작다는 것을 나타냅니다.
따라서 "p/pcvSE"는 모델에서 각 예측 변수X의 상대적인 중요성을 나타내는 지표로 사용될 수 있습니다.
7. PRESS/SS (Prediction Error Sum of Squares / Residual Sum of Squares):
이는 예측 오차 제곱합(PRESS)을 이전 구성요소(component)의 잔차 제곱합(SS)으로 나눈 것입니다. PRESS는 관측된 데이터와 모델이 예측한 데이터 간의 차이의 제곱의 합으로, 이 값이 작을수록 모델의 예측 성능이 좋다고 판단됩니다. PRESS/SS는 모델의 예측 오차를 이전 구성요소의 잔차에 대한 상대적인 크기로 보여주는 지표입니다.
따라서 이는 각각 모델의 예측 성능을 평가하는 데 사용될 수 있습니다.
8. VIP (Variable Importance in Projection):
VIP는 각 예측 변수X가 모든 반응 변수Y에 대해 모든 구성 요소에서 누적적으로 얼마나 중요한지를 나타냅니다.
높은 VIP 값은 해당 변수가 모델의 예측력에 중요한 역할을 한다는 것을 의미합니다.
높은 VIP 값은 해당 변수가 모델의 예측력에 중요한 역할을 한다는 것을 나타냅니다. 따라서 VIP 값이 높은 변수는 모델에서 관심 변수로 간주될 수 있으며, 해당 변수의 영향력을 이해하고 모델의 설명력을 향상시키는 데 도움이 됩니다.
9. Source of Variation:
BLM에서 사용되는 plot으로, 변수X들의 로딩p이나 기여도를 시간에 따라 보여줍니다.
일반적으로 로딩 플롯이나 기여도 플롯과 유사하지만, x 축에 시간(또는 배치의 성숙도 등)이 사용됩니다.
이와같이 Loading Vector Variations에 대하여 알아보았습니다. 혹시나 글을 보시면서 지적해주실 부분이 있으면 언제든지 댓글로 남겨 주시기 바라며, 문의 사항 역시 남겨 주시면 답변 드릴 수 있도록 하겠습니다~
댓글
댓글 쓰기