기본 콘텐츠로 건너뛰기

Loading Vector Variations – SIMCA Advanced

안녕하세요, 이번 포스팅에서는     SIMCA ® 를 사용하여 더 효과적이고 직관적인 분석을 위해 모델 최적화 작업에 필요한 Loading Vector 와 관련된 값에 대해 알아보겠습니다. 1. P (Loading): 각 예측 변수 (X 변수 ) 에 대한 로딩 (Loading) 은 해당 변수가 모델에 얼마나 기여하는지를 나타내는 값입니다 . 높은 로딩 값은 해당 변수가 모델에서 중요한 역할을 한다는 것을 의미합니다 . 2.  Residual Sum of Squares (SS) : 잔차 제곱합은 모델의 예측값과 실제 관측값 간의 차이를 측정합니다. SS는 잔차(실제 값과 예측 값의 차이)를 제곱한 값들의 합으로, 모델이 관찰 데이터를 얼마나 잘 설명하는지 나타냅니다. 작은 잔차 제곱합은 모델이 데이터를 잘 설명하고 있다는 것을 의미하며, 모델의 예측력이 높다는 것을 시사합니다. 3. Standard error (SE): 표준 오차는 모델의 예측 값의 변동성을 나타내는 측정 지표입니다. 표준 오차는 모델의 예측 값에 대한 예상 오차의 표준 편차로, 모델의 불확실성을 측정합니다. 작은 표준 오차는 모델이 일관되고 정확한 예측을 제공한다는 것을 나타내며, 큰 표준 오차는 모델의 불확실성이 높다는 것을 나타냅니다. 따라서 잔차 제곱합은 모델의 적합도를 평가하는 데 사용되는 반면, 표준 오차는 모델의 예측 불확실성을 평가하는 데 사용됩니다. 4. cvSE (Cross-Validation Standard Error): 모델의 결과에 대한 교차검증 ( CV) 의 모든 결과로 계산된 표준 오차를 의미합니다 . 이러한 표준 오차는 모델의 예측 불확실성을 나타내며 , 교차 검증 결과를 통합하여 모델의 일반화 성능에 대한 신뢰 구간을 제공하는 데 사용될 수 있습니다 . 5.  pcvSE (Jack-knife Standard Error of Loading): pcvSE 는 각 예측 변수 X 의 로딩 p 에 대한 표준 오차를 계산한 값입니다 . 이 표준오차는 로딩

MODDE®에서 MLR 과 PLS에 대하여

안녕하세요, 이번에는 Linear Regression Analysis (선형 회귀 분석) 중 MLR(Multi Linear Regression) 다중 선형 회귀 분석법과 PLS(Partial Least Square Regression) 부분 최소 자승 회귀 분석법에 대해 알아보겠습니다. Linear Regression Analysis는 독립 변수가 종속 변수에 어떤 영향력을 행사하는지 선형적으로 분석하는 방법입니다. 독립 변수는 영향을 주는 변수이고, 종속 변수는 영향을 받는 변수죠. Y = β 0 ​ + β 1 ​ X 1 ​ + β 2 ​ X 2 ​ + … + β k ​ X k ​ + ϵ 위 식은 종속 변수인 Y에 독립 변수인 X가 주는 영향력을 보여줍니다. β 1 ​ X 1 \ , β 2 ​ X 2 ​ ,,, β k ​ X k ​ : term 위와 같이 각각의 항은 Term이라고 불리며, 각각은 독립 변수의 영향을 설명합니다. 그렇다면 이제 MLR과 PLS의 차이점을 하나씩 살펴볼까요? 이 두개의 분석법은 크게 세가지로 차이점을 설명할 수 있습니다. 첫째, 모델 구축 방식이 서로 다릅니다. MLR은 각 Term이 서로 독립적이라는 가정 하에 독립 변수들 간의 상관 관계를 고려하여 모델을 구축합니다. 이는 다중 공선성(Multicollinearity)을 방지하고 모델을 안정적으로 만들기 위함입니다. 다중 공선성은 무엇일까요? 다중 공선성이란 독립 변수들 간의 상관 관계를 나타냅니다. 다중 공선성이 높다면, 독립 변수들이 서로 강한 상관 관계가 있다는 뜻이고, 다중 공선성이 낮다면, 독립 변수들의 상관 관계가 상대적으로 낮다는 뜻이겠지요. 반면, PLS는 독립 변수들 간의 상관 관계를 고려하지만, 다중 공선성에 민감하지 않은 경우에 용이한 모델 구축 방법입니다. PLS는 독립 변수들 간의 선형 결합을 찾아내, 이를 사용하여 종속 변수를 예측하는 데에 중점을 둡니다. PLS에서는 Term이 주성분(Latent variables)을 나타내며, 이는 독립 변수들 간

SIMCA® PCA Plot에서 Score 와 Loading의 연관성

안녕하세요, 이번에는   SIMCA ®  PCA Plot에서 Score 와 Loading의 연관성에 대해 알아보려 합니다. Score와 Loading의 연관성을 알아보기 전, 해석하는 방법에 대해서는  이전 포스팅 을 참고 부탁 드립니다. 이전 포스팅의 내용을 요약하자면, Score Plot의 각 점은 하나의 샘플을 표현하며,  근접한 점들은 비슷한 특성을 가진 샘플을 나타내고, 대각 방향으로 벌어진 점들은 반대의 의미를 가지며, 대각 이외의 방향에 위치한 점들은 단순히 다르다는 해석이 가능합니다. 또한, Loading Plot의 각 점은 하나의 변수를 표현하며, 근접한 점들은 변수들 간의 상관성이 크다고 해석할 수 있습니다. 이에 따라, Biplot에서 얻을 수 있는 정보는 Score 와 Loading의 각 점들이 비슷한 위치에 있는 경우에, 해당 변수의 영향을 많이 받은 샘플이라고 해석 할 수 있다는 점입니다. 그렇다면 PCA Plot에서 Score와 Loading은 어떤 연관성을 가질까요? 둘의 연관성을 식으로 나타내면  Y=XP 으로 나타낼 수 있습니다. 1. Y 는   주성분 점수  Score(n*p)  2. P 는  원데이터(X)의 공분산 행렬(Covariance Matrix)의   고유벡터행렬  Loading(p*p) 3. X 는  원데이터 행렬  (n*p) 으로 나타낼 수 있습니다. 다음은 각각의 요소를 이해를 돕기 위해 다양한 시각으로 해석해보겠습니다. Y 는 주성분 점수인 Score(n*p)로, 수학적으로 해석하면 Y는 새로운 변수로, 기존 변수X들과 고유벡터 행렬 P의 선형 결합을 나타냅니다. Figure 1: Projection 위의 그래프와 같이 이를 시각적으로 해석하면,  Score는 각각의 PC(PC1, PC2)에 대해 투영된 'Observation Datas' 라고 표현할 수 있습니다. P 는  원데이터(X)의 공분산 행렬의   고유벡터행렬 Loading(p*p)입니다. 공분산 행렬에 관한 내용은 다음 포스팅 을 참