기본 콘텐츠로 건너뛰기

데이터 세트에서 결측치 (Missing value) 예측 하기

안녕하세요,

데이터 분석을 하다 보면 결측치 (Missing value) 가 발생하기 마련입니다.
이에 대한 원인은 여러 가지가 있을 수 있습니다.

1. 분석 장비의 샘플링 주기
2. 센서마다 데이터 통신하는 주기
3. 원본 데이터의 누락

위 예시 외에도 여러 가지 원인으로 결측치는 발생할 수 있습니다.
결측치는 모델 생성에 있어 불확실성을 높일 수 있으며, 혹은 중요한 순간의 관측점 소실로 인한 요인 분석에 신뢰도가 떨어질 수 있습니다.

https://learnche.org/pid/latent-variable-modelling/projection-to-latent-structures/advantages-of-projection-to-latent-structures


물론 회귀 분석을 기반으로 하는 결측치 보정은 공정의 트렌드를 그대로 반영하지 못할 수 있습니다.
대신 간단하게 결측치를 확인할 수 있는 유용한 방법인데요, 이번 포스팅에서는 SIMCA에서 손쉽게 결측치 찾는 방법에 대해 알아보겠습니다.

주어진 변인(X)과 결과(Y)로 만든 회귀식을 가지고 결측 변인 X'를 추정합니다.
중요한 점은 결측 변인과 매칭되는 Y가 없으면 생성되지 않는다는 점입니다.


1. SIMCA에서 Home > Create > List를 클릭합니다. 


XVarPred 설정

위의 순서대로 General Lists에서 새로운 표를 생성하기 위한 데이터 선택 창을 엽니다.

Data : 항목에는 추정하고 싶은 결측치가 있는 모델을 선택합니다.
Item : 항목에는 XVarPred를 클릭합니다. 주어진 X-Y로 생성된 회귀식을 기반으로 X를 재생성합니다.
X-terms : *은 모든 변인을 의미합니다.

이후에 Add series를 눌러서 적용시킨 후에 확인 버튼을 눌러 리스트를 생성하면 됩니다.


물론 Y가 없는 X의 경우에는 XVarPred가 생성되지 않을 수 있습니다.
급하게 결측치를 예측할 경우에 추천 드리며, 결측치가 100% 예측할 수 있는 값은 아니라는 점~ 참고하세요! 궁금신 사항은 댓글 남겨 주시면 답변 드리도록 하겠습니다.


댓글