기본 콘텐츠로 건너뛰기

SIMCA에서 Complement 기능을 통해 모르는 파라미터의 값을 예측해보기 (Predictionset)

오랜만의 포스팅입니다. ^^; 

이번 시간에는 SIMCA 소프트웨어에서 모르는 파라미터의 값을 예측해주거나 입력된 파라미터의 값을 바탕으로 분석 모델이 생성한 예측 값을 알아보는 방법에 대해 알아보고자 합니다. 데이터 분석에서 예측은 사실 저희에게 완전한 결과를 보장하지는 못합니다. 요새 흔히 언급되는 머신러닝, 딥러닝과 같은 고급 기술도 결국에는 입력된 데이터의 품질 즉, 훈련 데이터의 품질이 결과의 품질을 좌우한다고 볼 수 있습니다. 

하지만 그러한 분석을 하기 위해서는 프로그래밍에 매우 정통하고 수학적인 지식이 필요한 진입 장벽이 존재합니다. 심지어는 간단한 예측에도 복잡한 과정이 필요하지만 SIMCA에서는 이러한 과정을 통계 모델을 통해 쉽게 예측값을 알려줄 수 있습니다. 

우선은 예측값에 토대가 될 모델을 생성하는 것 부터 시작합니다. 이번 예시에서는 X-Y의 관계를 가지고 있는 여러 종류의 맥주의 그 측정 값들에 대한 예측을 알아보겠습니다. 데이터는 NIR 스펙트럼 기반이며, 총 2종류의 데이터 세트를 사용했습니다. 

1. NIR 측정 데이터 (53종류 맥주 x 1050개 파장대역)

2. 맥주 품질 측정값 (53종류 맥주 x 4가지 평가 항목 : 알코올 함량, 색, pH, 쓴맛)

SIMCA에서 PLS모델을 만들기 위한 내용은 이전 포스팅을 참고해 주시면 감사하겠습니다. 

Data Analytics: [Manual] 메뉴 소개 - SIMCA의 데이터 전처리편 (sartoriusda.blogspot.com)

1번 데이터의 일부

2번 데이터의 일부

53종류의 맥주 중에서 기준 모델을 만들기 위한 맥주를 30종류를 선택해본 후에 남은 23종류 맥주에 대한 예측을 진행해 보겠습니다. 우선 순서대로 1~30번까지의 맥주를 선택하여 모델을 생성하고 Workset Complement Prediction을 해보도록 하겠습니다. 

30개의 데이터만 우선 선택

모델링 이후 Prediction 기능을 수행하기 전에 SIMCA에서 제공하는 다양한 옵션들에 대해 살펴보고 다시 결과 보여드릴 수 있도록 하겠습니다. 



* Specify : 예측 모델에 사용할 샘플/관측을 선택하는 메뉴 입니다. 
* As dataset : Specify를 통해 생성된 Predictionset 혹은 기존 원본 데이터 리스트를 표시합니다.
* As workset : Project에서 현재 선택한 모델에 대한 예측 결과를 확인합니다. 
* Complement : Project에서 현재 선택한 모델에 "포함되지 않은" 샘플/관측의 예측 결과를 확인합니다. 

이번 포스팅의 제목에 Complement가 들어가는 이유는 SIMCA를 사용하면서 가장 보편적으로 맞닥뜨릴 상황에 사용하실 수 있는 기능일 것으로 생각되기 때문이었습니다. 대부분의 예측은 이미 측정한 데이터를 기반으로 만들어지고 여기에 새로운 관측치를 입력했을 때에 대한 결과를 예측하는 케이스들이 많기 때문에 Complement가 제일 적용하기 적당한 어플리케이션으로 생각됩니다. 그럼 결과를 함께 살펴볼까요?

YPredPS에서 각 측정 파라미터의 예측 결과를 확인할 수 있습니다. 

Alcohol을 예로 들면, 이미 입력된 값은 실제 측정한 데이터이며, YPredPS의 경우 1~30번까지의 데이터를 토대로 만들어진 모델을 기반으로 예측한 값으로 실측 데이터와 상당히 유사한 것을 확인하실 수 있습니다. 

이처럼 모델 생성을 위한 샘플 데이터는 많으면 많을 수록 더 신뢰성 높은 결과를 제공해주며, 이 기능을 통해 모르는 Y데이터의 예측을 SIMCA로 보다 쉽게 분석하셨으면 좋겠습니다. 문의사항은 언제든지 댓글 남겨주시면 감사하겠습니다~ 

댓글