기본 콘텐츠로 건너뛰기

SIMCA의 데이터 전처리편

안녕하세요,

이번 포스팅에서는 SIMCA를 사용함에 있어 가장 중요한 데이터 전처리에 대한 기능을 소개하고자 합니다. 
데이터 전처리는 분석을 하기에 앞서 데이터에 속성을 부여하는 작업으로, 이후에 SIMCA에서 하는 모든 계산은 이 작업을 꼭 거쳐야만 하는 매우 중요한 단계 입니다. 프로젝트는 Regular 타입을 기준으로 우선 설명 드리도록 하겠습니다. 

Regular project를 선택

선택 후에 분석을 원하는 엑셀 파일을 불러오면 아래와 같은 화면으로 전환됩니다. 
SIMCA에서는 자동으로 미리 속성을 부여해주는 기능이 있어, 초보자들도 쉽게 데이터를 불러와서 편집할 수 있습니다. 


도구 모음 리본에서 제일 많이 사용하는 기능들을 우선 모아보았습니다. 

Variable IDs : 변수에 대한 속성을 부여합니다. 
  • Primary variable ID : 고유해야하며, 중복된 이름을 사용할 수 없습니다. 
  • Secondary variable ID : 중복이 가능하며, Loading 그래프에서 라벨 혹은 그룹색을 변경할 때 적용할 수 있습니다. 
Observation IDs : 샘플에 대한 속성을 부여합니다. 
  • Primary observation ID : 고유해야하며, 중복된 이름을 사용할 수 없습니다. 
  • Secondary observation ID : 중복이 가능하며, Score 그래프에서 라벨 혹은 그룹색을 변경할 때 적용할 수 있습니다. 
  • Class ID : ID에 그룹을 부여하여, 계산 시에 그룹 간의 데이터 분포 신뢰성 비교 등에 사용할 수 있습니다.
Data types : Variables ID에 속성을 부여합니다.  
  • Quantitative : 변수의 속성을 숫자로 지정합니다. 대부분의 경우는 이 속성을 선택합니다.
  • Qualitative : 변수의 속성을 문자로 지정합니다. 보통 1~2개 미만으로 하는 것을 추천 드립니다. 
  • Date/Time : 변수가 시간일 경우, 데이터 보는 방법을 연/월/일 단위 중에 선택해서 볼 수 있습니다. 
Variable roles 
  • X-variable : 변수의 속성을 X로 지정합니다. 보통 조작 가능한 변수, 혹은 측정한 샘플 변수를 얘기합니다.
  • Y-variable : 변수의 속성을 Y로 지정합니다. 보통 결과를 평가하기 위한 변수로 지정합니다. 
다음 포스팅에는 데이터를 불러온 후에 분석 모델을 만드는 방법과 그리고 그래프의 사용 용도에 대해 알아보겠습니다~ 

댓글