안녕하세요,
이번 포스팅에서는 SIMCA를 사용함에 있어 가장 중요한 데이터 전처리에 대한 기능을 소개하고자 합니다.
데이터 전처리는 분석을 하기에 앞서 데이터에 속성을 부여하는 작업으로, 이후에 SIMCA에서 하는 모든 계산은 이 작업을 꼭 거쳐야만 하는 매우 중요한 단계 입니다. 프로젝트는 Regular 타입을 기준으로 우선 설명 드리도록 하겠습니다.
![]() |
Regular project를 선택 |
선택 후에 분석을 원하는 엑셀 파일을 불러오면 아래와 같은 화면으로 전환됩니다.
SIMCA에서는 자동으로 미리 속성을 부여해주는 기능이 있어, 초보자들도 쉽게 데이터를 불러와서 편집할 수 있습니다.
도구 모음 리본에서 제일 많이 사용하는 기능들을 우선 모아보았습니다.
Variable IDs : 변수에 대한 속성을 부여합니다.
- Primary variable ID : 고유해야하며, 중복된 이름을 사용할 수 없습니다.
- Secondary variable ID : 중복이 가능하며, Loading 그래프에서 라벨 혹은 그룹색을 변경할 때 적용할 수 있습니다.
Observation IDs : 샘플에 대한 속성을 부여합니다.
- Primary observation ID : 고유해야하며, 중복된 이름을 사용할 수 없습니다.
- Secondary observation ID : 중복이 가능하며, Score 그래프에서 라벨 혹은 그룹색을 변경할 때 적용할 수 있습니다.
- Class ID : ID에 그룹을 부여하여, 계산 시에 그룹 간의 데이터 분포 신뢰성 비교 등에 사용할 수 있습니다.
Data types : Variables ID에 속성을 부여합니다.
- Quantitative : 변수의 속성을 숫자로 지정합니다. 대부분의 경우는 이 속성을 선택합니다.
- Qualitative : 변수의 속성을 문자로 지정합니다. 보통 1~2개 미만으로 하는 것을 추천 드립니다.
- Date/Time : 변수가 시간일 경우, 데이터 보는 방법을 연/월/일 단위 중에 선택해서 볼 수 있습니다.
Variable roles
- X-variable : 변수의 속성을 X로 지정합니다. 보통 조작 가능한 변수, 혹은 측정한 샘플 변수를 얘기합니다.
- Y-variable : 변수의 속성을 Y로 지정합니다. 보통 결과를 평가하기 위한 변수로 지정합니다.
다음 포스팅에는 데이터를 불러온 후에 분석 모델을 만드는 방법과 그리고 그래프의 사용 용도에 대해 알아보겠습니다~
댓글
댓글 쓰기