싸토리우스 (SIMCA, MODDE) 기술블로그

글

6월, 2020의 게시물 표시

SIMCA의 데이터 분석편 (Workset에서 Class 설정하기)

안녕하세요~ 이번에는 저번 시간에 이어 Workset 편집에서 한 단계 더 들어간 Class 설정에 대해 알아보겠습니다. Class는 분석 모델에서 라벨링 그 이상의 역할을 하게 됩니다. 아래 분석 그래프에서 OPLS-DA와 PCA-X로 분석한 2가지 모습을 비교해 보시죠~ OPLS-DA (Discriminant Analysis) PCA-X 두 데이터 모두 Secondary ID를 활용해 그룹별로 색을 구분할 수는 있습니다. 하지만 그룹내의 분포를 보다 정확하게 파악하기 위해서는 OPLS-DA가 월등하죠~ 차이를 보다 상세히 살펴보면 Loading 그래프에서 OPLS-DA는 X와 Y가 구분이 되어 있습니다. 여기에서 Y는 각 그룹을 행렬화하여 계산했기 때문에 그룹 간의 특징도 Y 성분을 통해 알 수 있게 됩니다. 각 그룹 내의 샘플들 끼리만 따로 추출해서 계산하는 Discriminant Analysis는 PCA-X 대비 그룹화 평가에서 우세하겠죠. 각 그룹을 따로 분리해서 볼 때도 Loading에서 해당 그룹의 Y와 X들의 거리 관계를 통해 해당 그룹 데이터의 신뢰성도 볼 수 있습니다. 판별 분석에 대한 설정은 Home > Workset 하위 메뉴인 Edit에서 변경하거나 설정할 수 있습니다. 복수의 샘플을 선택하여 class로 지정하면 Model type에서 PLS-DA 혹은 OPLS-DA를 선택할 수 있게 됩니다. 이러한 분석 방식은 화학물질 혹은 식품의 종별간 비교 시에 매우 유리합니다.

자세한 내용 보기

SIMCA의 데이터 분석편 (Workset 설정하기)

안녕하세요~ 이번 포스팅에서는 불러온 데이터를 시각화한 자료로 바꾸기 위해 필요한 기능에 대해 알아보고자 합니다. Home 탭에서 Workset 메뉴에 있는 New 기능을 위주로 우선 소개 드리겠습니다. 그래프에 대한 부분은 후속편에서 자세히 다루겠습니다~ 데이터를 불러오면 제일 먼저 해야할 것이 바로 '모델 생성' 입니다. 모델은 여러 가지 그래프로 확인할 수 있는, 기초가 되는 부분이기 때문에 생성 시에 정확하게 이해하고 만들어야 합니다. 처음 모델 생성 창으로 진입하면 여러가지 형태의 모델을 선택할 수 있습니다. 각 모델의 특징 및 어플리케이션과 생성 과정에 있는 메뉴에 대해 소개해 드리겠습니다. Overview - PCA 모든 변수는 X 속성입니다. 샘플 데이터의 그룹간 특징을 비교할 때 주로 사용합니다. 샘플링 장비에서 추출한 데이터에 적합합니다. Regression - PLS or OPLS 변수는 X 속성과 Y 속성을 가진 것으로 나뉘게 됩니다. X-Y 변수 간의 관계를 설명할 때 주로 사용합니다. 회귀분석 모델, 배치 트렌드와 같이 판단 기준이 되는 Y 변수가 있는 데이터에 적합합니다. Class differences - DA or class models 모든 변수는 X 속성입니다. 모든 변수는 Class ID를 가지고 있어야 합니다. 샘플 데이터를 강제로 그룹화(Class)하여 그룹간 비교를 할 때 주로 사용합니다. Class는 데이터 분석 시에 Y 속성으로 간주됩니다. Loading에서 Class group의 위치와 샘플의 산포를 통해 그룹 데이터의 신뢰성을 파악할 수 있습니다. 주로 실험군과 대조군을 비교하는 임상 데이터에 적합합니다. 혹은 다양한 군체의 특성을 비교하는 데이터에도 적합합니다. 이외 MOCA, Hierarc...

자세한 내용 보기

SIMCA의 데이터 전처리편

안녕하세요, 이번 포스팅에서는 SIMCA를 사용함에 있어 가장 중요한 데이터 전처리에 대한 기능을 소개하고자 합니다. 데이터 전처리는 분석을 하기에 앞서 데이터에 속성을 부여하는 작업으로, 이후에 SIMCA에서 하는 모든 계산은 이 작업을 꼭 거쳐야만 하는 매우 중요한 단계 입니다. 프로젝트는 Regular 타입을 기준으로 우선 설명 드리도록 하겠습니다. Regular project를 선택 선택 후에 분석을 원하는 엑셀 파일을 불러오면 아래와 같은 화면으로 전환됩니다. SIMCA에서는 자동으로 미리 속성을 부여해주는 기능이 있어, 초보자들도 쉽게 데이터를 불러와서 편집할 수 있습니다. 도구 모음 리본에서 제일 많이 사용하는 기능들을 우선 모아보았습니다. Variable IDs : 변수에 대한 속성을 부여합니다. Primary variable ID : 고유해야하며, 중복된 이름을 사용할 수 없습니다. Secondary variable ID : 중복이 가능하며, Loading 그래프에서 라벨 혹은 그룹색을 변경할 때 적용할 수 있습니다. Observation IDs : 샘플에 대한 속성을 부여합니다. Primary observation ID : 고유해야하며, 중복된 이름을 사용할 수 없습니다. Secondary observation ID : 중복이 가능하며, Score 그래프에서 라벨 혹은 그룹색을 변경할 때 적용할 수 있습니다. Class ID : ID에 그룹을 부여하여, 계산 시에 그룹 간의 데이터 분포 신뢰성 비교 등에 사용할 수 있습니다. Data types : Variables ID에 속성을 부여합니다. Quantitative : 변수의 속성을 숫자로 지정합니다. 대부분의 경우는 이 속성을 선택합니다. Qualitative : 변수의 속성을 문자로 지정합니다. 보통 1~2개 미만으로 하는 것을 추천 드립니다. ...

자세한 내용 보기

QbD에 도움이 되는 SIMCA를 활용한 주요 공정 파라미터 탐색하기 - 2

안녕하세요, https://sartoriusda.blogspot.com/2019/10/mvda-hierarchical-analysis.html 저번 포스팅에 이어서 계층 구조 분석에 대해 심층 분석을 해보고자 합니다. 그리고 다소 이해가 어려우셨을 수도 있는 Top-Base의 관계에 대해 추가적인 설명 안내 드립니다. 계층 구조 분석은 쉽게 4 단계로 먼저 정의할 수 있습니다. 1. 원본 트렌드 데이터 분석 (BEM) 2. 배치 수준 데이터 생성 (BLM) 3. 배치 수준 데이터 및 배치 조건 (결과 및 초기값) 데이터를 융합한 기반 모델 생성 (Base, BLM) 4. 배치 조건 데이터 및 기반 모델 융합 모델 생성 (Top, BLM) 얼핏 보면 3번과 4번 과정은 왜 있는지 의문이 들 수도 있습니다. 이번 데모의 목표는 공정 초기에 어떤 공정 파라미터를 조절해야 더 높은 결과치를 얻을 수 있는가 입니다. 따라서 공정 초기 조건과 결과를 1:1로 비교해야 하는데, 이것 만으로는 부족하겠죠. 그래서 3번 과정에서 조건 데이터와 원본 공정 데이터를 가지고 기반 데이터를 생성하게 되는 것입니다. 4번에서는 그렇게 생성된 기반 데이터를 가지고 초기 조건과 결과를 비교하게 되는데, 이 때 기반으로 사용한 데이터에서 Score 값을 제공 받음으로 인해 연관 관계를 파악하는대 도움을 주게 됩니다. 서두가 다소 길어졌네요 ^^; 이번 시간의 핵심은 저번 포스팅 마지막에 있었던 그래프에서 '신빙성'과 '연속성'에 대한 부분을 검토하고자 합니다. 저번 포스팅에서는 이 그래프를 끝으로 어떤 파라미터가 좋다더라~ 고만 마무리를 했습니다. 그럼 과연, 그 데이터는 우리가 얼마나 믿을 수가 있을까요? SIMCA에서는 더블 클릭을 통해 데이터의 하층 레이어를 살펴볼 수 있는 드릴 다운 기능을 제공합니다. 위의 데이터에서 Initial Glucose ...

자세한 내용 보기