본문 바로가기
실험설계/일원배치법

직교다항식과 반응곡선의 적합

by be-favorite 2020. 4. 14.

 

❗️블로그 옮김:  https://www.taemobang.com

 

방태모

안녕하세요, 제 블로그에 오신 것을 환영합니다. 통계학을 전공으로 학부, 석사를 졸업했습니다. 현재는 가천대 길병원 G-ABC에서 Data Science를 하고있습니다. 통계학, 시계열, 통계적학습과 기계

www.taemobang.com

※ prerequisite

대비와 직교대비에 대해

 

 

그림1. 반응곡선의 적합

단백질(처리)과 체중(반응값, $y$)에 관한 데이터를 산점도로 나타냈으며, 각 그룹의 반복수는 5회이다(동일한 측정값이 존재해서 중복된 점 존재). 그리고 산점도에 그어져있는 곡선은 데이터에 3차 회귀선을 적합시킨 결과이다. 특히 이러한 회귀선을 반응곡선(response curve)이라 부른다. 직교다항식(orthogonal polynomial)을 이용하면 처리에 대한 반응값(y)의 변화 패턴을 다항식으로 근사시킬 수 있으며, 처리 수준에 따른 데이터의 추세가 일차적인지 또는 이차적인지 판단할 수 있다.

 

위 그래프의 반응값들의 변화 패턴을 보면 일차식으로는 절대 전부 설명할 수 없다. 아마 이차식으로는 많은 부분을 설명할 수 있으리라 짐작된다. 이때 필요한 것이 직교대비를 분해하는 것이다. 이를 특별히 직교다항식 분해라고 하며, 처리 제곱합을 일차식, 이차식 등으로 설명 가능한 부분으로 쪼개서 각각의 기여도를 기초로 반응값의 변화 패턴을 살펴보는 것이 목적이다. 직교다항식을 데이터 해석에 이용하려면, 처리 수준이 양적(quantitative, i.e. Protein)이어야 하며 등간격이어야 유리하다. 그림1에 나타나는 데이터는 이를 모두 만족시킨다. 처리 수준이 $t$개이면, $(t-1)$차 까지 직교다항식 분해가 가능하다. 왜냐하면 $t$개 점을 연결할 수 있는 다항식은 (t-1)차이기 때문이다. 위 자료는 처리 수준이 4개 이므로, 3차까지 분해가 가능하다. 이때 분해의 개념은, 반응값의 패턴을 일단 1차 관계로 최대한 설명한다. 그리고 1차항으로 설명이 되지 못한 부분은 1차항과 직교하는(즉, 서로독립) 2차항으로 설명하고, 1차와 2차항으로도 설명되지 않은 부분은 역시 직교하는 3차항을 추가하여 설명하는 것이다. 이러한 직교다항식을 이용하려면 각 차수에 대응되는 직교대비 계수들을 적절히 설정해야 한다. 다음은 처리수준이 6일 때까지의 계수들을 정리한 표이다.

간단한 예로 처리 수준이 3일때 직교다항식 계수들이 어떻게 결정되는지 살펴보자. 처리 수준은 등간격이며 양적이라고 가정한다.

 

그림 2. 직선형의 반응 패턴 & 그림 3. 비직선형의 반응 패턴

위 두 그림을 참고하면서 보자. 처리 간 선형 효과(linear effect) 또는 일차 효과는 다음과 같은 개념으로 정리된다. 처리 1에서 처리 2 사이의 선형 효과는 $(Y_1 - Y_2)$로 정의되며, 마찬가지로 처리 2에서 처리 3까지의 선형 효과는 $(Y_3 - Y_2)$로 정의한다. 즉, 처리 1에서 처리 2를 거쳐 처리 3까지 나타난 반응 패턴의 선형 효과는 $(Y_2 - Y_1)$과 $(Y_3 - Y_2)$의 합으로 정의하면 된다. 즉:

선형 효과 $= (Y_2 - Y_1) + (Y_3 - Y_2) = (-1)Y_1 + (0)Y_2 + (1)Y_3$

만약 그림 3에서 처럼 이차 효과(quadratic effect)가 존재한다면 분명히 $(Y_2 - Y_1)$과 $(Y_3 - Y_2)$의 값은 같지 않을 것이다. 예를 들어, 그림 2에서와 같이 만일 이 두 값이 동일하다면 이차 효과가 없는 것이다. 그래서 이차 효과는 $(Y_3 - Y_2)$와 $(Y_2 - Y_1)$간의 차이로 정의한다. 즉

이차 효과 $= (Y_3 - Y_2) - (Y_2 - Y_1) = (1)Y_1 + (-2)Y_2 + (1)Y_3$

위 표의 $t=3$일 때의 1차 및 2차 계수들은 이렇게 결정된 것이다.

 

직교다항식을 통한 처리 효과의 추세(반응패턴)를 판단하는 과정을 정리하면, 자료를 $(t-1)$차까지의 직교다항식으로 분해하고 각 직교 대비들의 변동($SS$, 제곱합)을 비교하면 된다. 변동의 크기가 클수록, 해당 차수의 반응 패턴이 큼을 의미한다.

 

만약 처리 수준들이 등간격이 아니면, 위 표에 주어진 계수는 사용 하지 못한다. 이 경우 손계산이 필요한데, 일차 계수는 손쉽게 얻을 수 있지만 이차 계수 이상의 결정은 쉽지 않다. 한 가지 예로 만약 처리 수준의 값들이 40, 80, 90으로 등간격이 아니라고 해 보자. 이러한 경우 선형 효과(일차 효과)에 대한 계수는 다음과 같이 얻는다. 40, 80, 90의 평균은 70이고, 각 수준값에서 평균을 빼면 다음을 얻는다.

$40-70 = -30$,  $80-70 = +10$, $90-70 = +20$

이 차이값들의 비는 다음과 같이 간단히 할 수 있다.

$-30 : +10 : +20 = -3 : 1 : 2$

즉 -3, 1, 2가 선형 효과를 분해하는데 사용되는 직교 다힝식의 계수가 된다.

 

 

참고한 책

성내경 (2012). 실험설계와 분석 2판. 자유아카데미

'실험설계 > 일원배치법' 카테고리의 다른 글

CRD with subsampling  (0) 2020.04.16
대비와 직교대비에 대해  (0) 2020.03.30
다중비교 검정법 소개  (0) 2020.03.30
고정효과 모형과 랜덤효과 모형에 대해  (0) 2020.03.30
불균형 자료에 대해  (0) 2020.03.22

댓글