본문 바로가기
고차원 자료분석

FWER

by be-favorite 2020. 4. 4.

 

❗️블로그 옮김:  https://www.taemobang.com

 

방태모

안녕하세요, 제 블로그에 오신 것을 환영합니다. 통계학을 전공으로 학부, 석사를 졸업했습니다. 현재는 가천대 길병원 G-ABC에서 Data Science를 하고있습니다. 통계학, 시계열, 통계적학습과 기계

www.taemobang.com

※ prerequisite

다중 검정


(참고) 후의 설명에서 나올 가설검정의 True positive(Discovery) 등과 같은 용어는 다음의 테이블을 보고 이해하면 된다. 

 

Table 1 출처 - High-Dimensional Data Analysis (Patrick Breheny)

예를 들어 True positive는 위 표에서 True Discovery($A$)로 표현할 수 있고, 귀무가설을 기각시켰는데 그 결정이 옳은 판단임을 의미한다. False negative는 위 표에서 굳이 표현하자면 False Don't reject($h_0 - A$)이며, 귀무가설을 기각시키지 않았는데 그 결정이 틀린 판단임을 의미한다. True negative와 False positive도 위와 같은 방식으로 해석하면 된다. 

 


FWER을 조절하여 다중검정을 수행하는 방법을 소개한다. FWER(family-wise error rates)이란, "전체 가설 set에서 하나라도 잘못 기각시킬 확률(제 1종오류, false positive)"을 말한다. 즉 유의수준 $\alpha$를 조절한다는 말이며, 가설 전체의 유의수준을 $\alpha$로 유지하기위해 개별검정의 $\alpha$를 적절히 조절하는 것이 FWER의 기본적인 아이디어에 해당한다.  FWER을 조절하는 가장 단순한 방법이 흔히 알고있는 본페로니 교정(Bonferroni correction)이다. 아이디어는 간단하다. 전체오류율을 $\alpha$로 맞추기 위해, 개별검정의 유의수준을 가설 개수 $h$로 나눠준다. 만약 FWER $\alpha$ 수준에서 본페로니 교정을 통해 검정을 수행한다고 하면, 개별검정의 p-value가 다음과 같은 조건을 만족하면 귀무가설을 기각시킬 수 있게 된다.

 

$p_j \leq \alpha/h$

($p_j$ : 가설 $j$의 p-value)

 

FWER을 조절하여 다중검정을 수행하는 방법에서는 adjusted p-value($\tilde{p}_j$)라는 새로운 측도를 제시해준다. 이는 개별검정의 p-value를 적절히 조정한것이며, 어느 정도 수준의 FWER을 허용해야 기각시킬 수 있는 가설인지를 말해준다. 즉, 다시말하면 해당 가설을 기각시키기 위해 최소한으로 허용해야하는 FWER이 어느정도 인지를 말해주는 값이라는 것이다. 수식으로는 다음과 같이 정의된다.

 

$\tilde{p}_j = \textrm{inf} \left \{\alpha : H_0 \;\; \textrm{rejected at FWER }\leq \alpha \right \}$

 

inf는 infimum으로 하한을 말하며, $\tilde{p}_j$의 상한값은 항상 1이다. 위 수식의 해석은 "가설 $j$를 기각하는데에 필요한 FWER $\alpha$수준의 하한이 adjusted p-value"이다. 그래서 본페로니 교정의 $\tilde{p_j} = hp_j$가 된다. 예를 들어, 본페로니 교정에 의해 수정된(adjusted) p-value가 0.03이라 함은 개별검정들이 FWER 3% 수준에서 귀무가설을 기각할 수 있는 정도(수준)임을 의미한다. 즉, FWER을 3%이상 허용하는 검정을 수행하면 개별검정들을 기각할 수 있게 된다. 그러나 본페로니 교정은 가설의 수가 많아질 수록 지나치게 엄격한(보수적인) 개별검정을 수행하게 되어, 많은 False negative를 야기시킬 수 있다는 단점이 있다. 이 문제점을 보완한 방법으로는 Holm의 방법이 있다. 만약 참인 귀무가설의 수를 알고 있다면, 개별 검정시 $\alpha$를 전체 가설개수 $h$가 아닌 기각시킨 가설의 수는 빼고 참인 귀무가설의 수로만 나눠 개별검정의 유의수준을 조절해도 된다는 것이 아이디어이다. 그래서 Holm의 방법에서는 각 개별검정의 p-value를 구한 후 오름차순으로 정렬한다. 그리고 귀무가설을 기각시킬 가능성이 큰 경우(가장 작은 p-value부터)부터 검정을 하여 유의수준 $\alpha/h$에서 기각시켰다면, 다음의 검정에서는 $\alpha$를 $h$가 아닌 $(h-1)$로 나눠준다. 이를 귀무가설을 기각시킬 수 없을 때까지 반복한다. 그래서 본페로니 교정에서의 개별검정보다 좀 더 liberal한 검정기준을 적용할 수 있는 것이다. 그러나 Holm의 방법도 가설의 개수가 많아지면 지나치게 보수적인 개별검정을 수행함은 여전하다. 상술한 두 방법은 가설간의 종속성을 고려하지는 않은 검정법들이며, 이를 고려하여 좀 더 개선된 방법이 Westfall-Young의 permutation 방법이다.

 

사실 FWER을 조절하여 다중검정을 수행하는 방법은 microarray 데이터와 같은 고차원 데이터($n \ll p$)에서 여전히 지나치게 보수적인 개별검정을 수행하는 문제점을 가진다. 예를 들어 두 종류의 백혈병을 앓고있는 환자들의($n=72$) microarray 데이터($p=7129$)로, 두 집단의 환자들 간에 각 유전자 표현(genes expression)이 얼마나 유의하게 다른지 알아보기 위해 검정을 수행한다고 하자. 즉 7,129번의 two-sample t-test를 동시에 수행하는 상황이다. 이러한 상황에 앞서 짧게 소개한 FWER을 조절하는 세 방법의 adjusted p-value가 어떻게 변하게 되는지를 시각적으로 그래프를 통해 비교해보면:

 

출처 - High-Dimensional Data Analysis (Patrick Breheny)

 

X축은 오름차순으로 정렬한 adjusted p-value의 rank라고 보면된다. 본페로니 교정은 어차피 모든 개별검정에서 adjusted p-value 값이 같으므로, 검정시 동시에 고려하는 유전자의 수를 점차 늘려 그 값을 그래프로 찍은것같다. X축의 눈금을 보면 고작 500까지 밖에 나타나지 않고있는데, Holm과 본페로니 교정은 벌써 $\tilde{p}_j$의 값이 1에 도달하고 있다. 즉, 무조건 귀무가설을 기각시키지 않는 결정을 내린다는 말이다. Westfall-Young 방법의 경우도 아직 adjusted p-value의 rank가 500도 채 안됐는데 0.5까지나 늘어나 있다. 즉, 세 방법 모두 $n \ll p$인 고차원 데이터에서의 다중검정 수행에 있어서 수 많은 False negative를 야기시킨다. 그래서 이러한 경우 FWER을 적절한 측도로 쓰기에는 무리가 있으며, 이를 보완할 수 있는 검정 방법은 FWER이 아닌 FDR(False Discovery rates)을 조절하여 검정을 수행하는 것이다. FDR에 대해서는 다음 글에서 포스팅할 예정이다.

 

 

참고 자료

High-Dimensional Data Analysis (Patrick Breheny)

'고차원 자료분석' 카테고리의 다른 글

Bias reduction of Lasso estimator  (2) 2020.05.26
Lasso regression  (0) 2020.04.28
Ridge regression  (0) 2020.04.10
고차원 자료에 대한 고전적인 회귀분석의 문제점  (0) 2020.04.08
FDR  (2) 2020.04.04

댓글