FWER

방태모

안녕하세요, 제 블로그에 오신 것을 환영합니다. 통계학을 전공으로 학부, 석사를 졸업했습니다. 현재는 가천대 길병원 G-ABC에서 Data Science를 하고있습니다. 통계학, 시계열, 통계적학습과 기계

www.taemobang.com

※ prerequisite

(참고) 후의 설명에서 나올 가설검정의 True positive(Discovery) 등과 같은 용어는 다음의 테이블을 보고 이해하면 된다.

Table 1 출처 - High-Dimensional Data Analysis (Patrick Breheny)

예를 들어 True positive는 위 표에서 True Discovery($A$)로 표현할 수 있고, 귀무가설을 기각시켰는데 그 결정이 옳은 판단임을 의미한다. False negative는 위 표에서 굳이 표현하자면 False Don't reject($h_0 - A$)이며, 귀무가설을 기각시키지 않았는데 그 결정이 틀린 판단임을 의미한다. True negative와 False positive도 위와 같은 방식으로 해석하면 된다.

FWER을 조절하여 다중검정을 수행하는 방법을 소개한다. FWER(family-wise error rates)이란, "전체 가설 set에서 하나라도 잘못 기각시킬 확률(제 1종오류, false positive)"을 말한다. 즉 유의수준 $\alpha$를 조절한다는 말이며, 가설 전체의 유의수준을 $\alpha$로 유지하기위해 개별검정의 $\alpha$를 적절히 조절하는 것이 FWER의 기본적인 아이디어에 해당한다. FWER을 조절하는 가장 단순한 방법이 흔히 알고있는 본페로니 교정(Bonferroni correction)이다. 아이디어는 간단하다. 전체오류율을 $\alpha$로 맞추기 위해, 개별검정의 유의수준을 가설 개수 $h$로 나눠준다. 만약 FWER $\alpha$ 수준에서 본페로니 교정을 통해 검정을 수행한다고 하면, 개별검정의 p-value가 다음과 같은 조건을 만족하면 귀무가설을 기각시킬 수 있게 된다.

$p_j \leq \alpha/h$

($p_j$ : 가설 $j$의 p-value)

FWER을 조절하여 다중검정을 수행하는 방법에서는 adjusted p-value($\tilde{p}_j$)라는 새로운 측도를 제시해준다. 이는 개별검정의 p-value를 적절히 조정한것이며, 어느 정도 수준의 FWER을 허용해야 기각시킬 수 있는 가설인지를 말해준다. 즉, 다시말하면 해당 가설을 기각시키기 위해 최소한으로 허용해야하는 FWER이 어느정도 인지를 말해주는 값이라는 것이다. 수식으로는 다음과 같이 정의된다.

$\tilde{p}_j = \textrm{inf} \left \{\alpha : H_0 \;\; \textrm{rejected at FWER }\leq \alpha \right \}$

inf는 infimum으로 하한을 말하며, $\tilde{p}_j$의 상한값은 항상 1이다. 위 수식의 해석은 "가설 $j$를 기각하는데에 필요한 FWER $\alpha$수준의 하한이 adjusted p-value"이다. 그래서 본페로니 교정의 $\tilde{p_j} = hp_j$가 된다. 예를 들어, 본페로니 교정에 의해 수정된(adjusted) p-value가 0.03이라 함은 개별검정들이 FWER 3% 수준에서 귀무가설을 기각할 수 있는 정도(수준)임을 의미한다. 즉, FWER을 3%이상 허용하는 검정을 수행하면 개별검정들을 기각할 수 있게 된다. 그러나 본페로니 교정은 가설의 수가 많아질 수록 지나치게 엄격한(보수적인) 개별검정을 수행하게 되어, 많은 False negative를 야기시킬 수 있다는 단점이 있다. 이 문제점을 보완한 방법으로는 Holm의 방법이 있다. 만약 참인 귀무가설의 수를 알고 있다면, 개별 검정시 $\alpha$를 전체 가설개수 $h$가 아닌 기각시킨 가설의 수는 빼고 참인 귀무가설의 수로만 나눠 개별검정의 유의수준을 조절해도 된다는 것이 아이디어이다. 그래서 Holm의 방법에서는 각 개별검정의 p-value를 구한 후 오름차순으로 정렬한다. 그리고 귀무가설을 기각시킬 가능성이 큰 경우(가장 작은 p-value부터)부터 검정을 하여 유의수준 $\alpha/h$에서 기각시켰다면, 다음의 검정에서는 $\alpha$를 $h$가 아닌 $(h-1)$로 나눠준다. 이를 귀무가설을 기각시킬 수 없을 때까지 반복한다. 그래서 본페로니 교정에서의 개별검정보다 좀 더 liberal한 검정기준을 적용할 수 있는 것이다. 그러나 Holm의 방법도 가설의 개수가 많아지면 지나치게 보수적인 개별검정을 수행함은 여전하다. 상술한 두 방법은 가설간의 종속성을 고려하지는 않은 검정법들이며, 이를 고려하여 좀 더 개선된 방법이 Westfall-Young의 permutation 방법이다.

사실 FWER을 조절하여 다중검정을 수행하는 방법은 microarray 데이터와 같은 고차원 데이터($n \ll p$)에서 여전히 지나치게 보수적인 개별검정을 수행하는 문제점을 가진다. 예를 들어 두 종류의 백혈병을 앓고있는 환자들의($n=72$) microarray 데이터($p=7129$)로, 두 집단의 환자들 간에 각 유전자 표현(genes expression)이 얼마나 유의하게 다른지 알아보기 위해 검정을 수행한다고 하자. 즉 7,129번의 two-sample t-test를 동시에 수행하는 상황이다. 이러한 상황에 앞서 짧게 소개한 FWER을 조절하는 세 방법의 adjusted p-value가 어떻게 변하게 되는지를 시각적으로 그래프를 통해 비교해보면:

출처 - High-Dimensional Data Analysis (Patrick Breheny)

X축은 오름차순으로 정렬한 adjusted p-value의 rank라고 보면된다. 본페로니 교정은 어차피 모든 개별검정에서 adjusted p-value 값이 같으므로, 검정시 동시에 고려하는 유전자의 수를 점차 늘려 그 값을 그래프로 찍은것같다. X축의 눈금을 보면 고작 500까지 밖에 나타나지 않고있는데, Holm과 본페로니 교정은 벌써 $\tilde{p}_j$의 값이 1에 도달하고 있다. 즉, 무조건 귀무가설을 기각시키지 않는 결정을 내린다는 말이다. Westfall-Young 방법의 경우도 아직 adjusted p-value의 rank가 500도 채 안됐는데 0.5까지나 늘어나 있다. 즉, 세 방법 모두 $n \ll p$인 고차원 데이터에서의 다중검정 수행에 있어서 수 많은 False negative를 야기시킨다. 그래서 이러한 경우 FWER을 적절한 측도로 쓰기에는 무리가 있으며, 이를 보완할 수 있는 검정 방법은 FWER이 아닌 FDR(False Discovery rates)을 조절하여 검정을 수행하는 것이다. FDR에 대해서는 다음 글에서 포스팅할 예정이다.

참고 자료

High-Dimensional Data Analysis (Patrick Breheny)

저작자표시 (새창열림)

'고차원 자료분석' 카테고리의 다른 글

Bias reduction of Lasso estimator (2)	2020.05.26
Lasso regression (0)	2020.04.28
Ridge regression (1)	2020.04.10
고차원 자료에 대한 고전적인 회귀분석의 문제점 (0)	2020.04.08
FDR (2)	2020.04.04

SLOG

FWER

'고차원 자료분석' 카테고리의 다른 글

댓글

티스토리툴바

FWER

'고차원 자료분석' 카테고리의 다른 글

관련글

댓글

티스토리툴바