본문 바로가기
고차원 자료분석

FDR

by be-favorite 2020. 4. 4.

 

❗️블로그 옮김:  https://www.taemobang.com

 

방태모

안녕하세요, 제 블로그에 오신 것을 환영합니다. 통계학을 전공으로 학부, 석사를 졸업했습니다. 현재는 가천대 길병원 G-ABC에서 Data Science를 하고있습니다. 통계학, 시계열, 통계적학습과 기계

www.taemobang.com

※ prerequisite

다중 검정

FWER


(참고) 후의 설명에서 나올 가설검정의 True positive(Discovery) 등과 같은 용어는 다음의 테이블을 보고 이해하면 된다. 

 

Table 1 출처 - High-Dimensional Data Analysis (Patrick Breheny)

 

예를 들어 True positive는 위 표에서 True Discovery($A$)로 표현할 수 있고, 귀무가설을 기각시켰는데 그 결정이 옳은 판단임을 의미한다. False negative는 위 표에서 굳이 표현하자면 False Don't reject($h_0 - A$)이며, 귀무가설을 기각시키지 않았는데 그 결정이 틀린 판단임을 의미한다. True negative와 False positive도 위와 같은 방식으로 해석하면 된다. 


FWER은 유전자 표현 데이터와 같은 고차원 데이터의 다중검정에서 여전히 지나치게 보수적인 결정을 내릴 수 있음을 확인했다. 이를 극복하고자 FDR(false discovery rate)이라는 새로운 측도를 제시하고 이를 조절하는 방법을 소개한다. FDR은 "귀무가설이 틀렸다고 판단한 주장 중 잘못된 판단의 기대 비율(비율의 기댓값)"을 말한다. 대표적으로 두 사람이 제안한 FDR이 있는데 이는 다음과 같다($h$:가설의 수).

 

  • Benjamini & Hochberg의 FDR = $E[\frac{A}{R}\;|\; R>0]\;p(R>0)$
  • Storey의 positive FDR = $E[\frac{A}{R}\;|\; R>0]$ (for very large $h$, $\because p(R>0) \approx 1$)

유전자 표현(genes expression)을 $X$로 하는 것과 같은 고차원 데이터에서 두 그룹간 다중검정시, FDR과 pFDR은 거의 동일할 것이다. FDR은 많은 False positive를 허용하지만, 훨씬 더 많은 True positive를 찾아낸다. 즉, 가설검정 횟수가 매우 많을 때도 FWER보다 훨씬 더 liberal 한 결정을 내릴 수 있다("검정력이 강하다"는 말과 같다). FDR을 조절하는 대표적인 방법인 BH(Benjamini & Hochberg) procedure을 이용해 FDR $q$ 수준에서 검정을 수행한다고 하면, 개별검정의 q-value가 다음과 같은 조건을 만족하면 귀무가설 $H_{0(i)}$를 기각시킬 수 있게 된다.

 

$p_{(i)} \leq \frac{i}{h}q$

($p_{(i)}$ : p-value를 오름차순으로 정렬한 것)

 

FWER에서 개별검정의 adjusted p-value $\tilde{p}$를 제시해주듯, FDR은 q-value라는 측도를 제시해준다. q-value도 p-value에 기반한 값으로 FDR에서 제공하는 일종의 adjusted p-value라고 할 수 있다.

 

$\tilde{q}_j = \textrm{inf} \left \{q : H_0 \;\; \textrm{rejected at FDR }\leq q \right \}$

 

inf는 infimum으로 하한을 말하며, $\tilde{q}_j$의 상한값은 항상 1이다. 위 수식의 해석은 "가설 $j$를 기각하는데에 필요한 FDR $q$수준의 하한이 q-value"이다. FWER처럼 $\alpha$를 조절하는 것이 아니므로 해석에는 주의가 필요하다. 예를 들어, 가설 $j$의 $q = 0.05$라 하자. 이는 FDR 5% 수준에서 귀무가설을 기각시킬 수 있는 검정임을 뜻하여, FDR을 5% 이상 허용시 귀무가설을 기각할 수 있게 된다. 조금 달리 말하면 $q = 0.05$는 귀무가설이 틀렸다고 판단한 주장 중 잘못된 판단의 비율을 5% 이상으로 설정하면, 가설 $j$를 기각할 수 있다는 뜻이다. 그래서 FDR의 q-value는 FWER의 adjusted p-value보다 좀 더 직관적인 해석력을 가진다고 할 수 있다.

 

이제 두 종류의 백혈병을 각각 앓는 환자들($n = 72$)의 microarray 데이터($p=7129$)로 FWER과 FDR을 조절하는 다중검정법 간에 adjusted p-value가 어떻게 변화해 나가는지 알아보자. 이를 시각적으로 표현하면:

 

출처 - High-Dimensional Data Analysis (Patrick Breheny)

 

Y축은 adjusted p-value또는 q-value가 귀무가설을 기각하기 위해 최소한으로 허용해야만 하는 FWER과 FDR을 의미하며, X축은 그 값들을 오름차순으로 정렬했을 때의 rank라고 보면된다. 본페로니 교정은 어차피 모든 개별검정에서 adjusted p-value 값이 같으므로, 검정시 동시에 고려하는 유전자의 수를 점차 늘려 그 값을 그래프로 찍은것같다. Bonferroni와 Westfall은 동시에 검정이 필요한 가설의 수가 커질수록 급격하게 FWER이 증가하여, 많은 False negative를 야기시킬 것으로 보인다. 그러나 BH 방법의 경우 증가의 정도가 매우 완만하여, 가설의 수가 커져도 많은 True positive를 잡아낼 수 있을 것으로 예상한다. 이처럼, 고차원 데이터($n \ll p$)의 다중검정과 같은 상황에는 FWER보다 FDR이 훨씬 더 좋은 측도로 여겨진다.

 

FDR에서 제공하는 q-value와 그에 따른 해석, 그리고 실제로 FWER보다 위와 같은 상황에 더 좋은 측도임을 확인했다. F그러나 아직 FDR의 대해 충분히 이해하기에는 설명이 매우 부족하다. 이제 그림들을 통해서 FDR과 BH 방법이 대체 어떤 역할을 하는지 직관적으로 이해해보자!

 

(앞으로의 설명과 그림의 출처는 Youtube의 StatQuest 채널 - False Discovery Rates, FDR, Clearly explained에 기반을 두고 있습니다. 원본 영상을 한 번정도는 보시는 것을 추천드립니다. FDR을 설명하는 최고의 영상입니다.)

https://www.youtube.com/watch?v=K8LQSvtjcEo

False Discovery Rates, FDR, Clearly explained (Statquest) on Youtube

 

StatQuest에서 제시하는 FDR의 주 아이디어(Main idea)는, “FDR은 좋아 보이는 나쁜 데이터를 제거하는 도구(FDR are a tool to weed out bad data that looks good.”라는 것이다. 그 이유는 이 글을 읽다보면 짐작할 수 있다. 이제 본론으로 들어가서, 예를 통해 설명한다. 쥐들의 RNA-sequencing 유전자 표현(gene expression)을 측정값을 그래프로 표현해보자. 이는 같은 종의 쥐여도 측정시마다 항상 조금씩 달라진다.

 

출처 - False Discovery Rates, FDR, Clearly explained (Statquest) on Youtube

 

회색 점선은 쥐들의 RNA 평균값을 뜻한다. 대부분 값은 평균 근처에 있고, 평균보다 훨씬 작거나 큰 RNA 값들도 가끔 존재한다. 따라서 RNA 값을 분포로 나타내면 다음과 같을 것이다.

 

출처 - False Discovery Rates, FDR, Clearly explained (Statquest) on Youtube

 

자 이제 아래와 같이 쥐 3마리의 RNA를 분포로부터 추출했다고 하자.

 

출처 - False Discovery Rates, FDR, Clearly explained (Statquest) on Youtube

 

첫 번째 Sample은 분포의 중심으로부터 추출된 것으로 예상되고, 두 번째 Sample도 그렇다. 즉, two-sample t-test를 수행하면 p-value > 0.05일 것이다. 반대로 만약 다음과 같이 추출됐다면, p-value < 0.05일 것이다.

 

출처 - False Discovery Rates, FDR, Clearly explained (Statquest) on Youtube

 

이런 상황이 발생하는 경우를 우리는 “false positive”라고 한다(가설검정에서 귀무가설을 기각시키는 행위를 positive로 정의한다). 그 이유는 위와 같이 추출이 된 경우 p-value < 0.05가 되어 귀무가설을 기각하게 되는데, 사실 두 표본은 같은 분포로부터 추출된 것이기 때문이다. 단일검정을 수행하는 것과 같은 보통의 경우 이러한 false positive는 잘 발생하지 않는다.

 

출처 - False Discovery Rates, FDR, Clearly explained (Statquest) on Youtube

 

(유의수준 0.05하에) 95%의 경우는 왼쪽의 그림처럼 추출되어, p-value > 0.05로 올바른 판단 “true negative”를 내리겠지만, 5%의 경우는 그렇지 않다(즉 “false positive”). 이렇게 false positive는 5%밖에 발생하지 않지만, 사람과 쥐의 세포는 최소 10,000개의 유전자로 구성되어 있고, 만약 우리가 같은 타입의 쥐로부터 표본 2개를 추출한다면 그에 따라 최소 10,000번의 검정이 필요하게 된다. 이 경우 10,000번의 5%이므로, 500개의 false positive가 발생할 수 있다. 이는 500개의 유전자는 유의한 차이가 있는 것처럼 보이지만 실제로는 그렇지 않음을 뜻한다. 500개의 false positive는 너무나 많다! 이런 경우에 우리는 무엇을 할 수 있을까? FDR은 이러한 false positive의 수를 통제할 수 있게 해준다. 사실 FDR은 false positive를 직접적으로 제한하는 방법은 아니고, false positive를 제한하는 방법들과 상호교환적인(interchangeable) 용어로 쓰인다. 특히 “Benjamini-Hochberg method(BH method)”에서 그렇다. BH method를 자세하게 알아보기 전에, 어떤 개념을 기반으로 만들어진 방법인지 알아보자.

먼저 동일한 분포로부터 표본을 추출하여 10,000개의 p-value 값을 구하자.

 

출처 - False Discovery Rates, FDR, Clearly explained (Statquest) on Youtube

 

당연히 대부분의 p-values 값이 클 것이며, 발생시킨 10,000개의 p-value로 히스토그램을 그려보자.

 

출처 - False Discovery Rates, FDR, Clearly explained (Statquest) on Youtube

 

히스토그램의 빈 크기는 0.05이다. 즉 10,000개 중 510개의 p-value가 잘못된 결론(false positive)을 내렸다. 그리고 그 옆의 빈 0.05-0.1의 값을 가지는 p-value도 전체 p-value 중 약 5%를 차지한다. p-value 분포가 균일하게 분포하고 있으므로, 검정의 p-value가 20개의 빈 중 하나에 포함될 확률은 모두 같음을 알 수 있다. 그럼 이제 다른 두 분포로부터 표본을 추출하는 경우 p-value의 분포가 어떻게 되는지 확인해보자. 실험군(mice treated with drugs)은 빨간색 선, 대조군(control mice)은 검은색 선으로 나타낸다. 아마 대부분 작은 값의 p-value를 가지게 될 것이다.

 

출처 - False Discovery Rates, FDR, Clearly explained (Statquest) on Youtube

 

예상과 일치하는 결과이며, p-value의 분포를 히스토그램으로 나타내면 다음과 같다.

 

출처 - False Discovery Rates, FDR, Clearly explained (Statquest) on Youtube

 

마찬가지로 빈 크기는 0.05이다. 대부분의 p-value가 0.05보다 작으며, 이는 대부분이 올바른 결론(True positive)을 내리고 있음을 뜻한다. 나머지 빈(즉, p-values > 0.05)은 잘못된 결론(false negative)을 내린다. 지금까지 알아본 바를 정리해보자.

 ○ 같은 분포로부터 발생시킨 표본들로 계산한 p-value들은 균일 분포 형태를 띈다.
 ○ 다른 두 분포로부터 발생시킨 표본들로 계산한 p-value들은 0으로 크게 치우쳐져 있다(skewed to the right).

위 사실은 꼭 기억해야하며 중요하다. 이제 신경세포에 있는 활성 유전자(active genes)들을 검정하는 실험을 한다고 가정할 것이다. 신경세포는 실험군(treated with a drug), 대조군으로 구성되고, 약물은 1,000개의 유전자에 영향을 끼쳤다. 즉 이 1,000개의 유전자들은 다른 두 분포로부터 표본을 발생시킨 경우와 같다고 보면 되고, 나머지 9,000개는 같은 분포로부터 표본을 발생시킨 경우와 같다. 

 

출처 - False Discovery Rates, FDR, Clearly explained (Statquest) on Youtube

 

그래서 1,000개의 유전자와 나머지 유전자들의 p-value 분포는 각각 위와 같은 분포 형태를 띤다. 두 히스토그램을 합치면 10,000개 유전자의 p-value 히스토그램이 될 것이고 다음과 같다.

 

출처 - False Discovery Rates, FDR, Clearly explained (Statquest) on Youtube

 

같은 분포로부터 추출된 표본으로 추정한 p-value는 균일하게 분포한다는 점을 이용하여, 둘을 합친 히스토그램을 보면 우리는 많은 것을 추론할 수 있다.

 

출처 - False Discovery Rates, FDR, Clearly explained (Statquest) on Youtube

 

그림을 보고 순서대로 추론하자(빈의 크기는 0.05). 먼저 첫 번째 그림을 통해 주황색으로 색칠된 bin들에 속하는 p-value들은 균일하게 분포하고 있으므로 약물로부터 영향을 받지 않은 유전자들임을 알 수 있다. 그에 따라 두 번째 그림에서 색칠이 되어있는 4개의 빈에 포함된 p-value들은 약물로부터 영향을 받은 유전자들과 그렇지 않은 유전자들이 섞여 분포하고 있음을 알 수 있다. p-value들이 균일하게 분포하고 있는 빈의 높이를 기준으로 빨간색 점선을 그어 y축 눈금을 읽어보면(3번째 그림) 각 빈의 빈도를 알 수 있고, 빈 당 450개의 p-value가 쌓여있다. 그럼 이 빨간색 점선을 쭉 연장하여 이를 올바른 판단(true positive)을 내리는 cut-off로 사용할 수 있으며, 빨간색 점선 위로 파란색으로 색칠된 것들은 약물로부터 영향을 받은 유전자들의 p-values임을 알 수 있다(4번째 그림). 보통 귀무가설을 기각시키는 기준을 0.05로 설정하기 때문에 나머지 빈들에 속하는 경우 어차피 모두 귀무가설을 기각시키지 못하는 결론을 내린다(negative). 그래서 우리는 귀무가설을 기각시키는 결론을 내리게 되는 첫 번째 빈에 속하는 p-values에 집중하자(5번째 그림). 그럼 약 450개의 p-values가 각각 점선 위아래에 위치하게 된다. 근데 여기서 점선 위의 것은 약물에 영향을 받은 유전자들이므로 올바른 결론(true postive)을 내린 것이 된다. 첫 번째 빈에 속하는 true positives를 false positives로부터 골라내는 한 가지 방법은 가장 작은 p-values 450개만 고려하는 것이다. 이는 꽤 좋은 방법일 것이다. 그 이유는 다음 그림에 잘 설명이 되어있다.

 

출처 - False Discovery Rates, FDR, Clearly explained (Statquest) on Youtube

 

각 p-values의 전체 분포에서 첫 번째 빈에 속하는 p-value들의 분포만을 확대하여 살펴보자. 실제로 유의한 차이가 있는 유전자들은 0으로 매우 치우쳐져 분포하고, 차이가 없는 유전자들은 빈도가 낮게 고르게 분포한다. 그래서 p-values를 오름차순을 정렬해 처음 450개만 고려하면 True positives만 잘 골라낼 수 있다는 것이다! 이 개념들을 잘 이해했다면 FDR과 BH method에 대해 훨씬 더 잘 이해할 수 있다.

BH method에 깔려있는 아이디어는 다 이해했으니, Details을 살펴보자. ○ 우리는 BH method의 기본적인 idea를 히스토그램을 통해 시각적으로 이해할 수 있었다. 그래서 BH method는 “eyeball“ method에 기반을 두었다고도 표현한다. 곧 BH  method가 하는 역할이 어떻게 되는지 살펴볼 것이다.


 ○ BH method는 ”유의하다(significant)“는 결론이 내려진 false positive의 수를 제한하는 방식으로 p-value를 조정한다(이를 특별히 q-value라고 표현함). 여기서 p-value를 조정한다는 뜻은, 기존의 개별검정의 p-value를 더 크게 만드는 것이다. 예를 들어 FDR correction을 수행하기 전 p-value가 0.04(significant)였다면, FDR correction 후엔 0.06이 된다는 것이다. 이는 동영상의 초반에서 제시해주는 FDR의 주 아이디어와 연결되는 내용이기도 하다.
 ○ FDR < 0.05 하에 검정을 수행한다는 뜻은, ”유의하다(significant)“라는 결과 중 5% 미만은 false positive임을 뜻한다. 즉 이를 그림으로 설명해보면:

 

출처 - False Discovery Rates, FDR, Clearly explained (Statquest) on Youtube

 

색칠된 빈에 속하는 모든 p-values < 0.05이며, 오른쪽 그림의 검은 점선 상자는 FDR correction을 수행하여 계산된 adjusted p-value(또는 q-vlaue) < 0.05인 유전자들을 나타낸다. 여기서 알아두어야 할 점은 해당 박스 안의 모든 유전자가 “true positive”는 아니라는 것이며, 이 의미를 전달하기 위해 상자를 빨간색으로 색칠된 빈이 약간 겹치게 그렸다. 즉, 수정된 p-value들의 5%는 false positive일 것이며, 95%는 올바른 결론(true positive)이라는 말이다. 그럼 실제로 유의한 차이가 있는(True positives) 모든 유전자의 adjusted FDR p-values가 0.05보다 작은 값을 갖지 않는 이유는 뭘까? 그 이유는 모든 true positives 유전자들이 매우 작은 p-values를 갖진 않기 때문이다. 다음 그림에 잘 설명되어있다:

 

출처 - False Discovery Rates, FDR, Clearly explained (Statquest) on Youtube

 

마지막으로 BH method의 수학적 idea를 간단한 예를 통해 살펴보자. 생각보다 간단하다.

 

출처 - False Discovery Rates, FDR, Clearly explained (Statquest) on Youtube

같은 분포를 가지는 10쌍의 표본들을(i.e. 약물에 영향을 받지 않은 10개 유전자) 추출하여 p-value를 계산하고, 이를 오름차순으로 정렬한다. 그 결과가 두 번째 p-values이며, 하나의 p-values가 잘못된 결론(false positives)을 내린다. 이때 BH method가 오름차순으로 정렬된 p-values를 어떻게 수정하고 이것이 어떤 역할을 하는지 자세히 알아보자. 먼저, 가장 큰 p-value = 0.91은 FDR correction을 거쳐도 변하지 않는다(큰 것에서 작은 것 순으로 수정을 하여 step-up method라고도 함). 다음 p-value = 0.81부터 두 가지 선택을 할 수 있고, 이는 다음의 식을 통해 선택된다($\tilde{p}_j$ = adjusted p-value = q-value).

 

$\tilde{p}_j = min(p_{i+1}, \frac{m}{i}p_i)$, ($i$ : p-value의 rank, $m$ : total # of p-values)

 

즉 수정된 p-value와 이전에 수정된 p-value 중 더 작은 값을 선택함. 위 예에서 이전의 adjusted p-value = 0.91이며, p-value = 0.81의 adjusted p-value는 $0.81$*$\frac{10}{9} = 0.90$ 이다. 그래서 0.90 값을 adjusted p-value로 택하게 된다. 이 과정을 반복하면 최종적으로:

 

출처 - False Discovery Rates, FDR, Clearly explained (Statquest) on Youtube

 

마지막으로 이러한 예를 더 큰 검정횟수로 확장하여 BH method를 적용한 경우, p-value 값의 전후를 나타내는 그림을 보자.

 

출처 - False Discovery Rates, FDR, Clearly explained (Statquest) on Youtube

 

왼쪽 그림을 먼저 보면 eyeball method에 의해 첫 번째 빈의 상위 4개 p-values들은 “true positives”가 된다. 오른쪽 그림의 모든 p-values들을 BH procedures를 거쳐서 수정한 결과에 해당한다. 첫 번째 빈들의 adjusted p-values들을 보자. 기존의 하위 4개의 false positives들이 0.05보다 큰 값을 가지게 됐으며, 나머지 true positives는 0.05보다 작은 값을 유지하고 있다. 즉 모두 올바른 판단을 내려 FDR 수준이 0이 됐다! 하지만, 이는 매우 이상적인 결과이다. 실제 문제에서는 앞서 BH method의 details를 설명할 때 마지막 부분에서 보여주었던 예제에서 확인한 바와 같이, True positives의 p-value의 모든 값이 매우 작진 않아 5%의 FDR을 허용했듯이, 일정 퍼센트의 FDR을 허용하는 검정을 수행해야 할 것이다.

 

 

참고 자료

High-Dimensional Data Analysis (Patrick Breheny)

False Discovery Rates, FDR, Clearly explained (Statquest) on Youtube

'고차원 자료분석' 카테고리의 다른 글

Bias reduction of Lasso estimator  (2) 2020.05.26
Lasso regression  (0) 2020.04.28
Ridge regression  (0) 2020.04.10
고차원 자료에 대한 고전적인 회귀분석의 문제점  (0) 2020.04.08
FWER  (0) 2020.04.04

댓글