본문 바로가기

Etc10

#10 중심극한정리의 의미 ❗️블로그 옮김: https://www.taemobang.com 방태모 안녕하세요, 제 블로그에 오신 것을 환영합니다. 통계학을 전공으로 학부, 석사를 졸업했습니다. 현재는 가천대 길병원 G-ABC에서 Data Science를 하고있습니다. 통계학, 시계열, 통계적학습과 기계 www.taemobang.com 통계학에서 중심극한정리(Central Limit Theorem, CLT)가 중요한 이유와 그 의미에 대해 생각해보자. 먼저, 수식은 배제한채 중심극한정리를 정의해보면 다음과 같다: 평균이 $\mu$, 분산은 $\sigma^2$인 임의의 모집단 분포를 갖는 확률표본(random sample)들이 있을 때, 표본 크기 $n$이 충분히 크면($n \geq 30)$ 이 확률표본들의 표본평균 $\bar{X}$.. 2021. 1. 10.
#9 대립가설이 옳다? ❗️블로그 옮김: https://www.taemobang.com 방태모 안녕하세요, 제 블로그에 오신 것을 환영합니다. 통계학을 전공으로 학부, 석사를 졸업했습니다. 현재는 가천대 길병원 G-ABC에서 Data Science를 하고있습니다. 통계학, 시계열, 통계적학습과 기계 www.taemobang.com ❗ Prerequisite 통계적 가설검정의 원리 If you're familiar with English, refer to here "대립가설이 옳다." "We can accept the alternative hypothesis." 결론부터 말하면, 통계적 가설검정을 통해 귀무가설을 기각시킬만한 충분한 증거를 얻었다고 해도 위와 같은 표현은 지양해야한다. 귀무가설을 기각시키는 결정을 하고나서, 위와.. 2020. 12. 31.
#8 표준편차와 표준오차 ❗️블로그 옮김: https://www.taemobang.com 방태모 안녕하세요, 제 블로그에 오신 것을 환영합니다. 통계학을 전공으로 학부, 석사를 졸업했습니다. 현재는 가천대 길병원 G-ABC에서 Data Science를 하고있습니다. 통계학, 시계열, 통계적학습과 기계 www.taemobang.com 표준편차(standard deviation)와 표준오차(standard error)에 대해 확실하게 정리합시다. 먼저 우리가 자료를 얻었을 때 주로 관심있는 것은 자료의 중심과 퍼짐성을 요약할 수 있는 특성값들로, 일반적으로 자료의 중심은 평균(mean), 자료의 퍼짐성을 잴 때는 분산 또는 표준편차를 사용합니다. 따라서 모집단에는 모평균 $\mu$, 모분산 $\sigma^2$, 모표준편차 $\sig.. 2020. 4. 16.
#7 자유도 ❗️블로그 옮김: https://www.taemobang.com 방태모 안녕하세요, 제 블로그에 오신 것을 환영합니다. 통계학을 전공으로 학부, 석사를 졸업했습니다. 현재는 가천대 길병원 G-ABC에서 Data Science를 하고있습니다. 통계학, 시계열, 통계적학습과 기계 www.taemobang.com 자유도(degrees of freedom)는 본질적으로 상호독립인 표본의 크기를 뜻한다. 예를 들어, 통계학에서 간단한 형태의 편차(deviation)를 계산하는 상황을 가정해보자. 가장 쉬운 예는 $(Y_i - \bar{Y})$이다. 표본의 크기를 n이라고 하면, $n$ 개의 편차들 간에 편차항들을 모두 더하면 0이 되는 종속성이 존재한다. 즉 $\sum(Y_i - \bar{Y}) = 0$이다. 따.. 2020. 4. 16.
#6 선형대수를 이용한 주성분 유도 ❗️블로그 옮김: https://www.taemobang.com 방태모 안녕하세요, 제 블로그에 오신 것을 환영합니다. 통계학을 전공으로 학부, 석사를 졸업했습니다. 현재는 가천대 길병원 G-ABC에서 Data Science를 하고있습니다. 통계학, 시계열, 통계적학습과 기계 www.taemobang.com 비지도 학습중 하나인 간단한 알고리즘 주성분 분석(PCA : principal components analysis)은 선형대수의 기본적인 개념들을 이용하여 유도할 수도 있다. $\mathbb{R}^n$의 공간에 m개의 점들(points) $\left \{ \boldsymbol{x}^{(1)}, \cdots, \boldsymbol{x}^{(m)} \right \}$이 있고, 이 점들에 대해 손실 압축(.. 2020. 4. 10.
#5 머신러닝 용어 정리 ❗️블로그 옮김: https://www.taemobang.com 방태모 안녕하세요, 제 블로그에 오신 것을 환영합니다. 통계학을 전공으로 학부, 석사를 졸업했습니다. 현재는 가천대 길병원 G-ABC에서 Data Science를 하고있습니다. 통계학, 시계열, 통계적학습과 기계 www.taemobang.com 머신러닝에서 자주 등장하는 용어임에도 불구하고, 의미가 불명확하거나 혼동해서 쓰이는 것들에 대해 정리한다. design matrix 데이터셋을 묘사하는 방법중 하나라고 생각하면된다. 행은 관측치를 나타내고, 열은 feature를 나타낸다. 예를 들어, R의 iris 데이터의 경우 design matrix $\boldsymbol{X} \in \mathbb{R}^{150\times4}$와 같이 쓰여질 것.. 2020. 4. 9.