본문 바로가기
Etc

#5 머신러닝 용어 정리

by be-favorite 2020. 4. 9.

❗️블로그 옮김:  https://www.taemobang.com

 

방태모

안녕하세요, 제 블로그에 오신 것을 환영합니다. 통계학을 전공으로 학부, 석사를 졸업했습니다. 현재는 가천대 길병원 G-ABC에서 Data Science를 하고있습니다. 통계학, 시계열, 통계적학습과 기계

www.taemobang.com

 

머신러닝에서 자주 등장하는 용어임에도 불구하고, 의미가 불명확하거나 혼동해서 쓰이는 것들에 대해 정리한다.

 

design matrix

데이터셋을 묘사하는 방법중 하나라고 생각하면된다. 행은 관측치를 나타내고, 열은 feature를 나타낸다. 예를 들어, R의 iris 데이터의 경우 design matrix $\boldsymbol{X} \in \mathbb{R}^{150\times4}$와 같이 쓰여질 것이다. design matrix로 데이터셋을 표현하기 위해서는 각 관측치들은 같은 크기의 벡터로 표현될 수 있어야 한다. design matrix로 모든 데이터셋을 표현할 수 있는 것은 아니다. 예를 들어, 다른 너비(widths)와 높이(heights)를 가지는 사진들의 집합은 픽셀이 다른 사진들로 구성이 되어있으므로, 모든 사진들이 같은 길이의 벡터로는 표현되지 않을것이다.

 

목적함수(objective function)

"criterion"이라고도 표현한다. 우리가 최소화 또는 최대화를 시키길 원하는 함수를 말한다.

 

손실함수(loss function)

"비용함수(cost function)" 또는 "오차함수(error function)"라고도 표현한다. 최소화 하고자하는 목적함수를 특별히 칭하는 용어이다.

 

generalization

이전에 관측하지 않은 데이터(e.g. test data)에도 좋은 성능을 보여주는 능력을 말한다. 즉, generalization error = test error라고 볼 수도 있다.

 

regularization

학습알고리즘(학십시킨 머신러닝 모형)의 training error가 아닌 generalization error를 줄일 목적으로, 해당 학습알고리즘에 어떤 수정(modification)을 가하는 모든 행위를 통칭한 것을 말한다

 

📝 참고 문헌

[1] Goodfellow, Ian, Yoshua Bengio, and Aaron Courville. Deep Learning. The MIT Press, 2016

'Etc' 카테고리의 다른 글

#7 자유도  (0) 2020.04.16
#6 선형대수를 이용한 주성분 유도  (0) 2020.04.10
#4 구간추정 해석에 대한 고전적 관점과 베이지안 관점  (0) 2020.04.07
#3 다중 검정  (0) 2020.03.30
#2 통계적 가설검정의 원리  (0) 2020.03.28

댓글