๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ

์ „์ฒด ๊ธ€73

#7 ์ž์œ ๋„ โ—๏ธ๋ธ”๋กœ๊ทธ ์˜ฎ๊น€: https://www.taemobang.com ๋ฐฉํƒœ๋ชจ ์•ˆ๋…•ํ•˜์„ธ์š”, ์ œ ๋ธ”๋กœ๊ทธ์— ์˜ค์‹  ๊ฒƒ์„ ํ™˜์˜ํ•ฉ๋‹ˆ๋‹ค. ํ†ต๊ณ„ํ•™์„ ์ „๊ณต์œผ๋กœ ํ•™๋ถ€, ์„์‚ฌ๋ฅผ ์กธ์—…ํ–ˆ์Šต๋‹ˆ๋‹ค. ํ˜„์žฌ๋Š” ๊ฐ€์ฒœ๋Œ€ ๊ธธ๋ณ‘์› G-ABC์—์„œ Data Science๋ฅผ ํ•˜๊ณ ์žˆ์Šต๋‹ˆ๋‹ค. ํ†ต๊ณ„ํ•™, ์‹œ๊ณ„์—ด, ํ†ต๊ณ„์ ํ•™์Šต๊ณผ ๊ธฐ๊ณ„ www.taemobang.com ์ž์œ ๋„(degrees of freedom)๋Š” ๋ณธ์งˆ์ ์œผ๋กœ ์ƒํ˜ธ๋…๋ฆฝ์ธ ํ‘œ๋ณธ์˜ ํฌ๊ธฐ๋ฅผ ๋œปํ•œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ํ†ต๊ณ„ํ•™์—์„œ ๊ฐ„๋‹จํ•œ ํ˜•ํƒœ์˜ ํŽธ์ฐจ(deviation)๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ์ƒํ™ฉ์„ ๊ฐ€์ •ํ•ด๋ณด์ž. ๊ฐ€์žฅ ์‰ฌ์šด ์˜ˆ๋Š” $(Y_i - \bar{Y})$์ด๋‹ค. ํ‘œ๋ณธ์˜ ํฌ๊ธฐ๋ฅผ n์ด๋ผ๊ณ  ํ•˜๋ฉด, $n$ ๊ฐœ์˜ ํŽธ์ฐจ๋“ค ๊ฐ„์— ํŽธ์ฐจํ•ญ๋“ค์„ ๋ชจ๋‘ ๋”ํ•˜๋ฉด 0์ด ๋˜๋Š” ์ข…์†์„ฑ์ด ์กด์žฌํ•œ๋‹ค. ์ฆ‰ $\sum(Y_i - \bar{Y}) = 0$์ด๋‹ค. ๋”ฐ.. 2020. 4. 16.
CRD with subsampling โ—๏ธ๋ธ”๋กœ๊ทธ ์˜ฎ๊น€: https://www.taemobang.com ๋ฐฉํƒœ๋ชจ ์•ˆ๋…•ํ•˜์„ธ์š”, ์ œ ๋ธ”๋กœ๊ทธ์— ์˜ค์‹  ๊ฒƒ์„ ํ™˜์˜ํ•ฉ๋‹ˆ๋‹ค. ํ†ต๊ณ„ํ•™์„ ์ „๊ณต์œผ๋กœ ํ•™๋ถ€, ์„์‚ฌ๋ฅผ ์กธ์—…ํ–ˆ์Šต๋‹ˆ๋‹ค. ํ˜„์žฌ๋Š” ๊ฐ€์ฒœ๋Œ€ ๊ธธ๋ณ‘์› G-ABC์—์„œ Data Science๋ฅผ ํ•˜๊ณ ์žˆ์Šต๋‹ˆ๋‹ค. ํ†ต๊ณ„ํ•™, ์‹œ๊ณ„์—ด, ํ†ต๊ณ„์ ํ•™์Šต๊ณผ ๊ธฐ๊ณ„ www.taemobang.com โ€ป prerequisite ์‹คํ—˜์„ค๊ณ„ ๊ฐœ์š” ๋ฐ ์šฉ์–ด ์ •๋ฆฌ ์ผ์›๋ฐฐ์น˜ ๋ถ„์‚ฐ๋ถ„์„(One-way Anova)์˜ ์›๋ฆฌ ์˜ค์ฐจํ•ญ์˜ ๋ถ„์‚ฐ ์ถ”์ •๊ณผ EMS ์ง€๊ธˆ๊นŒ์ง€๋Š” ์‹คํ—˜๋‹จ์œ„(EU : experimental unit)์™€ ๊ด€์ฐฐ๋‹จ์œ„(obsevational unit)๊ฐ€ ๋™์ผํ•œ ์ž๋ฃŒ๋“ค๋งŒ ์‚ดํŽด๋ณด์•˜๋‹ค. ์‹คํ—˜๋‹จ์œ„์™€ ๊ด€์ฐฐ๋‹จ์œ„๊ฐ€ ๋™์ผํ•˜์ง€ ์•Š์€ ๊ฒฝ์šฐ๊ฐ€ ์žˆ์œผ๋ฉฐ, ์ด๋Ÿฐ ๊ฒฝ์šฐ๋ฅผ ์ผ์ปฌ์–ด CRD with subsampling(๋ถ€ํ‘œ์ง‘์„ ํ•œ ์™„์ „ ๋žœ.. 2020. 4. 16.
์ง๊ต๋‹คํ•ญ์‹๊ณผ ๋ฐ˜์‘๊ณก์„ ์˜ ์ ํ•ฉ โ—๏ธ๋ธ”๋กœ๊ทธ ์˜ฎ๊น€: https://www.taemobang.com ๋ฐฉํƒœ๋ชจ ์•ˆ๋…•ํ•˜์„ธ์š”, ์ œ ๋ธ”๋กœ๊ทธ์— ์˜ค์‹  ๊ฒƒ์„ ํ™˜์˜ํ•ฉ๋‹ˆ๋‹ค. ํ†ต๊ณ„ํ•™์„ ์ „๊ณต์œผ๋กœ ํ•™๋ถ€, ์„์‚ฌ๋ฅผ ์กธ์—…ํ–ˆ์Šต๋‹ˆ๋‹ค. ํ˜„์žฌ๋Š” ๊ฐ€์ฒœ๋Œ€ ๊ธธ๋ณ‘์› G-ABC์—์„œ Data Science๋ฅผ ํ•˜๊ณ ์žˆ์Šต๋‹ˆ๋‹ค. ํ†ต๊ณ„ํ•™, ์‹œ๊ณ„์—ด, ํ†ต๊ณ„์ ํ•™์Šต๊ณผ ๊ธฐ๊ณ„ www.taemobang.com โ€ป prerequisite ๋Œ€๋น„์™€ ์ง๊ต๋Œ€๋น„์— ๋Œ€ํ•ด ๋‹จ๋ฐฑ์งˆ(์ฒ˜๋ฆฌ)๊ณผ ์ฒด์ค‘(๋ฐ˜์‘๊ฐ’, $y$)์— ๊ด€ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฐ์ ๋„๋กœ ๋‚˜ํƒ€๋ƒˆ์œผ๋ฉฐ, ๊ฐ ๊ทธ๋ฃน์˜ ๋ฐ˜๋ณต์ˆ˜๋Š” 5ํšŒ์ด๋‹ค(๋™์ผํ•œ ์ธก์ •๊ฐ’์ด ์กด์žฌํ•ด์„œ ์ค‘๋ณต๋œ ์  ์กด์žฌ). ๊ทธ๋ฆฌ๊ณ  ์‚ฐ์ ๋„์— ๊ทธ์–ด์ ธ์žˆ๋Š” ๊ณก์„ ์€ ๋ฐ์ดํ„ฐ์— 3์ฐจ ํšŒ๊ท€์„ ์„ ์ ํ•ฉ์‹œํ‚จ ๊ฒฐ๊ณผ์ด๋‹ค. ํŠนํžˆ ์ด๋Ÿฌํ•œ ํšŒ๊ท€์„ ์„ ๋ฐ˜์‘๊ณก์„ (response curve)์ด๋ผ ๋ถ€๋ฅธ๋‹ค. ์ง๊ต๋‹คํ•ญ์‹(orthogonal polynomial)์„ .. 2020. 4. 14.
Ridge regression โ—๏ธ๋ธ”๋กœ๊ทธ ์˜ฎ๊น€: https://www.taemobang.com ๋ฐฉํƒœ๋ชจ ์•ˆ๋…•ํ•˜์„ธ์š”, ์ œ ๋ธ”๋กœ๊ทธ์— ์˜ค์‹  ๊ฒƒ์„ ํ™˜์˜ํ•ฉ๋‹ˆ๋‹ค. ํ†ต๊ณ„ํ•™์„ ์ „๊ณต์œผ๋กœ ํ•™๋ถ€, ์„์‚ฌ๋ฅผ ์กธ์—…ํ–ˆ์Šต๋‹ˆ๋‹ค. ํ˜„์žฌ๋Š” ๊ฐ€์ฒœ๋Œ€ ๊ธธ๋ณ‘์› G-ABC์—์„œ Data Science๋ฅผ ํ•˜๊ณ ์žˆ์Šต๋‹ˆ๋‹ค. ํ†ต๊ณ„ํ•™, ์‹œ๊ณ„์—ด, ํ†ต๊ณ„์ ํ•™์Šต๊ณผ ๊ธฐ๊ณ„ www.taemobang.com โ€ป prerequisite ๊ณ ์ฐจ์› ๋ฐ์ดํ„ฐ์—์„œ ๊ณ ์ „์ ์ธ ํšŒ๊ท€ ๋ถ„์„์ด ๊ฐ€์ง€๋Š” ๋ฌธ์ œ์  ๊ณ ์ฐจ์› ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ํšŒ๊ท€๋ถ„์„์—์„œ $\boldsymbol{\beta}$์— ๋Œ€ํ•œ ML ์ถ”์ •๋Ÿ‰(OLS ์ถ”์ •๋Ÿ‰)์€ ๋งŽ์€ ๊ฒฐ์ ์ด ๋ฐœ์ƒํ•œ๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ๋ณ€์ˆ˜์„ ํƒ(variable selection ๋˜๋Š” model selection)์„ ํ†ตํ•œ ์ฐจ์›์˜ ์ถ•์†Œ๊ฐ€ ํ•„์š”๋กœ ๋˜๋Š”๋ฐ, ๋ณ€์ˆ˜์„ ํƒ๊ณผ ์ถ”๋ก ์„ ๊ฐ™์€ ๋ฐ์ดํ„ฐ๋กœ ์ˆ˜ํ–‰ํ•˜๋Š” Post-.. 2020. 4. 10.
#6 ์„ ํ˜•๋Œ€์ˆ˜๋ฅผ ์ด์šฉํ•œ ์ฃผ์„ฑ๋ถ„ ์œ ๋„ โ—๏ธ๋ธ”๋กœ๊ทธ ์˜ฎ๊น€: https://www.taemobang.com ๋ฐฉํƒœ๋ชจ ์•ˆ๋…•ํ•˜์„ธ์š”, ์ œ ๋ธ”๋กœ๊ทธ์— ์˜ค์‹  ๊ฒƒ์„ ํ™˜์˜ํ•ฉ๋‹ˆ๋‹ค. ํ†ต๊ณ„ํ•™์„ ์ „๊ณต์œผ๋กœ ํ•™๋ถ€, ์„์‚ฌ๋ฅผ ์กธ์—…ํ–ˆ์Šต๋‹ˆ๋‹ค. ํ˜„์žฌ๋Š” ๊ฐ€์ฒœ๋Œ€ ๊ธธ๋ณ‘์› G-ABC์—์„œ Data Science๋ฅผ ํ•˜๊ณ ์žˆ์Šต๋‹ˆ๋‹ค. ํ†ต๊ณ„ํ•™, ์‹œ๊ณ„์—ด, ํ†ต๊ณ„์ ํ•™์Šต๊ณผ ๊ธฐ๊ณ„ www.taemobang.com ๋น„์ง€๋„ ํ•™์Šต์ค‘ ํ•˜๋‚˜์ธ ๊ฐ„๋‹จํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์ฃผ์„ฑ๋ถ„ ๋ถ„์„(PCA : principal components analysis)์€ ์„ ํ˜•๋Œ€์ˆ˜์˜ ๊ธฐ๋ณธ์ ์ธ ๊ฐœ๋…๋“ค์„ ์ด์šฉํ•˜์—ฌ ์œ ๋„ํ•  ์ˆ˜๋„ ์žˆ๋‹ค. $\mathbb{R}^n$์˜ ๊ณต๊ฐ„์— m๊ฐœ์˜ ์ ๋“ค(points) $\left \{ \boldsymbol{x}^{(1)}, \cdots, \boldsymbol{x}^{(m)} \right \}$์ด ์žˆ๊ณ , ์ด ์ ๋“ค์— ๋Œ€ํ•ด ์†์‹ค ์••์ถ•(.. 2020. 4. 10.
Trace ์—ฐ์‚ฐ์ž์™€ ํ–‰๋ ฌ์‹ โ—๏ธ๋ธ”๋กœ๊ทธ ์˜ฎ๊น€: https://www.taemobang.com ๋ฐฉํƒœ๋ชจ ์•ˆ๋…•ํ•˜์„ธ์š”, ์ œ ๋ธ”๋กœ๊ทธ์— ์˜ค์‹  ๊ฒƒ์„ ํ™˜์˜ํ•ฉ๋‹ˆ๋‹ค. ํ†ต๊ณ„ํ•™์„ ์ „๊ณต์œผ๋กœ ํ•™๋ถ€, ์„์‚ฌ๋ฅผ ์กธ์—…ํ–ˆ์Šต๋‹ˆ๋‹ค. ํ˜„์žฌ๋Š” ๊ฐ€์ฒœ๋Œ€ ๊ธธ๋ณ‘์› G-ABC์—์„œ Data Science๋ฅผ ํ•˜๊ณ ์žˆ์Šต๋‹ˆ๋‹ค. ํ†ต๊ณ„ํ•™, ์‹œ๊ณ„์—ด, ํ†ต๊ณ„์ ํ•™์Šต๊ณผ ๊ธฐ๊ณ„ www.taemobang.com 1. Trace ์—ฐ์‚ฐ์ž ํ–‰๋ ฌ ๋Œ€๊ฐ์„ฑ๋ถ„์˜ ํ•ฉ์„ ๋ฐ˜ํ™˜ํ•˜๋Š” ์—ฐ์‚ฐ์ž์ด๋‹ค. ์ƒ๋‹นํžˆ ์œ ์šฉํ•˜๋‹ค! $\textrm{Tr}\left ( \boldsymbol{A} \right ) = \sum_i \boldsymbol{A}_{i,i}$ ์ด ์—ฐ์‚ฐ์ž์˜ ์œ ์šฉํ•œ ์ ๋“ค์„ ํ•˜๋‚˜ํ•˜๋‚˜ ์‚ดํŽด๋ณด์ž. (1) summation ๊ธฐํ˜ธ $\sum $์„ ์ƒ๋žตํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ค€๋‹ค. ์˜ˆ๋ฅผ ๋“ค๋ฉด, ํ–‰๋ ฌ์˜ ํฌ๊ธฐ๋ฅผ ์žฌ๋Š” Frobenius norm์„ ๋‹ค์Œ๊ณผ.. 2020. 4. 10.