๋ค์ด๊ฐ๋ฉฐ
ย ย ย 4์ฃผ์ฐจ ๊ฐ์์ ์ ์ด๋ค์๋ค. ์ด์ ๊น์ง๋ ์ฃผ๋ก Machine Learning ์ ๋ํ ๋ด์ฉ๋ค์ ๋ํด ๋ค๋ฃจ์๋ค. ๊ฐ์์ ์ง๋๊ฐ ๋งค์ฐ ๋น ๋ฅด๋ค. TIL๊ณผ ์ค์ต๊ณผ์ ๋ค์ ํด๋ณด๋ฉด์ ๊ฐ์ ์ก๊ณ ์๊ธดํ๋ฐ ๋ฒ ์ฐฌ ๊ฒ ๊ฐ๋ค. ํผ์ด๊ทธ๋ฃน์ ํ๋ฉด์ ์๋ก ์ง๋์ฒดํฌ ํ๋๊ฒ์ด ๋์์ด ๋๋ ๊ฒ ๊ฐ๋ค. ๊ทธ๋ฆฌ๊ณ ๋ถํธ ์บ ํ ์ ๊ธฐ์์ค์ AI ์์ง๋์ด๋ก ์ปค๋ฆฌ์ด ์ ํํ์ ๋ถ์ 1์๊ฐ ์ ๋ ๊ฐ์ฐ์ ํด์ฃผ์ จ๋๋ฐ, ๊ทธ๋ถ๋ ์ฒ์์๋ ๋ฉ๋ถ์ํ์๋ค๊ณ ๊ทธ๋ฌ๋ค. ํ์ง๋ง ์ดํด ์๋๋ ๊ฒ์ ๋๋ฌด ์ง์ฐฉํ์ง ๋ง๊ณ ์ต๋ํ ๊ฐ์์ ๊ณผ์ ๋ฅผ ๋ฐ๋ผ๊ฐ ๊ฒฐ๊ตญ์ ์ต์ฐ์ ์๊ฐ์์ด ๋์ จ๋ค๊ณ ํ์๋ค. ๊ทธ๋ ๊ฒ ์๋ก์๋ ์๋ก๋ฅผ ๋ฐ๊ณ ์ด์ ๋ถํฐ๋ Deep Learning ์ ๋ํ ๊ฐ์๊ฐ ์์๋๋๋ฐ ๋ค์ ํ๋ฒ ํ์ ๋ด์ผ๊ฒ ๋ค.
4์ฃผ์ฐจ
- Multi-Layer Perception
- Deep Learning
- Forward Pass
- Activation Function
- Loss Fucntion
- (์ค์ต) Pytorch Tutorial
- (์ค์ต) MLP MNIST Classfication
Multi-Layer Perception
-
Perceptron?
- ๋ค์ฐจ์ ์ ๋ ฅ ๋ฒกํฐ์ ๊ฐ์ค์น(w)๋ฅผ ๊ณฑํด ์ถ๋ ฅ ๊ฐ์ ์ป๋ ์๊ณ ๋ฆฌ์ฆ, ๋ฒกํฐ๊ฐ์ ๋ด์ + bias
-
์ ํ ๋ชจ๋ธ์ ํ์ฅ, ๊ธฐ์กด ์ ํ๋ชจ๋ธ์ด ํด๊ฒฐํ๊ธฐ ์ด๋ ค์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๋ชจ๋ธ(XOR gate problem)
-
MLP ๊ตฌ์กฐ
- Parameters: Weight, Bias
- Activation Function: input๊ณผ output ๊ด๊ณ์์ non-linearity(๋น์ ํ์ฑ)์ ์ค๋ค. -> ์ข ๋ ๋ณต์กํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐ
- Loss Function
-
MLP ๋์ ๋ฐฉ์: Forward Pass(Parmeters ์ activation function์ ์ด์ฉ) -> get Loss -> Backward Pass
-
MLP ์ layer๊ฐ ๋์ด๋๋ฉด Parameter ์๊ฐ ์์ฒญ๋๊ฒ ๋์ด๋๊ฒ ๋จ
Forward Pass
-
์ ๋ ฅ์ด ์ฃผ์ด์ก์ ๋ parameter์ activation function์ ํตํด ์ถ๋ ฅ์ ์ถ๋ก ํ๋ ๊ณผ์
-
Batch Training: ํ์ต์ด๋ ์ถ๋ก ์ ํ ๋, ํ๋์ ๋ฐ์ดํฐ๊ฐ ์๋ ์ฌ๋ฌ๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ๋ฌถ์ด์ ์งํ
- ๋ฐ์ดํฐ์ ๋ฌถ์์ batch๋ผ ํ๋ค.
- ๋ฐ์ดํฐ๋ฅผ ์ฌ๋ฌ๊ฐ๋ก ํ์ต์ ํ๊ฒ๋๋ฉด ์ข ๋ ํจ์จ์ ์ผ๋ก ์ฑ๋ฅ์ ๋์ผ์์๋ค.
- ํ๋ ฌ๊ณผ ํ๋ ฌ์ ๊ณฑ์ผ๋ก ํ์ฅ
-
Matrix Multiplication(ํ๋ ฌ๊ณฑ)?
-
Mini Batch Training:
- ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง๊ณ ํ๋๊ฒ์ ๋ฉ๋ชจ๋ฆฌ๋ over fitting์ ๋ฌธ์ ๊ฐ ์์
- ํจ์จ์ ์ธ ํ์ต์ ์ํด random ํ๊ฒ ๋ฐ์ดํฐ๋ฅผ sampling
- 1 epoch => ์ฌ๋ฌ๊ฐ์ mini-batch๋ฅผ ํตํ ํ์ต
- epoch์ ๋ฐ๋ณตํ๋ฉด์ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋์ธ๋ค.
Activation Function
- Why? ๊ฐ layer์ ์ฐ์ฐ์ ์ ํ ์ฐ์ฐ, ๋น์ ํ ์ฑ์ง์ ๊ฐ์ง activation function์ ์ ์ฉํ์ฌ ๋ชจ๋ธ์ด ๋ ๋ค์ํ ํํ๋ ฅ์ ๊ฐ์ง๋๋ก ํจ
- Activation Function ์ข
๋ฅ
- Sigmoid: ๋ฏธ๋ถ ๊ณ์?์ ๊ณ์ฐ์ด ๊ฐ๋จ, ๋ฏธ๋ถ ๊ณ์์ ๊ฐ์ด 0์ด ๋๋ ์์ญ์ด ๋๋ฌด ๋์, Vanishing Gradient Problem
- tanh: Vanishing Gradient Problem
- ReLu: input value์ max operation(max(0,x)), ๊ณ์ฐ์ด ๊ต์ฅํ ๋น ๋ฆ, ์ฃผ๋ก ๋ง์ด ์ฌ์ฉ๋จ
- Leaky-Relu: ReLu์ ๊ฐ์ด ์์์์ ์ฌ๋ผ์ง๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐ
- Softmax Function
- ๋ชจ๋ธ output ๋ถ๋ถ์์ ์ฌ์ฉ
- ๋ชจ๋ธ์ด ์ด๋ค class๋ก ์ถ์ ํ๋์ง ์ดํดํ๋๋ฐ ๋์์ ์ค
Loss Function
- ๋ชจ๋ธ์ output์ด ์ผ๋ง๋ ํ๋ ธ๋์ง๋ฅผ ๋ํ๋ด๋ ์ฒ๋, ๋์ค์ backward pass์์ ๋ชจ๋ธ์ parameter๋ฅผ ์์ ํ๋๋ฐ ์ฌ์ฉ
- ์ฃผ๋ก regression task๋ MSE loss function์ ์ฌ์ฉ
- ์ฃผ๋ก classification task๋ cross-entropy loss function์ ์ฌ์ฉ