๋ค์ด๊ฐ๋ฉฐ
ย ย ย 2์ฃผ์ฐจ ๊ฐ์์ ์ ์ด๋ค์๋ค. ์ด๋ฒ ๊ฐ์๋ Machine Learning์ค output์ด ์ฃผ์ด์ง๋ Supervised Learning์ ๋ํด์, ๊ทธ๋ฆฌ๊ณ ๊ธฐ๋ณธ์ด ๋๋ Linear Model์ ๋ํ ๋ด์ฉ์ ๊ธฐ๋ฐ์ผ๋ก Decision Tree, Ensemble ๊ธฐ๋ฒ์ ๋ํ ๋ด์ฉ ์ด์๋ค. ์ด์ ๋ณธ๊ฒฉ์ ์ผ๋ก ๊ฐ์๊ฐ ์์๋ ๊ฒ์ธ๋ฐ, ์์ฒญ ๊น๊ฒ ๋ค์ด๊ฐ์ง๋ ์์ง๋ง ์์ง ์ฉ์ด๋ ๊ฐ๋
์ ์ต์์น ์๋ค๋ณด๋ ์ฝ์ง ์์ ๋ด์ฉ์ด์๋ค. ์ก์ค์ ๊ทธ๋งํ๊ณ ๊ฐ์ ๋ด์ฉ ์ ๋ฆฌํด๋ณด์.
2์ฃผ์ฐจ
- Supervised Learning
- Linear Model
- Decision Tree
- Ensemble
- (์ค์ต) Logistic Regression
- (์ค์ต) Decision Tree
Supervised Learning
- ์ง๋ ํ์ต, ์ ๋ต ๋ ์ด๋ธ์ด ์๋ ํ์ต๋ฐฉ๋ฒ, input x์ ๋ํด์ output ์ ์์ธกํ๋ ๋ฐฉ๋ฒ์ด๋ค.
- Train ๋จ๊ณ์์ ๋ชจ๋ธ์ fitting ํ๊ณ , Test ๋จ๊ณ์์ fitting ํ ๋ชจ๋ธ inference(์ถ๋ก )๋ฅผ ์งํํ๋ค.
y = f(x) (input x์ ๋ํ y๊ฐ์ ์ถ๋ก )
Supervised Learning์ ๋ค์ํ ์์๋ค
-
Linear Model: ๋ค๋ฅธ ๋ณต์กํ ๋ชจ๋ธ์ ๊ฐ์ฅ ๊ธฐ๋ณธ์ด ๋๋ ๋ชจ๋ธ.
-
Linear Regression
-
Logistic Regression: decision boundary๋ฅผ ์ฐพ๋ ์๊ณ ๋ฆฌ์ฆ, ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฅํ ๋ ์ฌ์ฉํ๋ค.
-
Support Vector Machine(SVM): decision boundary(Maximum margin seperator)๋ฅผ ์ฐพ๋ ์๊ณ ๋ฆฌ์ฆ
- Maximum Margin Seperator: Seperator(์ )๋ฅผ ๊ธฐ์ค์ผ๋ก ์์์ผ๋ก ๋ฐ์ดํฐ margin์ด ๊ฐ์ฅ ๋จผ Seperator
- Support Vector: Maximum Margin Seperator์ ๊ฐ์ฅ ์ ํด์๋ ๋ฐ์ดํฐ
-
-
Naive Bayes Classification: ํ๋ฅ ๊ธฐ๋ฐ model, Bayes Rule ์ด๋ผ๋ ํ๋ฅ ๊ณต์์ ์ฌ์ฉ, ์ ํ๋ ๋ณด๋ค๋ ๊ฐ๋ณ๊ณ ๋น ๋ฅด๊ฒ ๋์์ผํ๋ ์ดํ๋ฆฌ์ผ์ด์ ์์ ์ฌ์ฉ. (ex. spam ํํฐ๋ง, ๋ฌธ์ฅ ๊ฐ์ ๋ถ์, ์ถ์ฒ ์์คํ )
-
Gaussian Process: ํ๋ฅ ๊ธฐ๋ฐ model, ๋ฐ์ดํฐ {x, f(x)}๊ฐ Multivariate(๋ค๋ณ์) Gaussian ๋ถํฌ๋ผ ๊ฐ์ , ์์ธก์ ๋ํ confidence๋ฅผ ์ ์ ์์
-
K-Nearest Neighbors(KNN):
- Nonparametric approach (Training ๋ฐ์ดํฐ๊ฐ ๋์ด๋๋ฉด paramter ๊ฐ์๋ ๋์ด๋๋ ํํ)
- ํธ๋ ์ด๋ ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ ์ ์ฅํด ๋จ๋ค๊ฐ, ์๋ก์ด input ๋ฐ์ดํฐ๊ฐ ๋ค์ด์์๋ ๊ฐ์ฅ ๊ฐ๊น์ด k๊ฐ์ ๊ฐ๋ค์ ํตํด output์ ์์๋ธ๋ค.
- Curse of dimensionality: input feature๊ฐ ๊ณ ์ฐจ์์ผ๋ ๋ง์ ์์ ํ์ต๋ฐ์ดํฐ ํ์ํ๋ค.
-
Decision Tree: Explainable ํ๋ค. ์ฌ๋์ ์ฌ๊ณ ๋ฐฉ์๊ณผ ์ ์ฌ. Overfitting์ด ๋๊ธฐ ์ฝ๋ค.
-
Random Forest: ์ฌ๋ฌ๊ฐ์ Decision Tree์ Ensemble, ์ฌ๋๋ค์ ์ง๋จ์ง์ฑ๊ณผ ๊ฐ์ ๋๋์ด๋ค. Variance๊ฐ ๊ฐ์
-
Neural Network
์ด๋ค ์ํฉ์๋ ์๋ง๋ ์๊ณ ๋ฆฌ์ฆ์ ์๋ค. ๋ฐ์ดํฐ์ ํํ๋ ๊ฐ์ ์ปดํจํ ์์๋ฑ์ ๊ณ ๋ คํ์ฌ ์ ์ ํ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ฌ์ผ ํ๋ค.
Linear Model
- ๋ค๋ฅธ ๋ณต์กํ ๋ชจ๋ธ์ ๊ธฐ๋ณธ์ด ๋๋ ๋ชจ๋ธ์ด๋ค.
- ๊ฐ๋จํ ๋ชจ๋ธ -> Generalization
- ํ์ฅ์ฑ: ๋ค๋ฅธ ๋ณต์กํ ๋ชจ๋ธ์ ๊ธฐ๋ณธ์ด ๋๋ ๋ชจ๋ธ
Linear Regression
- y = wx + b
- loss(์ค์ฐจ)์ผ๋ก๋ MSE(์ ๊ณฑ์ ํ๊ท ) function์ ์ฌ์ฉ
- loss๋ฅผ ์ต์ํ ํ๊ธฐ์ํ w, b๋ฅผ ์ฐพ๋๋ค.
- Gradient Descent(๊ฒฝ์ฌํ๊ฐ๋ฒ): 2์ฐจ ํจ์์ ๊ธฐ์ธ๊ธฐ๊ฐ 0์ด ๋๋๊ฒ์ ์ฐพ๋๊ฒ์ด ๋ชฉ์
- closed-from solution, gradient descent
- general linear model: nonlinear ํ ๋ฐ์ดํฐ๋ฅผ fitting
Linear Classification
- linear decision boundary๋ฅผ ์ฐพ๋ ๊ฒ์ด ๋ชฉํ
- threshold function์ ์ฌ์ฉํ ๋ถ๋ฅ(0 or 1)
- Perceptron(์ ๊ฒฝ๋ง)
Logistic Regression
-
logistic ํจ์๋ฅผ ์ด์ฉํด์ class label์ด 1์ผ ํ๋ฅ ์ ์์ธก
-
soft threshold, sigmoid ๋ผ๊ณ ๋ ๋ถ๋ฆผ (non linearlity)
-
MSE loss ๋์ log loss ์ฌ์ฉ
ใด non linearlity ๋๋ฌธ์
ใด MSE๋ฅผ ์ฌ์ฉํ๋ฉด loss function์ด 2์ฐจํจ์์ ํํ๊ฐ ์๋๊ฒ ๋๋ฏ๋ก…
Decision Tree
- ์์ธก๋ณ์(Predictor): input feature
- ์์ธก๋ณ์์ ๊ณต๊ฐ์ ์ฌ๋ฌ์์ญ์ผ๋ก ๊ณ์ธตํ, ๋ถํ
- Explainalbe ํ๋ค, ์๊ฐํํ๊ธฐ ์ข๋ค
- over fitting์ ์ทจ์ฝ, input data์ ์์ ๋ณํ์๋ ์์ธก๊ฐ์ด ํฌ๊ฒ ๋ณํ -> Ensemble ๊ธฐ๋ฒ
Regression Tree
-
์ ์ฒด ์์ธก๋ณ์ ๊ณต๊ฐ์ ๊ฒน์น์ง ์๋์์ญ์ผ๋ก box๋ค๋ก ๋ถํ ํ๋ค
-
๊ทธ๊ณณ์ ์ํ๋ training data ์ ํ๊ท ์ ํตํด ์์ธก๊ฐ์ ๋ฐํํ๋ค
-
Sum of Squared Errors (SSE)๋ฅผ ์ต์ํํ๋ ๊ฒ์ด ๋ชฉํ
-
top-down, greedy: root ๋ ธ๋๋ถํฐ ๋จ๊ณ๋ณ๋ก SSE๊ฐ ์ต์ํ๋๋ split์ ์ฐพ๋๋ค. (Recursive Binary Splitting)
-
stopping criterion: over fitting์ ๋ฐฉ์งํ๊ธฐ ์ํด leaf node์ ๋ฐ์ดํฐ ์๋ฅผ ์ ํ ํ๋๊ฒ(ex. leaf node์ ๊ฐ์๋ฅผ 5๊ฐ๋ก ์ ํ)
-
Pruning a Tree (ํฐ Tree๋ฅผ ๋ง๋ ํ Pruning(๊ฐ์ง์น๊ธฐ))
ใด Cost complexity pruning(weakest link pruning)
Classification Tree
- ๊ฐ์ฅ ๋ง์ด ๋ฑ์ฅํ๋ class๊ฐ ์์ธก class๊ฐ ๋๋ค.
- Classification error rate: ๊ฐ์ฅ ๋น์จ์ด ๋์ ํด๋์ค์ ๋น์จ๋ง ๊ณ ๋ ค
- Gini index, Entropy: ํ ํด๋์ค๋ก ๋ถํฌ๊ฐ ์น์ฐ์น๊ฒ ๋๋ฉด ์์๊ฐ, ๊ณจ๊ณ ๋ฃจ ๋ถํฌ๋๋ฉด ํฐ๊ฐ -> ์์๊ฐ ์ผ์๋ก ์ข๋ค. (node impurity๋ผ๊ณ ๋ ๋ถ๋ฅธ๋ค)
- Pruning์์๋ ์ต์ข ์์ธก ์ ํ๋๋ฅผ ์ํด Classification error rate๋ฅผ ์ฃผ๋ก ์ฌ์ฉ
Ensemble Methods
- ์ฌ๋ฌ ๊ฐ์ ๊ฐ๋จํ ‘building block’ ๋ชจ๋ธ๋ค์ ๊ฒฐํฉํด ํ๋์ ๊ฐ๋ ฅํ ๋ชจ๋ธ์ ๋ง๋๋ ๋ฒ
- Decision Tree -> Bagging, Random Forest, Boosting
Bagging
- Bootstrap aggregation
- Variance ๊ฐ์ ํจ๊ณผ
- ๋ค๋ฅธ tree ์ฌ๋ฌ๊ฐ์ ๊ฒฐ๊ณผ๋ฅผ ํ๊ท ํด์ ์ต์ข ์์ธก -> low variance
- Bootstrapping: ๋ฐ์ดํฐ์ ์์ randomํ ๋ณต์์ถ์ถ์ ํตํด B๊ฐ์ bootstrapped ๋ฐ์ดํฐ์ ์ ๋ง๋๋ ๊ฒ
- Out-of-Bag error estimation: bootstrapped ๋์ง ์์ ๋ฐ์ดํฐ๋ฅผ validation error๋ฅผ ๊ณ์ฐ
- Variable Importance Meassures: ๋ชจ๋ tree์ ๋ํ ์์ธก๋ณ์์ split์ผ๋ก ์ธํด SSE ๊ฐ์ํ ์ ๋๋ฅผ ์ธก์ ํ์ฌ ํ๊ท ์ ์ทจํจ. ์์ธก ๋ณ์๊ฐ ํ๋จ์ ๋์์ด ์ด๋์ ๋ ๋๋์ง ํ์ ํ๋๋ฐ ๋์์ด ๋๋ค.
- Random Forest
- tree๋ค์ decorrelate(data set๋ค๊ฐ์ correlation์ ์ค์ด๋ ๊ฒ) ํด์ฃผ๊ณ ์ split์ ์งํํ ๋๋ง๋ค ์ ์ฒด p๊ฐ์ ์์ธก๋ณ์ ์ค ๋๋คํ๊ฒ m๊ฐ์ ๋ณ์๋ฅผ ๋ฝ๊ณ , ์ด๋ค๋ง ๊ณ ๋ คํ์ฌ split ์งํ
Boosting
-
Bagging๊ณผ ๋ค๋ฅด๊ฒ ํ์ตํ Tree๋ค์ ์ ๋ณด๋ฅผ ์ด์ฉํ์ฌ ์์ฐจ์ ์ผ๋ก Tree ํ์ต
-
Bias ๊ฐ์ ํจ๊ณผ
-
์ ์ฒด data set์ ์ฌ์ฉ, ์๋ชป ์์ธกํ ๋ฐ์ดํฐ์ ์ง์คํ์ฌ ๋ฐ๋ณตํ์ต์ ์ํจ๋ค.
-
3๊ฐ์ hyperparameter
- Tree์ ๊ฐ์ B: ๋๋ฌด ํฌ๋ฉด overfit ๋ ์ ์๋ค.
- Shirinkage parameter: ํ์ต ์๋๋ฅผ ์กฐ์ , 0.01 ~ 0.001
- split ํ์ d: boosted tree์ complexity๋ฅผ ์กฐ์ , boosting์ ํตํด bias๋ฅผ ์ค์ด๋ฏ๋ก d๊ฐ ํด ํ์๊ฐ ์๋ค.
- Gradient Boosting, AdaBoost