๋ค์ด๊ฐ๋ฉฐ
ย ย ย 3์ฃผ์ฐจ ๊ฐ์์ ์ ์ด๋ค์๋ค. ์ด๋ฒ ๊ฐ์๋ Machine Learning์ค output์ด ์ฃผ์ด์ง์ง ์๋ Unsupervised Learning์ ๋ํ ๋ด์ฉ์ด๋ค. ์์ํ ์์๋ค๊ณผ ์ฒ์๋ฃ๋ ์ฉ์ด๋ค ๋๋ฌธ์ ์ดํดํ๊ธฐ๊ฐ ํ๋ค์ง๋ง, ๋๋ฌด ์ง์ฐฉํ์ง๋ง๊ณ ์ต๋ํ ์ฒ์ ๋ณด๋ ค๊ณ ๋
ธ๋ ฅ์ค์ด๋ค. ๊ทธ๋๋ ์ค์ต์์ ์ค์ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง๊ณ ์งํํ๋ค๋ณด๋ ์ข ๋ ์ดํดํ๊ธฐ๊ฐ ์์ํ์๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๋ฒ ๋ถํธ์บ ํ์์๋ Peer Group์ ์ ํด์ฃผ๋๋ฐ, ์๋ฌด๋๋ ์จ๋ผ์ธ์ผ๋ก ์งํํ๋ค๋ณด๋ ์๋ก์ ์ง๋๋ฅผ ์ฒดํฌํ๊ณ , Study์ ์์ด ์๋ก์๊ฒ ๋์์ ์ฃผ๋ ๊ฒ์ด ๋ชฉ์ ์ธ๊ฒ ๊ฐ์๋ค. ์๋ฌด๋๋ ์ทจ์ค์์ด๋ ํ์๋ถ๋ค์ด ๋ง์ด ์ฐธ์ฌํ Group๋ค์ด ๋ง์ด ๋ณด์๋ค. ๋คํํ๋ ์ง์ฅ์ธ๋ถ๋ค์ด ๋ง์ Group์ด ์์ด ๊ทธ๊ณณ์ ์ฐธ์ฌํ์ฌ ๋ง๋จ์ ์งํํ์๊ณ , ๋ค์ํ ๋ถ์ผ์ ์ฌ๋๋ค์ ๋ง๋๋ณด๊ณ ๊ฐ์ด Study ํ๋ ๊ธฐํ๋ฅผ ๊ฐ์ง๊ฒ๋์ด ์ข์๋ ๊ฒ ๊ฐ๋ค.
3์ฃผ์ฐจ
- Unsupervised Learning
- Dimensionallity Reduction
- Clustering
- (์ค์ต) Data Analysis with Pandas
Unsupervised Learning
- ์ ๋ต label์ด ์๋ ํธ๋ ์ด๋์ ์ด ์ฃผ์ด์ง
- output์ ์์ธก์ ํ๋๊ฒ์ด ๋ชฉํ๊ฐ ์๋๋ผ, input feature์์ ์๋ฏธ์๋ ํจํด ์ฐพ๊ธฐ๊ฐ ๋ชฉ์ ์ด๋ค.
- ์๊ฐํ, ์ ์ฒ๋ฆฌ, ์ฐจ์์ถ์๋ฑ์ ๋ฐ์ดํฐ ๋ถ์ ,์ด์ ํ์ง๋ฑ์ ๋ชฉ์ ์ผ๋ก ์ฌ์ฉ
- Dimensionallity Reduction, Clustering
Dimensionallity Reduction
-
High-dimensional Data: ์ถ์ฒ์์คํ (users * movies), ์ด๋ฏธ์ง, ๋์์, ์ ์ ์ ๋ถ์
-
Curse of dimensionality: ๋ฐ์ดํฐ๊ฐ ๊ณ ์ฐจ์์ผ์๋ก,๊ฐ์ ์ฑ๋ฅ์ ๋ชจ๋ธ ํ์ต์ ์ํด ๋ง์ ๋ฐ์ดํฐ๊ฐ ํ์
-
๋ถํ์ํ๊ฒ ์ค๋ณต๋๋ ๋ณ์๋ ์๋ฏธ์๋ ๋ณ์๋ฅผ ์ค์ด์
-
PCA(Principal Compo): ๋ฐ์ดํฐ variance๋ฅผ ๋ณด์กดํ๋ฉด์ ์ฐจ์์ถ์
- ๋ฐ์ดํฐ์ ๋ถ์ฐ์ ๊ฐ์ฅ ์ ์ค๋ช ํด์ฃผ๋ ์ถ์ ์ฐพ๋๋ค.
- projection ์ดํ variance๋ฅผ ์ต๋ํํ๋ ์ถ โ Convariance matrix? ๋ฅผ ์ต๋๋กํ๋
- PVE?
- ใด Scree plot์์ โelobw pointโ๋ฅผ ์ฐพ๊ฑฐ๋, ๋ฏธ๋ฆฌ ์ ํ ํฌ๊ธฐ์ ๋ถ์ฐ์ ์ค๋ช ํ๋ ๊ฐ์ฅ ์์ components๋ฅผ ์ฌ์ฉ
- ํ๊ณ์ : classificaion์ ๋์์ด ๋์ง์์ ์ ์๋ค.(variance์ ์ด์ ์ ๋ง์ถ๊ธฐ๋๋ฌธ)
-
MDS: ๋ฐ์ดํฐ๊ฐ์ ๊ฑฐ๋ฆฌ๋ฅผ ๋ณด์กดํ๋ฉด์ ์ฐจ์์ถ์
-
t-SNE: local neighborhood ์ ๋ณด๋ฅผ ๋ณด์กดํ๋ฉด์ ์ฐจ์์ถ์, ์ฐจ์์์ ๋ฉ๋ฆฌ ๋จ์ด์ ธ์๋ ๋ฐ์ดํฐ๋ ์ ๊ฒฝ์ ๋ณ๋ก ์ฐ์ง์๊ณ ๊ฐ๊น์ด ์๋ ๋ฐ์ดํฐ๋ค์ด ์ฐจ์์ถ์ ํ์๋ ๊ฐ๊น์์ ธ ์๊ธฐ๋ฅผ ๊ธฐ๋ํ๋ค.
- ๋ฐ์ดํฐ๊ฐ ์ฃผ์ด์ก์๋ neighbor์ผ ํ๋ฅ ์ gaussian ๋ถํฌ๋ฅผ ๋ฐ๋ฅธ๋ค.
-
Auto-encoder, Word2Vec: ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ์ ์ฐจ์ ์ถ์
-
Clustering
-
๋ฌธ์, ์ด๋ฏธ์ง ๊ตฐ์งํ, ์ฃผ์ ์ข ๋ชฉ ๊ตฐ์งํ, ์๊ถ ๋ถ์, ๊ตฌ๋งค ํจํด๋ฑ
-
Partitioning Clustering: ์ฌ์ ์ ์ ์๋ ์ซ์์ ๊ตฐ์ง์ค ํ๋์ ์์
- K-Means Clustering:
- ๊ฐ ๊ตฐ์ง์ ํ๋์ ์ค์ฌ์ ๊ฐ์ง(centroid)
- ์ฌ์ ์ ๊ตฐ์ง์ ์ K๊ฐ ์ ํด์ ธ์ผ ํจ
- SSE๋ฅผ ์ต์ํ ํ๋ partition์ ์ฐพ๋๊ฒ > elbow point k๋ฅผ ์ฐพ๋๊ฒ, ๊ทธ ์ด์์ overfitting
- ํ๊ณ์ : ๊ตฐ์ง์ ํฌ๊ธฐ, ๋ฐ๋๊ฐ ๋ค๋ฅด๊ฑฐ๋ ๊ตฌํ์ด ์๋๊ฒฝ์ฐ ์ข์ง ์์ ๊ฒฐ๊ณผ๊ฐ ๋์ด
- K-Means Clustering:
-
Hierarchial Clustering: ๊ณ์ธต์ ์ธ ๋ฐ์ดํฐ ๊ตฐ์งํ. Dendrogram
- Agglomerative Clustering:
- K๋ฅผ ๋ฏธ๋ฆฌ ์ ํด์ค ํ์๊ฐ ์์
- ๊ฑฐ๋ฆฌ ๊ณ์ฐ๋ฐฉ์์ ๋ฐ๋ผ ๋ค์ํ ๊ฒฐํฉ (linkage) ๋ฐฉ์์ด ์์
- min distance, max distnace, average distance, centroid distance
- ํ๊ณ์ : ๊ณ์ฐ๋ณต์ก๋๊ฐ ํฌ๋ค, ๊ตฐ์งํ๊ฐ ์๋ชป๋๋ฉด ๋๋๋ฆด ์ ์๋ค.
- Agglomerative Clustering:
-
Density-based Clustering: ๋ฐ์ดํฐ์ density๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์์์ ํํ์ ๊ตฐ์ง์ ์ฐพ๋๊ฒ
- DBSCAN: ๋ฐ์ดํฐ์ densitiy๊ฐ ๋์ ์์ญ๊ณผ ๊ทธ๋ ์ง ์์ ์์ญ์ผ๋ก ๊ตฌ๋ถ