์๋ ํ์ธ์ ๋ค์์ฃผ ๊ณผ์ ๊ณต์งํฉ๋๋ค.
์ ํ๋ธ ์์ 2๊ฐ์ ์ค์ต ๊ณผ์ ์ ๋๋ค. ์ง๋์ฃผ ์ค์ต ๊ณผ์ ์ ์ถ ์ํ์ ๋ถ์ Github์ ์ ์ถํด์ฃผ์ธ์.
-
NLP ๊ฐ์
- Seq2Seq(8-1), Transformer(8-2)
- Seq2Seq๋ ๋ค์์ฃผ์ ๋ฆฌ๋ทฐํ๊ฒ ์ง๋ง, Transformer๋ 2์ฃผ ๋ค์ ๋ฆฌ๋ทฐ ํ ์์ ์ ๋๋ค.
- ์ค์ํ๊ณ ์ด๋ ค์ด ๋ด์ฉ์ด๋ค๋ณด๋ ์๊ฐ์ ๊ฐ์ง๊ณ ๊ณ ๋ฏผํด๋ดค์ผ๋ฉด ์ข๊ฒ ์ต๋๋ค.
-
์ค์ต ๊ณผ์ : ํ๊ตญ์ด ์ฑ๋ด๋ง๋ค๊ธฐ(Seq2Seq)
- ์๋ ๋งํฌ์ ๊ฐ์๋ฉด ํ๊ตญ์ด ์ง์์๋ต๋ฐ์ดํฐ๊ฐ ์์ต๋๋ค.
- ์์ ๋ ํจ๊ป ์ฌ๋ ค๋๋ฆฌ๋ ํ๊ตญ์ด ์ฑ๋ด ๋ง๋ค๊ธฐ์ ๋์ ํด์ฃผ์ธ์. - ๋ฐ์ดํฐ : https://github.com/changwookjun/ChatBot_seq2seq - ์์ : Seq2Seq https://github.com/changwookjun/ChatBot_seq2seq_extend
-
ํ๋ก์ ํธ ์ค๋น
- ์์ง๋์ด ์ค๋ ๊ณต์ ๋ ํ๋ก์ ํธ ํฌํ ์ฌ๋ ค์ฃผ๋ฉด, ๊ด์ฌ ์๋ ๊ฒ๋ค์ ํฌํํด์ฃผ์ธ์(์ค๋ณต ํฌํ ๊ฐ๋ฅ). - =- ๋ค์์ฃผ์ ์ต์ข ํ์ ํ ๊ฒ์.
-
๋ค์์ฃผ ๋ด์ฉ
- 1~2๊ต์ : NLP ๋ด์ฉ ํ์ต (์ฐจ์ ์ถ์(์ข ํ), Seq2Seq(์ฉ์ ))
- 2~3๊ต์ : ํ์ฐ๋ ์ธ๋ฏธ๋(์ดํ๋ฆฌ์ผ์ด์ ๋ด ๋จธ์ ๋ฌ๋ ์ ์ฉ)
์๋ ํ์ธ์ ๋ค์์ฃผ ๊ณผ์ ๊ณต์งํฉ๋๋ค.
์ ํ๋ธ ๊ฐ์(4์๊ฐ)์ ์ค์ต์ด ์์ด ๋ถ์ง๋ฐํ ์์ง์ด์ ์ผํฉ๋๋ค.
-
NLP ๊ฐ์
- ๋ฒ์ :์ ํ๋ธ ์์ 8๋ฒ(05 Text Representation) ~ 13๋ฒ(06 Dimensionality_Reduction)
- Text Representation(์ฉ์ ), Dimensionality_Reduction(์ข ํ)
-
์ค์ต ๊ณผ์ : ์ค์ต ๊ณผ์ ๋ ๊นํ์ ์ฌ๋ ค์ฃผ์ธ์.(https://github.com/ds-study-gangnam)
- Popcorn ๋ฐ์ดํฐ(์บ๊ธ ์ ์ถ๊น์ง)
- ๋ค์ด๋ฒ ๋ฆฌ๋ทฐ ๋ฐ์ดํฐ
- ๋ฐ์ดํฐ : https://github.com/e9t/nsmc
- ์ฐธ๊ณ ๋์ : ํ ์ํ๋ก 2์ ๋จธ์ ๋ฌ๋์ผ๋ก ์์ํ๋ ์์ฐ์ด์ฒ๋ฆฌ(์ํค๋ถ์ค)
- ์ฐธ๊ณ ์ฝ๋
- https://cyc1am3n.github.io/2018/11/10/classifying_korean_movie_review.html
์๋ ํ์ธ์ ๋ค์์ฃผ๋ ์ ํ๋ธ ์์ ์์ด NLP ์ค์ต๋ง ์์ต๋๋ค. ์๋ ๋ด์ฉ ๋ณด์๊ณ ์คํฐ๋ ํด์ค์ธ์~
-
[NLP ์ค์ต (NLTK, Tensorflow or Pytorch ๋ฑ)]
- ์บ๊ธ ํ์ฝ ๋ํ(https://www.kaggle.com/c/word2vec-nlp-tutorial)
- ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ(ํ ํฌ๋์ด์ง, POS tagging ๋ฑ) ๋ค์ํ๊ฒ ํด๋ณผ๊ฒ
- ๋ชจ๋ธ๋ง ํ์ฌ(Tensorflow or pytorch) https://www.kaggle.com/rajmehra03/a-detailed-explanation-of-keras-embedding-layer
-
์ฐจ์ฃผ ์ธ๋ฏธ๋ ๋ด์ฉ
- 1๊ต์(9์~10์) : NLP ์ค์ต ๋ด์ฉ ๋ฆฌ๋ทฐ
- 2๊ต์(10์~11์) : ์ข ํ๋ ์ด์ผ๊ธฐ(์ถ๊ตฌ ๋ฐ์ดํฐ ๋ถ์)
- 3๊ต์(11์~12์) : ํ๋ก์ ํธ ๊ตฌ์(์์ง๋ ์ธ)
-
์์
- ์ข ํ๋, ํ์ง๋ ์ธ๋ฏธ๋(์ค์ตํฌํจ)
- 10/31 ํ๋ก์ ํธ ๋ด์ฉ ๊ณต์
- 11/7 ํ์ฐ๋
-
์ด๋ฒ์ฃผ ์ค์ต ํ์ค๋ ํน์ ๋์์ด ๋ ๊น ํด์ ๋จ๊น๋๋ค.
- ์ฉ์ ๋ ์ ์ฒ๋ฆฌ ์ฐ์ตํ ์ฝ๋์ ๋๋ค. ์ฐธ๊ณ ํ์ธ์
- https://github.com/YongseonKim/Natural-Language-Processing/tree/main/01_Bags_of_Popcorn
- ๋ค์์ฃผ์ ๋ค๋ค์์ฃผ๋ ์คํฐ๋๊ฐ ์์ต๋๋ค.
- 3์ฃผ๋ค ์คํฐ๋์์๋ Text ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ์ ํํ ๋ถ๋ถ์ ๋ํด ์ด์ผ๊ธฐ ๋๋ ์์ ์ ๋๋ค. ๊ฐ์ ๋ฃ๊ณ ์ค์ธ์~
- ์๋ ๋งํฌ 02~ 05 ๊ฐ์ ์ ๋๋ค.
- ๋ฒํธ๋ก๋ 4~11๋ฒ ์ ๋๋ค.(์ฝ 4์๊ฐ)
- https://www.youtube.com/playlist?list=PLetSlH8YjIfVzHuSXtG4jAC2zbEAErXWm
- ๋ค์์ฃผ NLP ๊ฐ์๋ ์๋ ๋งํฌ ์ ์ํ์
์ 01-1,2 Introduction to Text Analtics ์ฝ 2์๊ฐ ๊ฐ์๋ฅผ ๋ฃ๊ณ ์ค์๋ฉด ๋ฉ๋๋ค.
- ๊ฐ์ https://www.youtube.com/playlist?list=PLetSlH8YjIfVzHuSXtG4jAC2zbEAErXWm
- ๊ต์ฌ https://github.com/pilsung-kang/text-analytics
- 1์๊ฐ ๋ฐ์ ๋ ์ด๋ก ์ด์ผ๊ธฐ ํ๊ณ ๋๋จธ์ง 1์๊ฐ ๋ฐ์ ํ์ง๋๊ป์ ๊นํ ์๊ฐ(๊ด๋ฆฌ๋ฒ ๋ฑ) ํด์ฃผ์ค๊ฑฐ์์