인공지능
Deep learning one hot encoding
kid1412
2019. 10. 20. 23:05
728x90
원-핫 인코딩
각 단어의 인덱스를 정한 후 각 단어의 벡터를 각 단어에 해당하는 인덱스의 값을 1로 표현하는 방법
장점 :
- 간단하고 이애하기 쉽다.
단점 :
- 단어 수가 많아지면 많아질수록 벡터의 크기가 커지기 때문에 공간이 많이 사용되고 비효율적.
- 단어의 의미나 특성 같은 것들이 전혀 표현되지 않는 것.
코딩 순서
- 형태소 분석기로 문장들을 자릅니다.
- 자른 문장들을 합쳐서 하나의 사전으로 만듭니다.
- 사전에 등록된 단어의 인덱스를 1로 바꾸고 나머지는 0으로 넣은 배열을 출력합니다.
단점 타파
- 카운터 기반 방법
- 특이값 분해 (Singular Value Decomposition, SVD)
- 잠재의미분석 (Latent Semantic Analysis, LSA)
- Hyperspace Analogue to Language (HAL)
- Hellinger PCA(Principal Component Analysis)
- 예측 방법
- Word2Vec
- NNLM(Neural Network Language Model)
- RNNLM(Recurrent Neural Network Language Model)
참고문헌
- 텐서플로와 머신러닝으로 시작하는 자연어 처리: 로지스틱 회귀부터 프랜스포머 챗봇까지 (http://www.yes24.com/Product/Goods/69334316?Acode=101)