jam 블로그

Deep learning one hot encoding 본문

인공지능

Deep learning one hot encoding

kid1412 2019. 10. 20. 23:05
728x90

원-핫 인코딩

각 단어의 인덱스를 정한 후 각 단어의 벡터를 각 단어에 해당하는 인덱스의 값을 1로 표현하는 방법

장점 :

  1. 간단하고 이애하기 쉽다.

단점 :

  1. 단어 수가 많아지면 많아질수록 벡터의 크기가 커지기 때문에 공간이 많이 사용되고 비효율적.
  2. 단어의 의미나 특성 같은 것들이 전혀 표현되지 않는 것.

코딩 순서

  1. 형태소 분석기로 문장들을 자릅니다.
  2. 자른 문장들을 합쳐서 하나의 사전으로 만듭니다.
  3. 사전에 등록된 단어의 인덱스를 1로 바꾸고 나머지는 0으로 넣은 배열을 출력합니다.

단점 타파

  1. 카운터 기반 방법
  • 특이값 분해 (Singular Value Decomposition, SVD)
  • 잠재의미분석 (Latent Semantic Analysis, LSA)
  • Hyperspace Analogue to Language (HAL)
  • Hellinger PCA(Principal Component Analysis)
  1. 예측 방법
  • Word2Vec
  • NNLM(Neural Network Language Model)
  • RNNLM(Recurrent Neural Network Language Model)

참고문헌

Comments