Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- Shellcode
- 인공지능
- 백엔드
- deep learning
- hackerschool
- BOF
- backend
- 러닝스칼라
- hacking
- php
- 웹해킹
- 러닝 스칼라
- Scala
- 경제
- webhacking
- 파이썬
- Javascript
- Web
- Linux
- c
- flask
- 챗GPT
- 딥러닝
- 리눅스
- c++
- hackthissite
- mysql
- ChatGPT
- Python
- BOF 원정대
Archives
- Today
- Total
목록2019/12 (1)
jam 블로그
Extreme Language Model Compression with Optimal Subwords and Shared Projections
Abstract 현재 사전 훈련된 모델들(ELMo GPT BERT XLNet)이 다양한 언어 이해 과제에서 좋은 성적을 거두고 있음. 그러나 모델들이 너무 커서 모바일이나 Edge 기기에서 사용하기가 어려움. 그래서 나온 knowledge distillation이 있지만 원래 Teacher 모델과는 다른 어휘로 Student 모델을 산출하는데에는 효과가 없음. 이 논문에서 훨씬 더 작은 어휘와 낮은 임베딩, hidden state dimensions을 가진 student 모델을 훈련시키기 위해 새로운 knowledge distillation을 도입함. Teacher, student 모델을 동시에 훈련시켜 student 어휘를 위한 최적의 워드 임베딩을 얻는 dualtrain 메커니증을 채용. teache..
인공지능
2019. 12. 18. 16:33