728x90 반응형 경량화1 [KD] On-Policy Distillation of Language Models: learning from Self-Generated Mistakes Instruction일반적으로 student는 teacher보다 더 적은 파라미터를 가지므로, distillation을 통해 teacher보다 적은 추론 비용과 메모리 풋프린트을 유지하면서 특정 작업의 성능을 향상시킬 수 있다. auto-regrressive sequence model을 위한 현재의 distillation 방법은 비용이 많이 들 수 있는 teacher에서 fixed set of output sequences을 생성하거나 teacher가 token-level 확률을 레이블로 할당하는 fixed 시퀀스 데이터를 생성해야한다. 그러나 fixed 데이터셋은 훈련 중 보이는 출력 과 추론 중 생성하는 출력의 분포 불일치를 이끌 수 있다.더불어, 학생은 teacher의 분포를 맞추기에 표현력이 충분.. 2024. 12. 31. 이전 1 다음 728x90 반응형