본문 바로가기
728x90
반응형

딥러닝9

Transformer 정리 [Transformer] 배경 - 기존의 seq2seq는 context vector에 소스문장 압축 - 병목 현상이 발생 - Attention is all you need -> 기존의 rnn, lstm 등을 사용하지 않고 attention만을 사용한 아키텍처를 사용해보자 아키텍처 인코더 - 입력 :Input Embedding + positional Encoding rnn은 순차적으로 데이터가 입력되어 위치정보가 포함되어있지만, Transformer는 입력이 한번에 들어가기 때문에 위치정보를 따로 지정해줘야함 - Layer : Multi head Attention -> add&Norm -> Feed Forward -> add&Norm - 인코더는 N개의 Layer로 구성 - 각 Layer는 서로 다른 파라.. 2022. 10. 10.
Pretrained Language Model 정리2 [RoBerta] Roberta는 한마디로 Bert를 최적화시킨 모델이라고 할 수 있다. Bert가 under-trained 되었다는 가정하에 크게 네 가지의 변화를 준다. 1. 더 많은 데이터로, 더 긴 시간 , 더 큰 배치사이즈로 학습 2. NSP 제거 3. 긴 input sequence로 일정하게 학습 4. 동적 마스킹 1. Roberta는 Bert에 사용된 데이터보다 더 다양한 도메인의 데이터를 추가하여 더 긴 시간동안 학습했다. 이때 배치사이즈를 더 크게하고, 배치사이즈에 영향을 받는 파라미터들을 변경했다. 2. Bert는 크게 두 가지 학습 체계가 있다. 첫 번째는 MLM, 두 번째는 NSP 이다. 여기서 NSP가 과연 유용한가에 대한 의문을 제기하며 RoBerta에서는 NSP를 제거한다. 따.. 2022. 10. 9.
Pretrained Language Model 정리1 [BERT] Bidirectional Encoder Representations from Transformer -2018, google 방대한 양의 unlabeled data를 pretrained 한 후 여러 downstream task에 fine-tuning을 통해 발표 당시 여러 downstream task에 대해 성능을 개선함 - input 문장과 mask token을 예측하므로 양방향성을 가지는게 특징 model Architecture - base : encoder block(12) , hidden size(768), attention head(12) -> total params : 110M - Large : encoder block(24) , hidden size(1024), attention .. 2022. 9. 28.
728x90
반응형