본문 바로가기
728x90
반응형

분류 전체보기48

Transformer 정리 [Transformer] 배경 - 기존의 seq2seq는 context vector에 소스문장 압축 - 병목 현상이 발생 - Attention is all you need -> 기존의 rnn, lstm 등을 사용하지 않고 attention만을 사용한 아키텍처를 사용해보자 아키텍처 인코더 - 입력 :Input Embedding + positional Encoding rnn은 순차적으로 데이터가 입력되어 위치정보가 포함되어있지만, Transformer는 입력이 한번에 들어가기 때문에 위치정보를 따로 지정해줘야함 - Layer : Multi head Attention -> add&Norm -> Feed Forward -> add&Norm - 인코더는 N개의 Layer로 구성 - 각 Layer는 서로 다른 파라.. 2022. 10. 10.
Pretrained Language Model 정리2 [RoBerta] Roberta는 한마디로 Bert를 최적화시킨 모델이라고 할 수 있다. Bert가 under-trained 되었다는 가정하에 크게 네 가지의 변화를 준다. 1. 더 많은 데이터로, 더 긴 시간 , 더 큰 배치사이즈로 학습 2. NSP 제거 3. 긴 input sequence로 일정하게 학습 4. 동적 마스킹 1. Roberta는 Bert에 사용된 데이터보다 더 다양한 도메인의 데이터를 추가하여 더 긴 시간동안 학습했다. 이때 배치사이즈를 더 크게하고, 배치사이즈에 영향을 받는 파라미터들을 변경했다. 2. Bert는 크게 두 가지 학습 체계가 있다. 첫 번째는 MLM, 두 번째는 NSP 이다. 여기서 NSP가 과연 유용한가에 대한 의문을 제기하며 RoBerta에서는 NSP를 제거한다. 따.. 2022. 10. 9.
Pretrained Language Model 정리1 [BERT] Bidirectional Encoder Representations from Transformer -2018, google 방대한 양의 unlabeled data를 pretrained 한 후 여러 downstream task에 fine-tuning을 통해 발표 당시 여러 downstream task에 대해 성능을 개선함 - input 문장과 mask token을 예측하므로 양방향성을 가지는게 특징 model Architecture - base : encoder block(12) , hidden size(768), attention head(12) -> total params : 110M - Large : encoder block(24) , hidden size(1024), attention .. 2022. 9. 28.
Loss Function and Gradient Descent(손실함수와 경사하강법) 1. 손실함수와 경사하강법의 개념 손실함수와 경사하강법은 딥러닝 학습과 최적화의 핵심적인 개념입니다. 예를 들어, 주어진 데이터에 관하여 Y = w*X + b 라는 방정식으로 모델을 만든다고 가정한다면 저희는 데이터를 잘 표현할 수 있는 가중치 w 와 편차 b를 찾는 것이 목표입니다. 그리고 최적의 가중치와 편차(=파라미터)를 찾는 척도가 손실함수가 되며, 최적의 파라미터를 찾는 방법이 경사하강법이 됩니다. 우리는 손실함수를 통해 평균적인 예측값과 실제값의 차이(오차)를 계산하며 오차를 최소화하는 방향으로 모델을 학습시킵니다. 그리고 오차를 최소화하는 방향으로 파라미터를 업데이트하기 위해 경사하강법을 사용합니다. Gradient Descent라는 단어에서도 알 수 있듯이, 기울기를 보면서 파라미터를 업데.. 2022. 5. 27.
Central Limit Theorem(중심극한정리)이란? 1. Central Limit Theorem의 개념 모집단이 정규분포가 아니더라도, 표본크기 n이 충분히 크면 단순임의추출에 의한 표본평균의 분포는 근사적으로 정규분포를 따른다. 2. Central Limit Theorem의 특징 (1) 단순임의추출에 의한 표본에만 적용 가능하다. (2) 이산형과 연속형 모집단에 모두 적용된다. (3) 경험적으로 대부분의 경우에 중심극한정리는 n이 30이상이면 적용할 수 있는 것으로 알려져 있다. (4) 모집단 분포가 대칭이면 표본수가 30보다 작아도 정규분포에 가까우며, 비대칭성이 클수록 표본수가 많아야 정규분포에 근접한다. 3. 활용 사례 이항 분포의 정규분포 근사 이항분포는 n이 커지면 중심극한정리에 의해 정규분포로 근사되며, 표본비율의 확률분포는 평균이 p이고 분.. 2022. 5. 20.
비모수 통계 : 일표본 위치 부호 검정 1. 일표본 위치 문제란? 일표본 위치 문제는 주어진 연속형 확률분포를 따르는 모집단의 위치 모수(중앙값)에 대해 검정 및 추정을 하는 문제입니다. 일표본 위치 문제는 비모수적 방법으로 부호검정, 순위 검정, 부호순위검정 등을 사용하여 해결 할 수 있습니다. 이 글에서는 부호 검정에 대해 다루겠습니다. 2. 기본 모형 기본 모형은 미지의 위치 모수를 기준이 됩니다. 즉 모집단의 확률 표본들은 위치 모수를 기준으로 얼마나 차이가 있는지를 알 수 있습니다. 3. 부호 검정 먼저 검정을 위한 절차는 간단합니다. 가설 설정 --> 검정통계량 --> 기각역 설정 --> 검정 순으로 진행 됩니다. 1) 가설 설정 가설은 미지의 위치 모수에 대한 설정입니다. 여기서 기본 가정은 위치모수는 중앙값이라는 것입니다. 그리.. 2022. 4. 11.
728x90
반응형