728x90 반응형 BertTokenizer1 [딥러닝][NLP] Tokenizer 정리 안녕하세요. 오늘은 NLP 파이프라인의 핵심 구성 요소 중 하나인, Tokenizer에서 대해 살펴보고 정리해보겠습니다. 먼저 토크나이저를 정리하려면, 토크나이징에 대한 개념부터 확실히 해야겠군요. 토크나이징(Tokenizing)이란? 의미가 있는 가장 작은 언어단위(토큰)로 텍스트를 전처리하는 과정입니다. 말이 조금 어려운데 쉽게 생각하면, 모델의 입력에 맞게 전처리해준다라고 생각하면 간편할 것 같습니다. 따라서 토크나이징을 위해 모델에 맞는 토크나이저를 사용하게 됩니다. 왜 모델에 맞는 토크나이저를 사용하냐면, 토크나이징 방식에 따른 차이가 있을 수 있고, 모델의 입력값의 차이도 있기 때문입니다. 예를 들어) Bert의 경우 워드피스 토크나이징 방식을 따르고, 입력으로는 token_ids, token.. 2023. 1. 13. 이전 1 다음 728x90 반응형