데이터 전처리1 LLM을 위한 데이터 전처리: 모델의 성능을 높이는 필수 과정 서론LLM(Large Language Model)은 방대한 양의 텍스트 데이터를 학습하여 인간과 유사한 텍스트를 생성하거나 이해하는 모델입니다. LLM이 정확하고 유용한 결과를 내기 위해서는 고품질의 데이터로 학습하는 것이 필수적입니다. 이를 위해 데이터 전처리가 필요합니다. 데이터 전처리는 원시 데이터를 LLM이 학습할 수 있도록 가공하는 과정으로, 모델의 성능에 직접적인 영향을 미칩니다.1. 토큰화 (Tokenization)정의: 텍스트를 의미 있는 최소 단위인 토큰으로 분리하는 과정입니다. 토큰은 단어, 문자, 또는 부분 단어일 수 있습니다.목적:LLM이 텍스트를 숫자로 표현된 벡터로 변환하여 학습할 수 있도록 합니다.텍스트의 구조를 파악하고 분석하는 데 도움을 줍니다.방법:단어 기반 토큰화: 공백.. 2024. 11. 16. 이전 1 다음