토큰(Token)이란? — LLM이 언어를 처리하는 기본 단위

토큰 (Token)

토큰(Token)LLM이 텍스트를 이해하고 생성하기 위해 문장을 잘게 분해한 최소 의미 단위다. 단어 전체가 하나의 토큰이 될 수도 있고, 단어를 더 작은 서브워드(Subword)로 쪼갠 조각일 수도 있다. LLM의 비용·속도·맥락 길이를 결정하는 핵심 요소다.

Ⅰ. 토큰이란 무엇인가?

사람에게는 문장·단어가 익숙한 단위지만, LLM은 텍스트를 그대로 처리하지 않고 이를 작은 조각(토큰)으로 변환한다. 토큰은 다음과 같이 구성될 수 있다.

  • 단어 전체 — 예: “apple” → 1 토큰
  • 서브워드(Subword) — 예: “unbelievable” → “un” + “believ” + “able”
  • 문자 단위 — 특수 기호·이모지 등
  • BPE(Byte-Pair Encoding) 기반 조각

어떤 방식으로 쪼개느냐는 모델이 사용하는 토크나이저(Tokenization) 알고리즘에 따라 달라진다.

Ⅱ. 토큰이 중요한 이유

  • LLM 비용 계산의 단위 — “1000 토큰당 가격”으로 과금됨
  • 맥락 길이(Context Length)의 단위 — 128k·1M 등 모두 토큰 수 기준
  • 속도에 영향 — 토큰 수가 많아질수록 처리 속도↓
  • 정확도·할루시네이션에도 영향

Ⅲ. 토크나이제이션(Tokenization)의 과정

텍스트가 LLM 내부로 들어가기 전, 다음 단계로 변환된다.

  1. 문장 입력 — 예: “AI 모델은 텍스트를 생성한다.”
  2. 토큰 분할 — BPE·SentencePiece 등 알고리즘 적용
  3. 숫자 ID로 변환 — 모델이 계산 가능한 벡터 입력으로 변경

이 숫자 ID들은 트랜스포머임베딩 레이어(Embedding Layer)로 전달돼 벡터 표현으로 변환된다.

Ⅳ. 예시 — 한 문장은 몇 토큰일까?

예: “ChatGPT는 정말 유용한 도구다.”

  • BPE 기준: 약 6~10 토큰
  • 한국어는 영어보다 토큰 수가 더 많아지는 경향
  • 이모지 포함 시 토큰 수 급증 가능

Ⅴ. 토큰 수를 줄이는 팁

  • 문장을 짧고 명확하게
  • 중복 설명 제거
  • 코드 블록 최소화
  • 불필요한 문장 장식·이모지 자제

Ⅵ. 토큰과 할루시네이션의 관계

맥락 길이가 부족하거나, 주어진 토큰 수에 비해 질문이 복잡할 경우 모델은 중간 정보를 잃고 할루시네이션을 일으킬 확률이 높아진다. 그래서 최신 LLM은 128k~1M 이상의 긴 맥락을 지원한다.

Ⅶ. 요약

토큰(Token)은 LLM이 텍스트를 처리하기 위한 최소 단위이며, 모델의 비용·성능·맥락 길이 등을 결정하는 핵심 요소다. 토큰화 방식에 따라 같은 문장이라도 토큰 수가 달라지며, 이는 생성형 AI 사용 경험 전반에 직접적인 영향을 준다.