Question 1

LLM Token이란?

Accepted Answer

Token은 대규모 언어 모델(LLM)이 텍스트를 처리할 때 사용하는 기본 단위예요. Token은 단어, 단어의 일부, 또는 tokenizer에 따라 단일 문자일 수도 있어요. 예를 들어 'tokenization'은 'token'과 'ization'으로 나뉠 수 있어요 — 2개의 token. LLM의 가격 책정, rate limit, context window가 모두 단어나 문자가 아닌 token으로 측정되기 때문에 token을 이해하는 것이 중요해요.

Question 2

Token 계산 방식

Accepted Answer

각 LLM 패밀리는 다른 tokenizer를 사용해요. OpenAI 모델은 tiktoken (BPE 기반)을 사용하고, Claude는 custom tokenizer를 사용하며, Llama/Mistral은 SentencePiece를 사용해요. 이 도구는 각 모델 패밀리의 평균 문자당 token 비율을 기반으로 추정값을 제공해요. 정확한 값은 아니지만, 이 추정값은 실제 tokenizer 출력의 5~10% 범위 내에 있어서 비용 추정, prompt engineering, context window 계획에 충분한 정확도를 제공해요.

Question 3

Context Window 설명

Accepted Answer

Context window는 LLM이 단일 대화에서 처리할 수 있는 최대 token 수예요. 여기에는 입력(당신의 prompt와 system instruction)과 출력(모델의 응답)이 모두 포함돼요. GPT-4o는 128K token(약 96K 단어)을 지원하고, Claude 3.5는 200K token(약 150K 단어)을 지원하며, Gemini 2.5 Pro는 최대 1M token(약 750K 단어)을 지원해요. Context window 내에 머물러 있는 것이 중요해요 — 초과하면 잘림이나 오류가 발생해요.

Question 4

Token 최적화 팁

Accepted Answer

간결하게 작성하세요 — 불필요한 단어와 중복된 instruction을 제거해서 token을 절약해요. System prompt를 현명하게 사용하세요 — context window에 포함돼요. 코드는 자연어보다 문자당 더 많은 token을 사용해요. 구조화된 형식(JSON, XML)은 평문보다 더 많은 token을 사용해요. 사용량을 모니터링하세요 — token 비용이 빠르게 늘어나요. 모델 크기를 고려하세요 — 작은 모델은 저렴하지만 더 자세한 prompt가 필요할 수 있어요

LLM Token Counter

LLM Token이란?

Token 계산 방식

Context Window 설명

Token 최적화 팁