AI知识中心 / 学习路线 / LLM 基础 / Tokenization:大模型如何「阅读」文本
📚LLM 基础·2/4
50% 完成
📖 教程入门⏱️ 10 分钟

Tokenization:大模型如何「阅读」文本

📅 2026/5/14✍️ 佚名💬 0 条评论

什么是 Tokenization?


Tokenization 是将原始文本转换成模型可以理解的数字序列的过程。


BPE(Byte Pair Encoding)


python
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("gpt2")
tokens = tokenizer.encode("Hello, how are you?")
print(tokens)

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("gpt2")

tokens = tokenizer.encode("Hello, how are you?")

print(tokens)


为什么 Tokenization 很重要?


  • 成本影响:Token 数量直接决定 API 费用
  • 效果影响:中英文 token 效率差异大
  • 上下文窗口:Token 限制决定记忆容量

  • 一个中文字符约等于 1.5-2 个 token,英文单词约 1-2 个 token。

    常用 Tokenizer:BPE(GPT)、WordPiece(BERT)、SentencePiece(LLaMA)

    评论 (0)

    请先登录后发表评论

    暂无评论,来发表第一条评论吧