Tokenization：大模型如何「阅读」文本

什么是 Tokenization？

Tokenization 是将原始文本转换成模型可以理解的数字序列的过程。

BPE（Byte Pair Encoding）

python

from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("gpt2")
tokens = tokenizer.encode("Hello, how are you?")
print(tokens)

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("gpt2")

tokens = tokenizer.encode("Hello, how are you?")

print(tokens)

为什么 Tokenization 很重要？

成本影响：Token 数量直接决定 API 费用

效果影响：中英文 token 效率差异大

上下文窗口：Token 限制决定记忆容量

一个中文字符约等于 1.5-2 个 token，英文单词约 1-2 个 token。

Tokenization：大模型如何「阅读」文本

什么是 Tokenization？

BPE（Byte Pair Encoding）

为什么 Tokenization 很重要？

常用 Tokenizer：BPE（GPT）、WordPiece（BERT）、SentencePiece（LLaMA）

相关文章

探索更多内容

评论 (0)