什么是 Tokenization?
Tokenization 是将原始文本转换成模型可以理解的数字序列的过程。
BPE(Byte Pair Encoding)
python
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("gpt2")
tokens = tokenizer.encode("Hello, how are you?")
print(tokens)from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("gpt2")
tokens = tokenizer.encode("Hello, how are you?")
print(tokens)
为什么 Tokenization 很重要?
一个中文字符约等于 1.5-2 个 token,英文单词约 1-2 个 token。