预训练的目标在海量无标注数据上学习通用语言知识和世界知识。数据来源:Common Crawl、Wikipedia、GitHub、学术论文分布式训练:DP · MP · PP · ZeRO当前主流模型通常使用 2-15T tokens 进行预训练。