MoE:多专家 + 稀疏激活DeepSeek-V2:细粒度专家 + 共享专家 + 负载均衡236B 参数、21B 激活参数,接近 GPT-4 性能,训练成本仅 1/20。Mixtral 8x7B:46.7B 总参数,12.9B 激活