什么是

周珍珍 2026-03-11 10:17:43

是由中国人工智能公司「深度求索」推出的一系列高性能大语言模型（LLM），涵盖通用语言模型、代码生成、数学推理和多模态理解等多个领域，以开源高效、中文优化强著称。

一、技术架构创新：混合专家（MoE）与强化学习驱动
采用Transformer架构，但核心突破在于引入混合专家模型（MoE）。该架构动态分配计算资源，每个任务仅激活部分专家模块，兼顾性能与效率。例如-V3总参数达6710亿，但单次推理仅激活370亿参数，极大降低算力成本。同时，其R1模型通过强化学习（RL）优化推理能力，在极少标注数据下显著提升逻辑推导与复杂问题解决水平，逼近GPT-4表现。

二、核心能力：中文场景深度优化与多领域专精
针对中文场景深度训练，基于高质量中文数据集（如WuDaoCorpus），在语义理解与文本生成上表现领先。其分支模型覆盖多领域需求：

-Coder：支持Python、Java等代码生成与补全，在GitHub任务中媲美GPT-4Turbo；

-Math：专注数学符号推理，在MATH、GSM8K评测中准确率超51.7%；

-VL：融合视觉与语言的多模态模型，可解析图表、公式与网页内容。

什么是

相关

推荐

排行