周珍珍 2026-03-11 10:17:43
是由中国人工智能公司「深度求索」推出的一系列高性能大语言模型(LLM),涵盖通用语言模型、代码生成、数学推理和多模态理解等多个领域,以开源高效、中文优化强著称。
一、技术架构创新:混合专家(MoE)与强化学习驱动
采用Transformer架构,但核心突破在于引入混合专家模型(MoE)。该架构动态分配计算资源,每个任务仅激活部分专家模块,兼顾性能与效率。例如-V3总参数达6710亿,但单次推理仅激活370亿参数,极大降低算力成本。同时,其R1模型通过强化学习(RL)优化推理能力,在极少标注数据下显著提升逻辑推导与复杂问题解决水平,逼近GPT-4表现。
二、核心能力:中文场景深度优化与多领域专精
针对中文场景深度训练,基于高质量中文数据集(如WuDaoCorpus),在语义理解与文本生成上表现领先。其分支模型覆盖多领域需求:
-Coder:支持Python、Java等代码生成与补全,在GitHub任务中媲美GPT-4Turbo;
-Math:专注数学符号推理,在MATH、GSM8K评测中准确率超51.7%;
-VL:融合视觉与语言的多模态模型,可解析图表、公式与网页内容。