DeepSeek发布多模态大模型技术报告 视觉推理能力媲美GPT-5.4

📅 2026-05-02 09:04  |  ✍️

DeepSeek近日在GitHub平台正式发布其多模态大模型,并同步公开配套技术报告。该报告提出基于视觉原语的创新推理框架,突破当前多模态大语言模型在空间参照任务中的核心瓶颈。技术报告指出,尽管多模态大语言模型近年来取得长足进步,但主流的链式思维推理范式仍主要局限于语言学领域。DeepSeek团队提出基于视觉原语的思考框架,将点、边界框等空间标记提升为推理过程中的基本思维单元,使模型在推理过程中具备了指代能力,能够将抽象认知轨迹锚定到图像具体物理坐标上。在具有挑战性的计数和空间推理基准测试上,DeepSeek的多模态模型能够与GPT-5.4、Claude-Sonnet-4.6和Gemini-3-Flash等前沿模型匹敌。此外,DeepSeek此前的V4版本被评价为以六分之一成本实现接近最顶尖的智能。在编程能力上,V4-Pro-Max的Codeforces评分高达3206,超过GPT-5.4的3168。API调用价格仅为GPT-5.4的八分之一,极具市场竞争力。V4-Pro还针对非英伟达硬件进行优化,可在华为昇腾芯片上高效运行。