DeepSeek发布多模态大模型技术报告视觉推理能力媲美GPT-5.4

📅 2026-05-02 09:04 | ✍️ | 💬 暂无评论

DeepSeek近日在GitHub平台正式发布其多模态大模型，并同步公开配套技术报告。该报告提出基于视觉原语的创新推理框架，突破当前多模态大语言模型在空间参照任务中的核心瓶颈。技术报告指出，尽管多模态大语言模型近年来取得长足进步，但主流的链式思维推理范式仍主要局限于语言学领域。DeepSeek团队提出基于视觉原语的思考框架，将点、边界框等空间标记提升为推理过程中的基本思维单元，使模型在推理过程中具备了指代能力，能够将抽象认知轨迹锚定到图像具体物理坐标上。在具有挑战性的计数和空间推理基准测试上，DeepSeek的多模态模型能够与GPT-5.4、Claude-Sonnet-4.6和Gemini-3-Flash等前沿模型匹敌。此外，DeepSeek此前的V4版本被评价为以六分之一成本实现接近最顶尖的智能。在编程能力上，V4-Pro-Max的Codeforces评分高达3206，超过GPT-5.4的3168。API调用价格仅为GPT-5.4的八分之一，极具市场竞争力。V4-Pro还针对非英伟达硬件进行优化，可在华为昇腾芯片上高效运行。

🏷️ 标签： AI DeepSeek GPT 人工智能多模态大模型科技前沿

西北狼·狼眼世界

DeepSeek发布多模态大模型技术报告视觉推理能力媲美GPT-5.4

发表回复取消回复

DeepSeek发布多模态大模型技术报告 视觉推理能力媲美GPT-5.4

发表回复 取消回复

DeepSeek发布多模态大模型技术报告视觉推理能力媲美GPT-5.4

发表回复取消回复