
阿里通义DeepResearch登顶开源Agent模型榜首,性能超越OpenAI与DeepSeek旗舰
阿里开源的通义DeepResearch模型在开源Agent模型领域取得了显著成果,成功登顶榜首,性能超越了OpenAI和DeepSeek旗舰模型,该模型具备强大的自然语言处理能力和智能代理功能,为开源社区提供了先进的深度学习技术,阿里开源的这一重要突破有望推动人工智能领域的发展,并为开发者提供更多选择和机会。
9月17日消息,今日凌晨,阿里开源旗下首个深度研究Agent模型——通义DeepResearch,并登顶开源第一。
该模型在HLE、BrowseComp-zh、GAIA等多个权威评测集上取得SOTA成绩(State-of-the-art),超越OpenAI Deep Research、DeepSeek-V3.1等Agent模型。
目前,通义DeepResearch的模型、框架和方案均已全面开源,用户可在Github、Hugging Face和魔搭社区社区下载模型和代码。
作为当前研究热点,深度研究的现有方法通常是单窗口、线性累加的信息处理模式,所有中间思路和检索到的信息堆积在单一上下文中。
当处理长周期任务时,Agent会面临认知空间窒息和不可逆的噪声污染的挑战,导致推理能力下降,最终难以完成真正长程、复杂的研究任务。
为此,通义团队构建了一套以合成数据驱动、贯穿预训练与后训练的完整训练链路。
该链路以Qwen3-30B-A3B模型为基座进行优化,团队创新性地设计了覆盖真实环境与虚拟环境的RL算法验证与真实训练模块,并结合高效异步强化学习算法及自动化数据策展(Data Curation)流程,显著提升了模型的迭代速度和泛化能力。
在推理阶段,团队设计了ReAct和基于自研的IterResearch的Heavy两种模式。
前者用于精准考察模型的基础内在能力,后者则通过test-time scaling策略,充分挖掘并展现了模型所能达到的性能上限。
即使在长任务中,也能实现高质量的推理。
目前,在Humanity's Last Exam(HLE)、BrowseComp、BrowseComp-ZH、GAIA、xbench-deepsearch、WebWalkerQA以及Frames等权威Agent评测集上,通义DeepResearch模型以3B激活参数,性能超越基于OpenAI o3、DeepSeek V3.1和Claude-4-Sonnet等旗舰模型的ReAct Agent。
今年以来,阿里已连续开源WebWalker、WebDancer和WebSailor等多款检索和推理智能体,并全部斩获开源SOTA成绩。
作者:访客本文地址:https://www.jjrbwx.com/jjrbwx/570.html发布于 2025-09-17 13:05:07
文章转载或复制请以超链接形式并注明出处大众参考网
还没有评论,来说两句吧...