阿里开源“零搜索”技术,训练成本直降88%,准确度超谷歌搜索

阿里开源“零搜索”技术,训练成本直降88%,准确度超谷歌搜索

编译,金碧辉。

编辑程茜

智东西5月9日消息,阿里巴巴5月7日在arXiv上发表的论文揭露,阿里巴巴达摩院研发的“零搜索”(ZeroSearch)技术具有破局性地解决了AI训练成本的困境。该技术可以通过模拟搜索引擎训练机制,实现大模型在不需要调用真实搜索引擎API的情况下自主进化和检索能力。

扎克伯格深度专访:怼苹果,夸DeepSeek,聊AI开源痛点

阿里巴巴达摩院研究团队在 arXiv 发表了论文的原文。

"零搜索"技术颠覆了依赖科技巨头的API经济模式,赋予开发者精准控制训练数据质量的权力。当前,开源代码已在GitHub和Hugging Face平台上线,涵盖了Qwen-2.5、LLaMA-3.2等主流架构,提供基础版和指令微调版模型的支持。初创企业可以使用四块A100显卡搭建高精度训练环境,实现高效的模型开发和部署。

在包含七大主流问答数据集,包括NQ、TriviaQA、PopQA和HotpotQA等的综合测评中,基于“零搜索”技术训练的140亿参数大模型不仅在搜索准确率上压倒了谷歌,更实现了训练成本的近九成下降。

扎克伯格深度专访:怼苹果,夸DeepSeek,聊AI开源痛点

以下是润色后的单段内容: 本文提供了七大主流问答数据集的综合测评图表,旨在帮助研究者更好地了解这些数据集的特点和相互关系。

根据VentureBeat今天报道,原本需要调用商业搜索引擎API的586.70美元(折合人民币约为4240.74元)的开销,如今仅需70.80美元(折合人民币约为510.17元)即可完成同等量级训练任务。这项创新让AI模型在“自我模拟”(self-simulated)中获得出类似搜索搜索引擎的检索能力。

一、"零搜索"技术成本大降超八成,性能超越谷歌搜索。

研究人员使用SerpAPI调用谷歌搜索服务作为对照组,以模拟传统AI训练流程中调用商业搜索引擎API的场景,并与“零搜索”技术方案进行成本对比。

研究人员进行了精准的测算,通过SerpAPI调用谷歌搜索处理约6.4万次查询,结果显示成本约为586.70美元(约合人民币4228.82元)。相比之下,在四块A100 GPU上运行14B参数的大语言模型仅需70.80美元(折合人民币约510.43元),这意味着实现了高达88%的成本节省。

据TechCrunch于2024年11月报道,从公开信息中透露,SerpAPI旨在简化开发者的网页解析流程,SerpAPI通过API调用可以获取主要搜索引擎,如谷歌、Bing和百度等的搜索结果数据。

SerpAPI的实际企业用户包括Jasper.ai、Copy.ai等AI初创公司,这些企业通过API接口获取实时搜索结果,以便训练对话系统,但具体的成本数据仍然未被公开披露。

阿里大模型能够生成拟真文档,相比谷歌API节省了88%的开支。

阿里巴巴的研究团队发现,经过海量预训练的大模型已经具备了模拟文档生成的能力。通过监督微调,将大语言模型转换为检索模块,能够按需生成相关或无关文档的组合。

在强化学习阶段,系统通过渐进式降低生成文档质量的「教学方案」,迫使模型持续优化检索精度,形成了一种自主进化的闭环。

根据VentureBeat今日报道,在TriviaQA等7个主要问答数据集测试中,基于通用架构千问2.5、LLaMA3.2等架构的模型在数学视觉推理测试中取得了出色的成绩,超过OpenAI o1,展现了强大的图形和数学结合分析能力。14B参数模型在事实准确性指标上超越谷歌搜索2.3个百分点,而7B模型与商业引擎持平。同等训练量下,模拟方案相比谷歌搜索API节省了88%的开支。

结语:“零搜索”技术推动AI产业进入低成本自主进化阶段。

阿里巴巴达摩院的突破可能标志着AI训练范式的重要转折。当大模型能够在封闭系统内模拟现实世界的信息交互,用户便可摆脱对外部服务的依赖,这对数据安全、训练可控性及技术民主化产生了深远的意义。

从行业发展趋势来看,“零搜索”技术具有潜力,对AI开发价值链产生深远的影响。随着自模拟技术的成熟,未来,或将涌现更多的AI训练方案,推动产业进入低成本的自主进化新阶段。

 分享

本文由网络整理 © 版权归原作者所有

共  条评论

评论

  •  主题颜色

    • 橘色
    • 绿色
    • 蓝色
    • 粉色
    • 红色
    • 金色
  • 扫码用手机访问

© 2025 www.trjyy.com  E-Mail:[email protected]  

观看记录