阿里开源“零搜索”技术，训练成本直降88%，准确度超谷歌搜索

网络 2025-05-10 14:48 科技资讯阅读 1970

阿里开源“零搜索”技术，训练成本直降88%，准确度超谷歌搜索

编译，金碧辉。

编辑程茜

智东西5月9日消息，阿里巴巴5月7日在arXiv上发表的论文揭露，阿里巴巴达摩院研发的“零搜索”（ZeroSearch）技术具有破局性地解决了AI训练成本的困境。该技术可以通过模拟搜索引擎训练机制，实现大模型在不需要调用真实搜索引擎API的情况下自主进化和检索能力。

扎克伯格深度专访：怼苹果，夸DeepSeek，聊AI开源痛点

阿里巴巴达摩院研究团队在 arXiv 发表了论文的原文。

"零搜索"技术颠覆了依赖科技巨头的API经济模式，赋予开发者精准控制训练数据质量的权力。当前，开源代码已在GitHub和Hugging Face平台上线，涵盖了Qwen-2.5、LLaMA-3.2等主流架构，提供基础版和指令微调版模型的支持。初创企业可以使用四块A100显卡搭建高精度训练环境，实现高效的模型开发和部署。

在包含七大主流问答数据集，包括NQ、TriviaQA、PopQA和HotpotQA等的综合测评中，基于“零搜索”技术训练的140亿参数大模型不仅在搜索准确率上压倒了谷歌，更实现了训练成本的近九成下降。

扎克伯格深度专访：怼苹果，夸DeepSeek，聊AI开源痛点

以下是润色后的单段内容：本文提供了七大主流问答数据集的综合测评图表，旨在帮助研究者更好地了解这些数据集的特点和相互关系。

根据VentureBeat今天报道，原本需要调用商业搜索引擎API的586.70美元（折合人民币约为4240.74元）的开销，如今仅需70.80美元（折合人民币约为510.17元）即可完成同等量级训练任务。这项创新让AI模型在“自我模拟”（self-simulated）中获得出类似搜索搜索引擎的检索能力。

一、"零搜索"技术成本大降超八成，性能超越谷歌搜索。

研究人员使用SerpAPI调用谷歌搜索服务作为对照组，以模拟传统AI训练流程中调用商业搜索引擎API的场景，并与“零搜索”技术方案进行成本对比。

研究人员进行了精准的测算，通过SerpAPI调用谷歌搜索处理约6.4万次查询，结果显示成本约为586.70美元（约合人民币4228.82元）。相比之下，在四块A100 GPU上运行14B参数的大语言模型仅需70.80美元（折合人民币约510.43元），这意味着实现了高达88%的成本节省。

据TechCrunch于2024年11月报道，从公开信息中透露，SerpAPI旨在简化开发者的网页解析流程，SerpAPI通过API调用可以获取主要搜索引擎，如谷歌、Bing和百度等的搜索结果数据。

SerpAPI的实际企业用户包括Jasper.ai、Copy.ai等AI初创公司，这些企业通过API接口获取实时搜索结果，以便训练对话系统，但具体的成本数据仍然未被公开披露。

阿里大模型能够生成拟真文档，相比谷歌API节省了88%的开支。

阿里巴巴的研究团队发现，经过海量预训练的大模型已经具备了模拟文档生成的能力。通过监督微调，将大语言模型转换为检索模块，能够按需生成相关或无关文档的组合。

在强化学习阶段，系统通过渐进式降低生成文档质量的「教学方案」，迫使模型持续优化检索精度，形成了一种自主进化的闭环。

根据VentureBeat今日报道，在TriviaQA等7个主要问答数据集测试中，基于通用架构千问2.5、LLaMA3.2等架构的模型在数学视觉推理测试中取得了出色的成绩，超过OpenAI o1，展现了强大的图形和数学结合分析能力。14B参数模型在事实准确性指标上超越谷歌搜索2.3个百分点，而7B模型与商业引擎持平。同等训练量下，模拟方案相比谷歌搜索API节省了88%的开支。

结语：“零搜索”技术推动AI产业进入低成本自主进化阶段。

阿里巴巴达摩院的突破可能标志着AI训练范式的重要转折。当大模型能够在封闭系统内模拟现实世界的信息交互，用户便可摆脱对外部服务的依赖，这对数据安全、训练可控性及技术民主化产生了深远的意义。

从行业发展趋势来看，“零搜索”技术具有潜力，对AI开发价值链产生深远的影响。随着自模拟技术的成熟，未来，或将涌现更多的AI训练方案，推动产业进入低成本的自主进化新阶段。

赞832

 分享

共条评论

阿里开源“零搜索”技术，训练成本直降88%，准确度超谷歌搜索

评论

推荐阅读