3D打印火出圈了？幕后推手竟是这款AI模型

网络 2025-09-02 05:46 科技资讯阅读 1033

3D打印火出圈了？一众网友秀“成果” 幕后推手竟是这款AI模型

《科创板日报》9月1日讯，一张三维建模图、一件手办模型、一份印有“Nano-banana”字样的包装盒……刚刚过去的周末，朋友圈突然涌现出大量雷同的“3D打印手办”图片，这些手办或是明星角色，或是家中宠物，种类繁多，让人眼花缭乱。此时此刻，在某社交平台上以“手办”为关键词进行搜索，同样会看到许多相似的内容。

与此形成呼应的是，今日早盘，3D打印概念呈现激荡式拉升。截至发稿，海正生材、长江材料等多股抢得涨停的好彩头，金橙子、思看科技等纷纷上扬。

然而，这场3D打印热潮背后的真正主角，却是谷歌推出的一款代号“纳米香蕉”（Nano-banana）的图像生成与编辑模型。前文提到的“3D打印手办”图片，便是Nano-banana的“杰作”。简言之，通过上传人物或动物图片素材，再输入特定提示词和指令，该模型便能够将人像转化为同款“手办”。然而，与真正手办不同的是，Nano-banana生成的“手办”仅存在于图片之中。

据悉，这款模型正式名称为Gemini 2.5 Flash Image，自8月26日正式上线后，它的图像编辑实测中展现出惊艳的效果，随即引发了广泛关注。在海外知名AI排行平台LMArena的最新榜单中，Nano-banana以1362的分数名列第一，占据了压倒性的优势，远远领先于第二名flux（1191）和GPT（1170）。

除了“做手办”外，Nano-banana拥有广泛的应用场景，其中之一是能够将用户提供的多个素材图，根据需求进行融合。据3D数字艺术家特拉维斯·戴维斯的测试，该模型能够同时处理多达13个图片素材，并将它们融合成一张图。

在谷歌Gemini官方转发的使用案例中，用户只需在地图上绘制“箭头”，Nano-banana便会运用其世界知识推理具体位置与画面，从而将卫星图转换为风景图。此外，该模型据官方说法，同时具备图片生成与修改、局部重绘、风格迁移等图片编辑能力。

以下是语言润色后的内容：通过Nano-banana的核心能力，即跨图一致性、多图融合、对话式/指令式精细编辑，以及“借助Gemini世界知识”带来的更强常识/语义理解，用户可以访问Nano-banana的Gemini App、API等方式。Nano-banana的API定价为每百万输出token30美元，具体来说，生成单张图片约消耗1290个输出token，折算成本约0.039美元。

值得一提的是，截至目前，诸多海外平台，如Adobe、WPP和Figma等，已经在真实平台上快速集成Nano-banana，并对其生产力提升表示高度的认可和评价。华福证券分析认为，谷歌的Nano-banana出圈标志着多模态模型向更高能力的突破，同时对多模态领域的爆发也抱有乐观的预期。

当前，AI图像模型已经演变为科技巨头的核心竞争优势。3月26日，OpenAI推出了基于GPT-4o模型的图像生成能力——Images in ChatGPT，这标志着ChatGPT正式实现从单一语言模型向全模态智能体的跨越。8月23日，Meta宣布与Midjourney合作开发图像和视频生成技术。

华泰证券认为，原生多模态模型架构已获得业界广泛认可，OpenAI和Google的原生多模态模型在性能、延迟和部署方面均展现出了明显的优势。总的来说，多模态为主的产品商业化速度要快于文本产品，从大模型到多模态已经成为商业化的必由之路，多模态大模型和应用的发展将到达一个奇点。

就投资层面来看，该机构指出，多模态技术的潜力将在算力和应用两个方面带来相关投资机会。算力方面，原生多模态模型的需求将使得供给端需要更多的计算资源，相比非原生模型，而需求端视频的推理算力需求远远超过文字的需求，视频Agent的落地还将进一步推动推理算力需求的增长。应用方面，供给端中国的视频生成模型领先，而需求端广告、零售、创作、教育等领域均将通过AI技术进行数字化转型。

赞467

 分享

共条评论

3D打印火出圈了？一众网友秀“成果” 幕后推手竟是这款AI模型

评论

推荐阅读