英伟达推DAM-3B模型:突破局部描述难题,让AI看懂图像/视频每一个角落
IT之家4月24日消息,科技媒体marktechpost昨日(4月23日)发布博文,报道称英伟达为了应对图像和视频中特定区域的详细描述难题,最新推出了Describe Anything3B(DAM-3B)AI模型。
视觉语言模型(VLMs)在生成整体图像描述时展现出色的能力,但是在对特定区域进行细致描述时,往往力不从心。尤其是在视频中,需要考虑时间动态的挑战更大。
英伟达发布的Describe Anything 3B(DAM-3B)模型旨在解决这个挑战,允许用户通过点击、边界框、涂鸦或掩码指定目标区域,生成准确且紧扣上下文的描述文本。DAM-3B和DAM-3B-Video分别适用于静态图像和动态视频,模型已在Hugging Face平台公开。
独特的架构与高效的设计。
DAM-3B的核心创新之处在于“焦点提示”和“局部视觉骨干网络”,这两项技术的结合,开创了一个新的视觉计算时代。
焦点提示技术巧妙地结合了全图信息和目标区域的高分辨率裁剪,确保了每一个细节的真实性,同时也保留了整体背景的完整性。
局部视觉骨干网络通过嵌入图像和掩码输入,采用门控交叉注意力机制,将全局和局部特征巧妙融合,然后将其传输到大语言模型,以生成描述。
DAM-3B-Video进一步扩展至视频领域,通过逐帧编码区域掩码,并整合时间信息,即便面对遮挡或运动,也能生成准确的描述。
数据与评估双管齐下,透过对数据的收集、分析和评估,能够发现隐藏的规律和趋势,提高决策的科学性和准确性。
为了解决训练数据匮乏问题,NVIDIA开发了DLC-SDP半监督数据生成策略,通过将数据集分割和未标注的网络图像结合,构建了一个包含150万局部描述样本的训练语料库。
通过自训练方法优化描述质量,确保输出文本的高精准度,团队同时推出DLC-Bench评估基准,以属性级正确性而非僵硬的参考文本对比衡量描述质量。
DAM-3B在包括LVIS、Flickr30k Entities等七项基准测试中取得了领先的成绩,平均准确率达到了67.3%,远超出了GPT-4o和VideoRefer等模型的性能。
DAM-3B不仅成功地填补了局部描述领域的技术空白,还因其上下文感知架构和高质量数据策略,开辟了无障碍工具、机器人技术及视频内容分析等领域的新可能。