IT之家新闻 1 月 15 日报道,科技媒体 Appleinsider 今天(1 月 15 日)发表博文称,苹果发表了一篇重要研究论文,详细介绍了名为 DeepMMSearch-R1 的 AI 模型,该模型专注于优化复杂视觉场景中的 AI 搜索逻辑,并使用“切片”来治愈 AI 错觉。为了解决现有 AI 模型处理复杂视觉信息时经常出现的“回答错误的问题”或“漏掉某些东西”的问题,苹果发布了 DeepMMSearch-R1 模型。当面对诸如“照片左上角的鸟的最大速度是多少?”之类的复杂问题时传统模型经常产生错误的平均数据,因为它们无法关注局部细节。 DeepMMSearch-R1具有独特的“视觉定位工具(接地工具)”,可以主动裁剪图像,通过首先识别小目标,然后进行有针对性的网络搜索验证,以确保响应的客观准确性,从而消除干扰信息。为了确保模型仅在必要时才允许修剪以节省计算能力,研究人员采用了监督微调(SFT)+在线强化学习(RL)相结合的训练方法。 SFT 教导模型“不要随机切割”,而 RL 提高了工具调用的效率。测试数据表明,该模型显着优于当前的RAG(检索增强生成)工作流程,使基于单词的搜索代理能够处理需要精确图文对应的问题,并成功克服了AI在检索常识事实时“懒惰”的现象。 IT Home Attach Re 地址参考
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由社交媒体平台网易号用户上传发布at仅提供信息存储服务。