苹果新研究:AI不听录音,凭文本描述能零样本识别洗碗等12种活动
创始人
2025-11-22 07:44:53
0

IT之家 11 月 22 日消息,科技媒体 9to5Mac 昨日(11 月 21 日)发布博文,报道称在最新公布的研究报告中,苹果指出大语言模型(LLM)可通过分析音频和运动数据的文本描述,精准识别用户活动,未来可能会应用于 Apple Watch 上。

这项名为“后期多模态传感器融合”(Late Multimodal Sensor Fusion)的技术,主要结合 LLM 的推理能力与传统传感器数据,即使在传感器信息不足的情况下,也能精确判断用户正在进行的具体活动。

研究的核心方法颇具新意。大语言模型并未直接处理用户的原始音频录音或运动数据,而是分析由专门的小型模型生成的文本描述。

具体来说,音频模型会生成描述声音环境的文字(如“水流声”),而基于惯性测量单元(IMU)的运动模型则会输出动作类型的预测文本。这种方式不仅保护了用户隐私,还验证了 LLM 在理解和融合多源文本信息以进行复杂推理方面的强大能力。

为验证该方法,研究团队使用了包含数千小时第一人称视角视频的 Ego4D 数据集。他们从中筛选出 12 种日常活动,包括吸尘、烹饪、洗碗、打篮球、举重等,每段样本时长 20 秒。

随后,研究人员将小模型生成的文本描述输入给谷歌的 Gemini-2.5-pro 和阿里的 Qwen-32B 等多个大语言模型,并测试其在“零样本”(无任何示例)和“单样本”(提供一个示例)两种情况下的识别准确率。

测试结果显示,即使没有任何针对性地训练,大语言模型在活动识别任务中的表现也远超随机猜测的水平,其 F1 分数(衡量精确率和召回率的指标)表现优异。当获得一个参考示例后,模型的准确度还会进一步提升。

这项研究表明,利用 LLM 进行后期融合,可以有效开发出强大的多模态应用,而无需为特定场景开发专门模型,从而节省了额外的内存和计算资源。苹果公司还公开了实验数据和代码,以供其他研究者复现和验证。

上一篇:AI赋能,推动制造迈向智造

下一篇:没有了

相关内容

最新资讯

公考即将举行 警惕六类陷阱 一年一度的“公考季”即将拉开帷幕,国考已完成报名,将于近期开始笔试。与此同时,不法分子蠢蠢欲动,11...
澳大利亚媒体:回避“存亡危机事... 澳大利亚“珍珠与刺激”网站11月21日文章 当日本首相高市早苗在国会答辩时宣称“台湾有事”可能构成日...
高中、中专之间能互相转学?探索... 澎湃特约评论员 章润 日前,山东一项涉及高中和中专的政策引发了不小的关注。山东省教育厅印发《山东省普...
第二十六届世界华人学生作文大赛... 由中国侨联、全国台联主办,河北阅读传媒有限责任公司《快乐作文》杂志承办的第二十六届世界华人学生作文大...
苹果新研究:AI不听录音,凭文... IT之家 11 月 22 日消息,科技媒体 9to5Mac 昨日(11 月 21 日)发布博文,报道...
无人机,变凶器? 11月4日晚,湖北省十堰市林业部门联合某科技公司,运用无人机坠箭技术捕猎了两头成年野猪。过去几个月,...
济学有方丨“花园”笔记争霸赛启... 在学习生活中,同学常常面临优质学习资源分散、难以高效获取的困境。为服务同学学业发展需求,同济大学学生...
解放军报:借台湾生事,就是给日... 借台湾生事,就是给日本找事■梁 云 汪深伟“高市作为首相的存在本身才是日本的存亡危机。”这是日本媒体...
AI赋能,推动制造迈向智造 □ 本报记者 浦敏琦 位于无锡高新区的无锡人工智能产业园近日开园,科大讯飞无锡产业加速中心启用。这是...
兵韬志略|韩国暂停与日联合搜救... 热点新闻:11月17日,韩国海军正式通知日本海上自卫队,暂停原定于本月内举行的联合搜救演习。此次被暂...