感谢据《麻省理工科技评论》报道,当地时间周五(22)日发表的一篇论文显示,苹果公司的研讨人员正在探索利用人工智能来检测用户何时在与 iPhone 等设置装备摆设交谈的可能性,从而消除像“Siri”这样的触发短语的技术需求。
在这项上传到 Arxiv 且未经同行评审的研讨中,研讨人员使用智能手机捕获的语音以及来自背景噪音的声学数据,训练了一个大型语言模型,以寻找“可能表明用户需要设置装备摆设辅助”的模式。
论文中称,该模型部分基于 OpenAI 的 GPT-2 构建,因为它相对轻量级,可以在智能手机等设置装备摆设上运行。论文还描述了用于训练模型的超过 129 小时的数据、额外的文本数据,但没有说明训练集的录音来源。据领英个人资料,七位作者中有六位列出他们的隶属关系为苹果公司,其中三人在苹果 Siri 团队工作。
论文最终得出的结论“令人鼓舞”,声称该模型能够比纯音频或纯文本模型做出更准确的预测,并且随着模型规模的扩大而进一步改进。
IT之家提醒:目前,Siri 的功能是通过保留少量音频来实现的,听到“嘿,Siri”等触发短语之前,不会开始录制或准备回答用户提醒。
斯坦福人类中心人工智能研讨所的隐私和数据政策研讨员詹・金表示,取消“嘿,Siri”提醒可能会增加对设置装备摆设“始终监听”的担忧。
参考
A Multimodal Approach to Device-Directed Speech Detection with Large Language Models