在这项上传到 Arxiv 且未经同行评审的研究中,研究人员使用智能手机捕获的语音以及来自背景噪音的声学数据,训练了一个大型语言模型,以寻找“可能表明用户需要设备辅助”的模式。
论文中称,该模型部分基于 OpenAI 的 GPT-2 构建,因为它相对轻量级,可以在智能手机等设备上运行。论文还描述了用于训练模型的超过 129 小时的数据、额外的文本数据,但没有说明训练集的录音来源。据领英个人资料,七位作者中有六位列出他们的隶属关系为苹果公司,其中三人在苹果 Siri 团队工作。
论文最终得出的结论“令人鼓舞”,声称该模型能够比纯音频或纯文本模型做出更准确的预测,并且随着模型规模的扩大而进一步改进。
IT之家提醒:目前,Siri 的功能是通过保留少量音频来实现的,听到“嘿,Siri”等触发短语之前,不会开始录制或准备回答用户提示。
斯坦福人类中心人工智能研究所的隐私和数据政策研究员詹・金表示,取消“嘿,Siri”提示可能会增加对设备“始终监听”的担忧。
参考
A Multimodal Approach to Device-Directed Speech Detection with Large Language Models