谷歌近日发布了一款开创性的人工智能模型——DolphinGemma,旨在深入理解野生大西洋斑点海豚的交流模式。该项目由谷歌与野生海豚项目 (WDP) 和佐治亚理工学院的研究人员合作开发,利用WDP近40年来在巴哈马群岛积累的庞大海豚音频和视频记录数据库。
DolphinGemma基于这些珍贵数据进行训练,并采用谷歌先进的音频技术SoundStream分词器将海豚的声音转化为数字格式。这款AI模型能够识别、分析甚至生成逼真的海豚典型声音模式序列,包括口哨声、咔哒声和脉冲串声,其功能类似于人类语言模型,可以预测声音序列中的下一个声音。
图源备注:图片由AI生成,图片授权服务商Midjourney
值得一提的是,研究人员正利用谷歌Pixel智能手机将DolphinGemma直接部署到水下,进行实地数据记录和分析。与此同时,团队还采用了CHAT系统(鲸类听觉增强遥测系统),该系统将特制的人工哨声与海藻或游戏服等特定物体关联起来,旨在让海豚学习并使用这些声音与研究人员互动。Pixel智能手机能够实时识别海豚模仿的音调,并通过声音反馈给潜水员,告知他们所请求的物体。
这项创新性的研究计划结合了人工智能、移动技术和长期的实地观察,目标是揭示海豚语言的结构,并最终实现某种形式的人类与海豚之间的交流。谷歌计划于2025年夏季将DolphinGemma作为开放模型发布,供其他研究团队用于分析海洋哺乳动物的交流。
DolphinGemma是谷歌将其人工智能技术应用于动物交流研究(特别是海洋哺乳动物)的更广泛努力的一部分。作为其“AI for Social Good”项目的一部分,谷歌还与美国国家海洋和大气管理局 (NOAA) 合作开发了一款鲸鱼探测人工智能,用于分析自2005年以来在太平洋12个地点记录的海洋哺乳动物叫声的水听器数据。此外,谷歌的一个AI模型最近还帮助识别出一种此前未知的布氏鲸叫声,这种被称为“Biotwang”的声音是通过结合目击和录音确定的。
不仅如此,地球物种项目也在积极致力于创建动物交流的表征,涵盖单个物种以及跨物种的交流,其目标是理解包括蜜蜂舞蹈在内的各种非语言交流形式。