动物版谷歌翻译来了?Nature:用AI解码野性的呼唤!

每一种动物都有其独特的历史。 来自加拿大Carleton University的鲸鱼生物学家Shane Gero,花了20年时间试图了解鲸鱼是如何交流的。 比如,同一个家族的鲸鱼会发出特定的声音,而不同区域的抹香鲸(Physeter macrocephalus)有自己的「方言」。

每一种动物都有其独特的历史。

来自加拿大Carleton University的鲸鱼生物学家Shane Gero,花了20年时间试图了解鲸鱼是如何交流的。

动物版谷歌翻译来了?Nature:用AI解码野性的呼唤!

比如,同一个家族的鲸鱼会发出特定的声音,而不同区域的抹香鲸(Physeter macrocephalus)有自己的「方言」。

动物版谷歌翻译来了?Nature:用AI解码野性的呼唤!

海豚的口哨声、大象的隆隆声、鸟鸣的颤音都有特定的模式和结构。

对于人类来说,这些微妙之处可能难以识别和理解,但寻找模式正是AI所擅长的领域。

在过去的一年里,AI不断帮助研究者们「解码」自然界中的这些声音。

密码破译者

鲸鱼以氏族的形式聚集在一起,每个氏族都有独特的饮食、社会行为和栖息地。一个氏族可以包含数千头鲸鱼,每个家庭以雌性鲸鱼为首。

鲸鱼们大部分时间都在海洋深处寻找食物,最远可达海面以下2公里处。阳光照不到那里,它们通过回声定位寻找猎物。

而在不需要回声定位的水面上,它们还会使用称为尾音(codas)的一系列咔嗒声来与其他鲸鱼保持联系,每次持续3到40下。

动物版谷歌翻译来了?Nature:用AI解码野性的呼唤!

不同氏族的鲸鱼使用尾音的节奏和停顿不同,这些「方言」标志着氏族之间的「文化界限」。

在加勒比海域,Gero和他的同事们花了几千小时,收集了居住在附近的30多个鲸鱼家庭的数据。

为了了解尾音的节奏和速度,团队手动创建了鲸鱼声音记录频谱图,将音量和频率等特征可视化。

动物版谷歌翻译来了?Nature:用AI解码野性的呼唤!

Gero表示,这项任务非常耗时,交给机器学习算法之后大大加快了工作速度,同时还有助于区分哪种声音来自哪种动物。

另外,人工智能也让研究走得更远。

手动操作基本上只能对单个单词进行分类,但AI可以处理相当于句子甚至整个对话的尾声。「机器学习非常擅长发现标准统计方法难以捕捉的模式」。

研究人员收集了8,719个尾声的数据集,在AI的帮助下发现了「抹香鲸音标」,作为鲸鱼之间共享复杂信息的基础。

Call me by my name

抹香鲸并不是唯一使用特定发声来识别自己的生物。曾在科罗拉多州立大学工作的行为生态学家Mickey Pardo,通过AI发现了野生非洲象有自己的名字。

动物版谷歌翻译来了?Nature:用AI解码野性的呼唤!

大象们使用低沉的隆隆声彼此交流,在不同的情况(远距离、面对面、或者亲子互动)下,声音会有差别。

Pardo和他的同事们发现,大象会对某些叫声做出反应,而忽略其他叫声。

动物版谷歌翻译来了?Nature:用AI解码野性的呼唤!

研究人员训练了AI模型来学习这些「呼叫」的声学特征,并根据新呼叫的特征来预测接收者。

最终,模型以27.5%的准确率匹配了呼叫者——尽管看起来分数不高,但人家大象也不是每次呼叫都「直呼其名」。

另一种被AI发现了「真名」的动物是下面这哥们:狨猴(Callithrix jacchus)。

动物版谷歌翻译来了?Nature:用AI解码野性的呼唤!

除了预测名字之外,Pardo还尝试利用AI解码其他的「大象词汇」,比如位置术语。

当大象招呼同伴向特定地点移动时,会发出特别的叫声。模型识别这些叫声的含义,研究人员播放叫声并验证大象们的去向。

动物版谷歌翻译来了?Nature:用AI解码野性的呼唤!

在关于大象的另一项研究中,Pardo发现肯尼亚两个种群中大象的叫声存在明显差异。

所以,进行濒危物种保护时,不能简单将个体与其他同类放到一起,因为「新人」可能面临语言不通的麻烦。

另外,大象的叫声还包含了性别、年龄、生理状况等信息,科学家们可以通过梳理这些信息,使用被动声学监测来了解特定大象的情况。

动物版谷歌翻译来了?Nature:用AI解码野性的呼唤!

加州大学的动物行为生态学家Caroline Casey,在博士论文中证明了象海豹(Mirounga spp)也会给给自己起名字。

Casey认为,使用基于AI的分类器来解释动物的叫声,可以减少研究中的人为偏见,但与此同时,人类直觉的价值也不应该被忽视。

「人类的大脑能够整合我们对自己世界的理解和运作方式,并利用它来帮助解释动物的行为」。

泛化到乌鸦

动物版谷歌翻译来了?Nature:用AI解码野性的呼唤!

机器学习专家Olivier Pietquin是地球物种项目(Earth Species Project)的AI研究主管,项目团队目前正在使用AI解码动物物种的交流。

Pietquin希望利用神经网络从一个数据集泛化到另一个数据集的能力,在训练模型时,不仅能够使用来自不同动物的大量声音,还可以使用其他声学数据(包括人类语音和音乐)。

「计算机可以在建立理解以专门识别动物发声特征之前,需要先推导出声音的一些基本特征。这与在人脸图片上训练的图像识别算法学习像素的一些基本特征的方式相同。」

像素首先描述椭圆,然后描述眼睛。所以,即使使用人脸作为大部分训练数据,AI模型依然可以利用这些基础知识识别猫的面部。

「我们可以想象使用人类语音数据,并希望它能转移到任何其他具有声带的动物身上。」

以这种方式训练的模型有助于识别哪些声音传达了信息,哪些只是噪声。当然,要弄清楚这些叫声的具体指向,仍然需要人类观察动物的行为,为计算机识别出的内容添加标签。

动物版谷歌翻译来了?Nature:用AI解码野性的呼唤!

地球物种项目的研究人员已经创建了一个名为Voxaboxen的神经网络,他们正在将其应用于乌鸦交流的研究。

与欧洲其他地方的同类不同,西班牙北部的腐肉乌鸦种群(Corvus corone)共同承担着照顾幼崽的责任。一群乌鸦将轮流守卫巢穴、清洁巢穴和照顾雏鸟,它们必须通过语音沟通协调才能完成这些任务。

研究人员将标签贴在乌鸦的尾羽上,其中包含一个微型麦克风,一个加速度计和磁力计,用于测量鸟类的运动和叫声。标签能够收集大约六天的数据,然后掉到地上并发出一个信号,方便工作人员检索和研究这些数据。

动物版谷歌翻译来了?Nature:用AI解码野性的呼唤!

尽管有抹香鲸、非洲大草原象、狨猴、海象、乌鸦这些例子,但是用AI打造「动物版的谷歌翻译」还为时尚早。

动物是否能够进行超过基本水平的交流——即有无语言的构成,还没有公认的定义。

Pardo表示,他的主要目标不是能够与野生动物和宠物交谈,而是了解它们的思想以及它们如何看待自己和世界。

例如,一些动物似乎有名字的事实意味着,它们能够将其他个体视为实体并提出标签,这表明它们具有复杂的抽象思维水平。

相关资讯

OpenAI公布「官方爬虫」:GPT-5靠它训练,有需要可以屏蔽

众所周知,OpenAI 从 GPT-4 开始就已经对技术细节完全保密了,最初只用一份 Tech Report 来展示基准测试结果,而闭口不谈训练数据和模型参数。尽管后来有网友各种爆料,OpenAI 也从未回应。

你的自拍和聊天记录,正被硅谷大厂砸数十亿美元疯抢

新智元报道  编辑:Aeneas 好困【新智元导读】2026 年的数据荒越来越近,硅谷大厂们已经为 AI 训练数据抢疯了!它们纷纷豪掷十数亿美元,希望把犄角旮旯里的照片、视频、聊天记录都给挖出来。不过,如果有一天 AI 忽然吐出了我们的自拍照或者隐私聊天,该怎么办?谁能想到,我们多年前的聊天记录、社交媒体上的陈年照片,忽然变得价值连城,被大科技公司争相疯抢。现在,硅谷大厂们已经纷纷出动,买下所有能购买版权的互联网数据,这架势简直要抢破头了!图像托管网站 Photobucket 的陈年旧数据,本来已经多年无人问津,但

美国加州通过人工智能训练数据透明度法案,要求企业披露 AI 模型数据来源

今日,美国加州立法机构通过了一项颇具争议的法案 —— 人工智能训练数据透明度法案,该法案将提交给州长加文・纽瑟姆,但其尚未对此法案表态。图源 Pexels该法案旨在要求人工智能公司在开发和训练模型时,对其使用的数据集进行更加透明的披露。AI在线注意到,这项由议员雅克・欧文提出的法案(AB 2013)原本适用范围更广,但在 8 月 20 日范围缩小至仅适用于生成式人工智能,即能生成文本、图像和类似内容的人工智能,例如 Open AI 的 ChatGPT 这类。该法案要求人工智能公司公开其训练模型的关键信息,如数据来源