消息称 OpenAI 将推出多模态人工智能数字助理：可语音对话、辨别物体

据 The Information 报导，OpenAI 最近向部分客户展示了一款新式多模态人工智能模型，该模型可以或许进行语音对话和物体辨别。有消息人士透露，这或许就是 OpenAI 计划在行将到来的 5 月 13 日正式宣布的内容之一。图源 Pexels报导称，相比于 OpenAI 现有的独立图像辨别和文本转语音模型，该新式模型可以或许更快、更准确地处理图像和音频信息。例如，它可以帮助客服人员“更好地理解来电者的语调语调，判断他们是否在使用讽刺语调”。理论上，该模型还能辅助学生学习数学知识，或翻译现实世界中的标志文字。不

据 The Information 报导，OpenAI 最近向部分客户展示了一款新式多模态人工智能模型，该模型可以或许进行语音对话和物体辨别。有消息人士透露，这或许就是 OpenAI 计划在行将到来的 5 月 13 日正式宣布的内容之一。

图源 Pexels

报导称，相比于 OpenAI 现有的独立图像辨别和文本转语音模型，该新式模型可以或许更快、更准确地处理图像和音频信息。例如，它可以帮助客服人员“更好地理解来电者的语调语调，判断他们是否在使用讽刺语调”。理论上，该模型还能辅助学生学习数学知识，或翻译现实世界中的标志文字。

不过，消息人士也指出，虽然该模型在某些问题解答方面可以或许超越 GPT-4 Turbo，但仍有能够出现自信地给出错误答案的情况。

消息称 OpenAI 将推出多模态人工智能数字助理：可语音对话、辨别物体

IT之家注意到，开发者 Ananay Arora 宣布了一张包含通话相关代码的截图，暗示 OpenAI 能够正在为 ChatGPT 加入打电话的功能。Arora 还发现了一些证据表明 OpenAI 正在配置用于实时音视频通信的服务器。

OpenAI 首席执行官萨姆・阿尔特曼 (Sam Altman) 已经明确否认行将宣布的新品是代号为 GPT-5 的大型语言模型（据称其性能将大幅优于 GPT-4）。The Information 则表示，GPT-5 能够将在今年年底前正式亮相。阿尔特曼还表示，OpenAI 不会宣布新的人工智能搜索引擎。

如果 The Information 的报导属实，OpenAI 的新品宣布仍能够会对行将举行的 Google I / O 开发者大会产生一定影响。众所周知，google也在测试利用人工智能进行电话呼叫的技术。此外，google还有一个据传行将宣布的项目，代号为“Pixie”。Pixie 是一款可以或许通过设备摄像头辨别物体的多模态 Google Assistant 替代品，可以为用户提供诸如“如何前往购买地点”或“如何使用”等信息。

{{userData.name}}已认证

消息称 OpenAI 将推出多模态人工智能数字助理：可语音对话、辨别物体

保险平安公司警告黑客正瞄准各大 AI 语言模型平台用户账号，转卖 API 余额 / 猎取隐私信息

旅行箱式 AI 超级估计机问世，将数据处置惩罚带到现场

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！