实时

Hugging Face 推出 FastRTC：实时语音视频应用开发变得轻而易举

AI 初创公司 Hugging Face 宣布推出 FastRTC，这是一个开源的 Python 库，旨在消除开发人员在构建实时音频和视频 AI 应用时面临的重大障碍。 Hugging Face 的 FastRTC 旨在简化 WebRTC 和 Websocket 应用的构建过程。 Freddy Boulton，FastRTC 的创建者之一表示:“在 Python 中，构建实时 WebRTC 和 Websocket 应用非常困难，直到现在才有所改变。

2/27/2025 10:41:00 AM

AI在线

豆包App更新实时语音通话功能，中文对话断崖式领先，人机难辨！

1月20日，豆包APP更新实时语音通话功能，面向所有用户开放。该功能基于最新豆包实时语音大模型（Doubao Realtime Voice Model）。更新后，豆包中文场景的对话能力在语音真实感和“喜怒哀乐”的情绪表现上近乎达到“人机难辨”的AI交互效果，可以模仿不同声线，并且在“逻辑思考”和“情绪感知”上有明显提升。

1/21/2025 9:16:00 AM

新闻助手

微软探索音生图 AI 模型，实时视觉化会议演讲者语音讲述的场景

科技媒体 MSPoweruser 昨日（10 月 14 日）发布博文，报道称微软公司获得了一项新的专利，描述了基于用户实时输入的语音来生成图片。根据美国商标和专利局最新公示的清单，该专利共计 20 页，微软于 2023 年 4 月 5 日提交申请，于 10 月 10 日获批。根据专利描述，该系统可以在会议或讲座中实时捕捉音频，随后通过语言模型进行总结，并生成相应的 AI 图像。

10/15/2024 11:57:27 AM

故渊

美年健康推出国内首款健康管理 AI 机器人“健康小美”，与华为云、润达医疗三方合作研发

美年健康昨日在“2024 预防医学创新峰会”上举办发布会，正式宣布国内首款健康管理 AI 机器人 ——“健康小美”。据官方介绍，“健康小美”定位数智健管师，由美年健康、华为云与润达医疗三方合作研发，基于大模型技术和海量医学知识、高质量健康大数据打造。“健康小美”采用了华为盘古大模型与润达医疗大模型双重结构，能识别医疗场景中病历、体征、检验、⼼电、超声、CT、核磁等多模态数据，并能够精准理解数据的含义。此外，“健康小美”还有着 3.5 万名美年健康预防医学⼈才 20 年的经验积累、美年健康超 2 亿人次的真实健康体检

8/29/2024 10:20:04 PM

问舟

字节豆包大模型已支持实时语音通话

IT 之家 8 月 9 日消息，字节跳动旗下火山引擎今日宣布推出对话式 AI 实时交互解决方案，搭载火山方舟大模型服务平台。该方案通过火山引擎 RTC 实现语音数据的采集、处理和传输，并深度整合豆包・语音识别模型和豆包・语音合成模型，简化语音到文本和文本到语音的转换过程，提供智能对话和自然语言处理能力，帮助应用实现用户和云端大模型的实时语音通话。▲ 对话式 AI 实时交互服务方案架构字节跳动介绍称，对话式 AI 实时交互解决方案支持开箱即用快速搭建，只需调用标准的 OpenAPI 接口即可配置所需的语音识别（ASR

8/9/2024 2:27:22 PM

汪淼

实时AI，最难躺平的战场

机器之能报道编辑：Sia有人预测 2024 将是视频之年，其实今年已经看出端倪。年终将至，图像、视频生成战场仍然高潮迭起。前阵子上线的 Pika Labs 1.0 炸了一波，Meta 又推出一个免费的 AI 图像生成器，口碑不错。谷歌 DeepMind 最新文生图模型 Imagen 2 毫无悬念地登上了今天的头条。如果有内测资格，你会发现谷歌搜索居然可以直接生图。进入谷歌实验室，测试中的谷歌搜索可以直接生图了。与此同时，之前热度不减、但一直处在内测阶段的 AI 设计工具 Krea AI Beta 版也终于开放，

12/14/2023 6:56:00 PM

机器之能