讯飞星火多模态交互大模型上线，数字人、语音、视觉支持一键调用

作者：清源

2024-11-14 06:07

“讯飞开放平台”公众号今天傍晚宣布，讯飞星火多模态交互大模型正式上线，其实现从语音交互拓展到音视频流实时多模交互，新增“多模态、超拟人和个性化”能力，实现语音、视觉、数字人交互三合一。

“讯飞开放平台”公众号今天傍晚宣布，讯飞星火多模态交互大模型正式上线，其实现从语音交互拓展到音视频流实时多模交互，新增“多模态、超拟人和个性化”能力，实现语音、视觉、数字人交互三合一，支持一键调用。

讯飞星火多模态交互大模型上线，数字人、语音、视觉支持一键调用

据介绍，讯飞星火多模态交互大模型首发超拟人数字人技术，数字人躯干和四肢动作能够精准匹配语音内容，快速生成表情和动作，令 AI“栩栩如生”。通过统一文本、语音和表情，能够实现跨模态的语义一致性，从而使大模型情感表达真实连贯。

其支持超拟人极速交互，采用统一神经网络直接实现语音到语音的端到端建模，响应更快速、流畅，可敏锐感知情绪变化，也可根据指令自由变换声音的节奏、大小和人设。

其支持多模态视觉交互，能够“听懂世界”“认清万物”，更全面感知具体背景场景、物流状态等信息，对任务的理解更加精准，并通过语音、手势、行为、情绪等进行综合判断，作出合适的回复。

据AI在线此前报道，用户可与数字人进行语音、视频通话，数字人可实现与用户的自然语音对话，人物表情等也能够匹配说话的语句。星火超拟人数字人还支持多模态交互，可让数字人识别摄像头中的内容，比如孙悟空和奥特曼站在一起、面霜的品牌和作用、花的品类等。

相关标签：

数字人科大讯飞讯飞星火

相关资讯

为什么要做长文本、长图文、长语音的大模型？深度解读讯飞星火V3.5春季上新

为什么要做长文本、长图文、长语音的大模型？深度解读讯飞星火V3.5春季上新

讯飞的持续高投入，换来了大模型能力的迅速提升。4 月 26 日，科大讯飞发布讯飞星火大模型 V3.5 的功能上新，其中一个重点就是面向用户各种场景中高效获取信息需求，发布首个长文本、长图文、长语音的大模型，能够支持文档、图文资料、会议录音等各种信息来源的快速理解和学习，还能够结合各种行业场景知识给出专业、准确回答。效果到底如何？今年人形机器人发展火热，我们将一份长达 70 多页的人形机器人报告，丢给了讯飞星火。只见星火很快上传解析了文件，我们先让星火总结这份报告的重点信息，星火条理清晰的给出了答案。然后又让它给出报

设计师的文案加速器：5个超好用的AI写作助手工具测评

设计师的文案加速器：5个超好用的AI写作助手工具测评

今天我要给大家介绍几款超级宝藏的 AI 写作助手工具，其中或许有大家所熟悉的产品。这些工具不仅精通语言艺术，更能在创作风格、语调和内容上提供专业的指导和支持。在接下来的章节中，我将介绍每个 AI 写作助手工具的简介、主要功能、使用场景以及使用示例。无论你是专注于视觉设计、用户体验设计，还是产品设计的专业人士，这些工具都将为你的工作流程带来显著的增益和创新灵感。让我们一起启程，探索这几款设计文案加速器吧~ 一、讯飞星火简介：讯飞星火认知大模型是科大讯飞发布的大模型。该模型具有 7 大核心能力，即文本生成、语言理解、

讯飞星火升级 3.0：整体超越 ChatGPT，2024 年将实现对标 GPT-4

讯飞星火升级 3.0：整体超越 ChatGPT，2024 年将实现对标 GPT-4

距离上一个大版本仅两个月过去，科大讯飞在 1024 对外正式推出讯飞星火认知大模型 3.0 版本。今年 5 月，讯飞星火认知大模型刚刚面世时，科大讯飞董事长刘庆峰曾立下 Flag：10 月 24 日，星火认知大模型的能力要全面对标 ChatGPT。在今天的发布会上，刘庆峰对外正式宣告，星火 V3.0 已经实现全方位超越 ChatGPT，在中文上实现全面超越，在英文上实现对标。相较于上一个版本，讯飞星火 3.0 版本在文本生成、语言理解，知识问答、逻辑推理、数学能力、代码能力、多模态能力等七大核心能力上继续升级，并且

资讯热榜

罗永浩 Jarvis 初创项目“J1 Assistant AI 助理”上线，利用语音与大模型互动突破非视距条件依赖！大规模区域、低成本的UWB-LiDAR标定与单次定位框架 SK 海力士宣布参展 CES 2025，将展示 122TB 企业级固态硬盘等产品类 Mac Mini 大小的个人 AI 超算：英伟达 Project Digits 发布，起价 3000 美元斯坦福AI科研神器开源，一键成文GPT-4o mini加持！科研写作彻底解放双手从DeepSeek-V3发布谈大模型的技术突破与未来机遇别再将LLM当成数据库了 3 到 5 秒即可同声传译 40 余种语言，时空壶推出 W4 Pro 实时翻译耳机

标签云