讯飞星火多模态交互大模型上线，数字人、语音、视觉支持一键调用

应用
5小时前
编辑

清源

“讯飞开放平台”公众号今天傍晚宣布，讯飞星火多模态交互大模型正式上线，其实现从语音交互拓展到音视频流实时多模交互，新增“多模态、超拟人和个性化”能力，实现语音、视觉、数字人交互三合一。

“讯飞开放平台”公众号今天傍晚宣布，讯飞星火多模态交互大模型正式上线，其实现从语音交互拓展到音视频流实时多模交互，新增“多模态、超拟人和个性化”能力，实现语音、视觉、数字人交互三合一，支持一键调用。

讯飞星火多模态交互大模型上线，数字人、语音、视觉支持一键调用

据介绍，讯飞星火多模态交互大模型首发超拟人数字人技术，数字人躯干和四肢动作能够精准匹配语音内容，快速生成表情和动作，令 AI“栩栩如生”。通过统一文本、语音和表情，能够实现跨模态的语义一致性，从而使大模型情感表达真实连贯。

其支持超拟人极速交互，采用统一神经网络直接实现语音到语音的端到端建模，响应更快速、流畅，可敏锐感知情绪变化，也可根据指令自由变换声音的节奏、大小和人设。

其支持多模态视觉交互，能够“听懂世界”“认清万物”，更全面感知具体背景场景、物流状态等信息，对任务的理解更加精准，并通过语音、手势、行为、情绪等进行综合判断，作出合适的回复。

据AI在线此前报道，用户可与数字人进行语音、视频通话，数字人可实现与用户的自然语音对话，人物表情等也能够匹配说话的语句。星火超拟人数字人还支持多模态交互，可让数字人识别摄像头中的内容，比如孙悟空和奥特曼站在一起、面霜的品牌和作用、花的品类等。

给TA打赏

共{{data.count}}人

人已打赏

数字人科大讯飞讯飞星火

入局AI Search，阿里国际推出全球首个B2B AI搜索引擎Accio

2024-11-14 17:31:00

消息称生成式 AI 发展遇瓶颈，OpenAI CEO 阿尔特曼驳斥

2024-11-14 18:49:47

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

TOP1

Scaling Laws终结，量化无用，AI大佬都在审视这篇论文
11月13日
TOP2

钉钉AI重磅更新：深入业务场景，上线工单等场景AI助理
11月13日
TOP3

AI 开始“卷”智能体：OpenAI 被曝明年将推 Operator，可控制电脑、独立执行任务
16小时前
Red Hat 收购 Neural Magic 并开源其技术：优化通用设备 AI 性能，可媲美专用芯片
14小时前
谷歌扩大 AI 洪水预警系统覆盖范围，惠及全球 7 亿人
11月13日
OpenAI 联合创始人回来了，还是总裁，将更专注重大技术挑战
11月13日
AI解锁500多年的圣殿，米开朗基罗杰作，你我触手可及
11月13日
全球首个：英伟达与软银试运行“AI+5G” 电信网络，号称投资 1 美元收入 5 美元
11月13日

❯

个人中心

今日签到

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_￥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部