语音大模型

几十个测试后，发现海螺语音与 ElevenLabs 掰手腕的能力不是盖的

试想一个场景，职场中接到一个香港客户的单子，但是在交付的过程中耽搁了时间，现在要进行线上沟通解释，那么你面对的情况大致是这样的：如果不对这段音频进行标注，可能大部分人会认为这一粤语、英语混用的片段是真实发生或从TVB电视剧里截出来的。但其实，这是由 AI 完成的配音，背后所使用的工具是海螺语音。今年 1 月，继 MiniMax 发布并开源基础语言大模型 MiniMax-Text-01 和视觉多模态大模型 MiniMax-VL-01 后，再次推出了升级的语音大模型 T2A-01 系列，搭载于海螺 AI 之上，开辟海螺语音板块。

1/22/2025 2:07:00 PM

王悦

个性经济时代，MiniMax 语音大模型如何 To C？

大约一个月前，距离 GPT Store 上线还有两周，一位名为 Kyle Tryon 的国外开发者在个人博客上分享了其基于 ChatGPT Plus 开发的三个 Agent（又称“GPTs”），其中一个 Agent 是关于美国费城旅游出行的个人指南“PhillyGPT”，它能访问当地 SEPTA 公共交通 API，为个人提供费城当地的实时天气、旅游资讯、文艺演出活动、出行路线、公交车站与地标数据、预计抵达时间等等。具体可访问 PhillyGPT 链接：，实际是人们对于 GPT 时代 C 端个性消费产品的真正想象。无独有偶，1 月 11 日 OpenAI 正式上线 GPT Store 后，公布 300 万个 GPTs 之余，也将与用户日常消费活动息息相关的徒步路线指南“AllTrails”放在推荐榜单上。

2/2/2024 2:22:00 PM

王悦

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型