MiniMax 海螺语音 AI 产品上线:支持 17 种语言生成,最长可输入多达 10000 字符

MiniMax 昨日宣布,带来全新升级的 T2A-01 系列语音模型,并全球同步上线海螺语音产品。据介绍,依托于 T2A-01 系列语音模型,用户在海螺 AI 仅需输入文字即可生成自然、流畅的超拟人人声,最长可输入多达 10000 字符。
感谢MiniMax 昨日宣布,带来全新升级的 T2A-01 系列语音模型,并全球同步上线海螺语音产品。

据介绍,依托于 T2A-01 系列语音模型,用户在海螺 AI 仅需输入文字即可生成自然、流畅的超拟人人声,最长可输入多达 10000 字符。与此同时,用户可以根据需要自由配置输出语音的情绪、语速、音高,甚至调整音色效果,满足复杂场景的精细化需求。

MiniMax 海螺语音 AI 产品上线:支持 17 种语言生成,最长可输入多达 10000 字符

AI在线注意到,海螺语音支持中文、粤语、英语、日语、韩语、阿拉伯语、葡萄牙语、西班牙语、法语、意大利语、印尼语、荷兰语、俄语、德语、越南语、土耳其语、乌克兰语等 17 种语言生成。

官方称,用和 Seed-TTS 论文相同的评测集和评测工具(WER:合成音频的文本和 asr 识别结果计算词错率;SIM:用说话人识别工具计算合成音频和真实音频的距离,表示复刻相似度)来计算海螺语音的字错率和相似度(加粗数字评分代表更优结果)。结果显示,海螺语音在中文的字错率和相似度最好,英文的字错率、相似度和真实录音「Human」接近。

MiniMax 海螺语音 AI 产品上线:支持 17 种语言生成,最长可输入多达 10000 字符

海螺语音具备情感理解能力,能够智能地识别并重现语音中细微的情感差别,让声音更加鲜活,情绪表达更加精准。同时,还预置不同语种共计 300 + 音色供用户选择,用户可按语言、口音、性别和年龄分类筛选。音色多变,不羁、诙谐、慈祥等风格丰富多样,有声书、ASMR 耳语、新闻播报等场景均可适用。

相关资讯

几十个测试后,发现海螺语音与 ElevenLabs 掰手腕的能力不是盖的

试想一个场景,职场中接到一个香港客户的单子,但是在交付的过程中耽搁了时间,现在要进行线上沟通解释,那么你面对的情况大致是这样的:如果不对这段音频进行标注,可能大部分人会认为这一粤语、英语混用的片段是真实发生或从TVB电视剧里截出来的。 但其实,这是由 AI 完成的配音,背后所使用的工具是海螺语音。 今年 1 月,继 MiniMax 发布并开源基础语言大模型 MiniMax-Text-01 和视觉多模态大模型 MiniMax-VL-01 后,再次推出了升级的语音大模型 T2A-01 系列,搭载于海螺 AI 之上,开辟海螺语音板块。

MiniMax 稀宇科技发布万亿参数 MoE 模型 abab 6.5,核心能力接近 GPT-4

国内 AI 初创企业 MiniMax 稀宇科技今日正式推出 MoE 混合专家模型架构的 abab 6.5 系列模型,核心能力开始接近 GPT-4、 Claude-3、 Gemini-1.5。abab 6.5 系列包含两个模型:abab 6.5:包含万亿参数,支持 200k tokens 的上下文长度;abab 6.5s:与 abab 6.5 使用了同样的训练技术和数据,但是更高效,支持 200k tokens 的上下文长度,可以 1 秒内处理近 3 万字的文本。自一月发布国内首个基于 MoE 架构的 abab 6

MiniMax不声不响出了款让人惊喜的生产力产品:「海螺AI」大测评

继 1 月推出国内首个基于 MoE 架构的千亿参数量大语言模型 abab6 后,上周,通用人工智能创业公司、中国估值最高的大模型公司之一 MiniMax 推出了万亿 MoE 模型 abab 6.5。根据 MiniMax 发布的技术报告,在各类核心能力测试中,abab 6.5接近 GPT-4、 Claude 3 Opus 、Gemini 1.5 Pro 等世界领先的大语言模型。 MiniMax 用业界标准的开源测试集测试两个模型。abab 6.5系列包含两个模型 abab 6.5和abab 6.5s,在知识、推理、数