应用 - AI在线

微软 Azure AI 语音服务推出虚拟人形象，支持文本转视频

微软 Azure AI 语音服务允许开发者构建多语言生成式 AI 语音应用，Azure AI 语音服务最新推出了文本到语音虚拟人功能，可以将简单的文本转换为人类自然说话视频。今天，微软宣布全面推出 Text to Speech Avatar 功能。这项新功能使开发者能够为其用户创建个性化虚拟人。该服务的输出视频分辨率为 1920 x 1080，每秒 25 帧。AI在线附示例如下：Text to Speech Avatar 具有以下功能：将文本转换为由 Azure AI 文本转语音提供支持的人类说话视频，该视频具有自

McAfee 携手联想推出“全球首款自动 Deepfake 检测器”，遏制 AI 诈骗

网络安全公司 McAfee 和联想公司合作，推出了全新的 Deepfake Detector，声称是全球首款自动 Deepfake 检测器，可以遏制网络钓鱼。McAfee 表示该工具基于自家 AI 算法，能够帮助用户识别可能的 Deepfake 诈骗以及其它 AI 骗局，目前已经邀请美国、英国、澳大利亚的部分联想 AI PC 用户测试，初期仅限于英语情境。McAfee 表示 Deepfake Detector 已使用超过 20 万个样本进行训练，并非依赖云网络，而是利用联想 AI PC 中的 NPU，直接从 PC

AI 视频哪家强？7款AI视频生成工具详细测评

国内外AI视频生成工具那么多，各自有哪些优缺点，该如何选择？这篇文章帮你总结好了！一、可灵 AI-内测完全免费支持文生图/视频、图生图/视频、支持首尾帧、支持运镜调整，内测完全免费网站链接：、Dreamina（即梦）支持文生图/视频、图生图/视频、支持首尾帧、支持运镜调整，每天 88 积分（预计 9 个视频）网站链接：、Luma-图转视频稳定支持文生视频、图生视频、支持首尾帧、每月可免费生成 30 个视频网站链接：、Pika-支持语音视频同步生成支持文生视频、图生视频、支持首尾帧、支持运镜，支持

Midjourney 官宣网页版免费用，前谷歌大佬祭出 AI 生图 Ideogram 2.0

Midjourney 一度稳居 AI 生图的第一梯队，甚至是很多人心中的 Top1。但是 Ideogram 2.0 的发布，抢夺了 Midjourney 的荣光，不仅一举拉高了图像生成质量，还打起了价格战。曾经在 AI 图像生成领域无可匹敌的领导者 Midjourney，终于听劝了，上周五推出了网页版图像编辑器。新编辑器巧妙集成了重绘、缩放等核心功能。不仅提高了操作效率，而且使整体交互逻辑更加清晰，对于高频使用 Midjourney 的用户来说，绝对欣喜！今天，Midjourney 宣布，将升级后的新工具向所有人免

实测四款AI生图神器，Midjourney「霸主」地位难撼动

机器之能报道编辑：杨文MJ、Ideogram 2.0、Flux、Imagen 3，谁能坐上AI生图第一把交椅？AI 圈，卷完视频卷图像。继 FLUX 生成的各种恶搞图像满天飞后，其他 AI 生图玩家也坐不住了，纷纷迎战：就在今天，Midjourney 一改往日「高冷范」，宣布所有用户可免费使用一个月（暗藏小心思：只能免费生成 25 张图像）；同时，Ideogram 也正式推出 2.0 版本，声称文本渲染能力更强；谷歌曾多次「剧透」的 AI 生图模型 Imagen 3 前几天也终于亮相。更有趣的是，Ideogram和

世界机器人大会上，这家承载「未来养老希望」的国产机器人被包围了

正在北京举行的世界机器人大会上，人形机器人的展示成为了现场绝对的焦点，在星尘智能的展台上，由于 AI 机器人助理 S1 在一个展区上演扬琴、武术、书法三台大戏，能文能武，吸引了大量专业观众和媒体的驻足。在带弹性的琴弦上的优雅演奏，让 S1 展现出速度、力度、精度兼具的精细操作和绝对掌控。央视新闻对「书法」背后的模仿学习和智能控制进行了专题报道，公司创始人来杰解释到，丝滑动作的背后，是硬件侧追求最好力控和最仿人身体指标（速度、负载等），而是在 AI 侧则采集人的真实动作数据，让机器人遇强则强，快速学习进化。而敏捷飘逸

大模型时代的ASR就是不一样！豆包“听力”水平现场评测，方言&小朋友口音直接拿捏！

2024 火山引擎 AI 创新巡展上海站于近日举办，活动展示了豆包大模型在综合评分、语音识别等方面的效果提升，还发布了对话式 AI 实时交互解决方案。豆包大模型团队成果 Seed-ASR ，提供了语音识别能力支持。Seed-ASR 是一款 ASR（自动语音识别）成果。它能准确转录各种语音信号，识别不同语言、方言、口音。对于人名、生词，Seed-ASR 也能结合文本语音等上下文，实现更准确转录。该成果目前已被集成进豆包 APP 、火山引擎相关服务模块中。本文介绍了 Seed-ASR 技术亮点 —— 高精度识别、大容量

国内首个自研MoE多模态大模型，揭秘腾讯混元多模态理解

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]以 GPT 为代表的大型语言模型预示着数字认知空间中通用人工智能的曙光。这些模型通过处理和生成自然语言，展示了强大的理解和推理能力，已经在多个领域展现出广泛的应用前景。无论是在内容生成、自

分布式人工智能盛会DAI 2024征稿：Agent Day，强化学习之父Richard Sutton将出席！颜水成、Sergey Levine以及DeepMind科学家将做主旨报告

会议简介随着科技的飞速发展，人工智能已经成为了推动社会进步的重要力量。在这个时代，我们有幸见证并参与到分布式人工智能（Distributed Artificial Intelligence， DAI）的创新与应用中。分布式人工智能是人工智能领域的重要分支，这几年引起了越来越多的关注。基于大型语言模型（LLM）的智能体（Agent）异军突起，通过结合大模型的强大语言理解和生成能力，展现出了在自然语言交互、知识推理、任务规划等方面的巨大潜力。AI Agent正在接棒大语言模型，成为当前AI圈的热点话题。Auto-GPT

马斯克Neuralink受试者玩起了CS，还能画CAD，机械飞升还远吗？

如果再连接 Optimus 机器人的手臂或腿，或许科幻电影变为现实即将到来。马斯克，真的在做一件改变他人「人生」的事。现在，Neuralink 第二名试验患者已经能打游戏，用 CAD 画图了。这名患者名叫 Alex，是一名汽车技术员，因为意外导致脊髓受伤。上个月接受了 Neuralink 植入物，当时手术进展非常顺利，第二天就出院了，出院后他的康复过程也很顺利。 Alex 正在玩《反恐精英 2》 A

历时 16 周，Anthropic 的 Claude AI 移动应用收入突破 100 万美元

根据应用情报公司 Appfigures 公布的最新报告，Anthropic 的 Claude 移动应用解锁新成就，在谷歌 Play Store 和苹果 App Store 上的应用总收入突破了 100 万美元（AI在线备注：当前约 713.2 万元人民币）。不过，Claude 的排名仍然远远落后于主要竞争对手 ChatGPT，后者在美国 iOS 平台上的总下载量排名第一，收入排名第 26 位。在生产力类别中，Claude 的下载量仅排名第 95 位，收入排名第 68 位。Claude 上架首周外接反应较为平淡，全球

可灵AI还是火到了马斯克那！

马斯克点赞可灵AI8月20日，AI插画艺术爱好者Déborah在推特上发布一段时长为五秒钟的视频，内容为女人手捧一朵燃烧的玫瑰，画面表现堪称电影级别的画质与动态效果。而这一视频背后，是由可灵AI完成图生视频过程。没过多久，这条视频获得了埃隆·马斯克（Elon Musk）的关注，并且他在评论区回复「AI Entertainment is happening fast」。

Neuralink发布超能力V0.2版本：CAD设计、CS轻松拿捏

刚刚，Neuralink分享了脑机接口研究的最新进展：第二位参与者成功植入Neuralink，接入五分钟就能用意念控制光标，还能使用CAD软件，玩《反恐精英》，So easy！马斯克在推特上转发了这一消息。截止中午12点，目前已有近6千名读者在马斯克的推文下留言互动。

AI 心理健康平台 Slingshot AI 获 3000 万美元融资；微软推出 Phi3.5 系列三款 AI 模型丨AI情报局

今日融资快报AI心理健康平台 Slingshot AI 获3000万美元战略投资Slingshot AI是一家成立于2022年1月1日的美国公司，致力于利用人工智能深入研究人类心理学，为全球用户提供心理健康支持。该公司通过创建一系列工具，帮助人们更好地了解和应对心理健康问题，实现心理健康资源的普及和均衡。 Slingshot AI获得了由Andreessen Horowitz（A16z）领投的约3000万美元融资，此外该公司还获得了来自Menlo Ventures的投资。

OpenAI GPT-4 AI 模型潜力挖掘：高精度建模基础蛋白质结构

科技媒体 The Decoder 昨日（8 月 21 日）发布博文，报道称罗格斯大学的一项研究表明，OpenAI 公司的 GPT-4 语言模型能高精度模拟简单的氨基酸和蛋白质结构。相关研究成果发表在《Scientific Reports》上，该科研团队使用 GPT-4 AI 语言模型，探索其在基本结构生物学任务中的表现，结果发现该 AI 模型可以准确预测分子结构。科学家们要求 GPT-4 建立 20 种标准氨基酸的三维结构模型，在反馈结果中准确地预测了原子组成、键长和角度，不过 GPT-4 在模拟环状结构和立体化学

国内最大智算中心，中国移动智算中心（哈尔滨）节点超万卡智算集群月底投用

“哈尔滨发布”公众号今天早间发文宣布，中国移动智算中心（哈尔滨）节点超万卡智算集群将于 8 月 30 日正式投用。据介绍，该中心的投用标志着哈尔滨的“算力”跻身国内人工智能研发一线城市。集群建设完成后，具有单集群算力规模最大，国产化网络设备组网规模最大，融合分级存储规模最大，国内智能融合分级存储规模最大的特点，可实现集群故障的分钟级定界定位，可提供算力 6.6EFLOPS，为万亿级模型训练提供高效、稳定的算力底座。此外，据AI在线此前报道，国家信息中心去年与相关部门联合发布的《智能计算中心创新发展指南》显示，根据报

谷歌 Pixel 9 手机的 AI 图像生成工具“放飞自我”，或成“造假利器”

谷歌上周发布了 Pixel 9 系列智能手机，其中包含一系列以人工智能为核心的新功能。所有 Pixel 9 手机均支持 Gemini 人工智能，谷歌还加入了基于人工智能的图像生成和编辑工具。然而，评测人员测试了这些新功能后发现，人工智能图像生成很可能会成为谷歌的公关噩梦。据AI在线了解，谷歌为 Pixel 手机推出了一个名为 Pixel Studio 的人工智能图像生成应用，其能够通过文本提示创建贴纸和图像，功能与苹果计划推出的 Image Playground 非常相似。目前，评测人员能够使用 Pixel Stu

7000字详解！幼儿园都能看懂的 Stable Diffusion 工作原理

前言事先声明！本文没有苦涩难懂的各种专业术语和代码公式，请大家放心食用。在过去的一年里，AIGC 在绘画领域的蓬勃发展对设计行业的冲击相信大家都有目共睹。各个公司都在要求设计师必须会使用 AIGC 的相关工具，其中以 Stable Diffusion 为基础的系列工具和 Midjourney 应用范围最广。AI 绘画领域能够取得如此巨大的进展，很大的功劳要归属于 Stability AI 发布了开源的 Stable Diffusion。它除了降低硬件要求，使其可以在相对普通的硬件上运行外。也正是因为它的开源性，