AI资讯列表 - AI在线

微软正努力治疗 AI 幻觉，以技术手段实时屏蔽和重写毫无根据的信息

就在 GPT-4 因征服标准化测试而登上头条时，微软研究人员正在对其他 AI 模型进行一种非常另类的测试 —— 一种旨在让模型捏造信息的测试。为了治好这种被称为“AI 幻觉”的症状，他们设定了一个会让大多数人头疼的文本检索任务，然后跟踪并改进模型响应，这也是微软在测定、检测和缓解 AI 幻觉方面的一个例子。微软 AI 负责项目的首席产品官 Sarah Bird 表示，“微软希望其所有 AI 系统都是值得信赖且可以有效使用的”。我们可以向这个领域投入许多专家和资源，因此我们认为自己可以帮助阐明“应该如何负责任地使用新

华为云用盘古大模型重塑服务，ModelArts Studio全面升级

6 月 21 日，华为开发者大会 2024 在东莞召开。在大会现场，华为发布了 HarmonyOS Next、盘古大模型 5.0 等方面的最新进展，也介绍了一系列 AI 先进技术的应用案例。在活动中，华为云 CTO 张宇昕表示：“华为云基于盘古大模型的能力，重塑一系列的云服务，打造 AI Native 的云，助力千行万业智能化。” 据介绍，华为云将盘古大模型和华为在产品研发、数据治理、安全防护、业务运维等各个领域积累的数据和经验相结合，“跳了自己的降落伞”，应用在了华为云 CodeArts、DataArts、Met

AI 队友能“听懂人话”，网易《永劫无间》手游推出全球首个游戏 Copilot AI

随着多模态、AI 大模型技术的不断进步，游戏 AI 也正朝着更加智能、更加人性化的方向发展。6 月 19 日，网易《永劫无间》手游开启“定胜终测”，并宣布推出全球首个游戏 Copilot AI。据网易官方介绍，网易伏羲工作室研发的全球首个游戏 Copilot，就是与微软 Copilot 同样基于多模态技术，而这项技术被使用到了网易旗下的《永劫无间》手游中，化身为与玩家并肩作战的“AI 队友”。这些 AI 队友并非传统意义上的 NPC，而是能够与玩家进行实时语音交互并完成游戏对局各种复杂操作的“智能体”。在游戏中，A

小冰联合视美泰共创ShiMeta数字人解决方案：大模型加持，让每一个大屏终端都成为全新的交互载体

2024年6月21日，小冰公司与AIoT头部企业视美泰宣布达成战略合作，共同推出ShiMeta数字人解决方案。双方联合打造多种形态的数字人智能交互大屏终端，将小冰AI大模型、数字人技术与视美泰丰富的硬件商业生态相融合，让数字人走入各类行业场景，为千行百业注入全新的生产力，提升用户体验和服务效率，带来更多智能化变革。小冰×视美泰：丰富的硬件商业生态方案将小冰大模型以及神经网络渲染、超级自然语音等先进数字人技术，与视美泰高性能主板、高清摄像头、麦克风阵列、设备管理平台等进行了深入整合，实现大屏终端“开箱即用”，同时后台

自动识别最佳分子，降低合成成本，MIT开发分子设计决策算法框架

编辑 | 紫罗AI 在简化药物发现方面的应用正在爆炸式增长。从数十亿种候选分子中筛选出可能具有开发新药所需特性的分子。需要考虑的变量太多了，从材料价格到出错的风险，即使科学家使用 AI，权衡合成最佳候选分子的成本也不是一件容易的事。在此，MIT 研究人员开发了一个定量决策算法框架 SPARROW，来自动识别最佳分子候选物，从而最大限度地降低合成成本，同时最大限度地提高候选物具有所需特性的可能性。该算法还确定了合成这些分子所需的材料和实验步骤。SPARROW 考虑了一次合成一批分子的成本，因为多个候选分子通常可以从一

涵盖文本、定位和分割任务，智源、港中文联合提出首个多功能3D医学多模态大模型

作者 | 香港中文大学白帆编辑 | ScienceAI近日，香港中文大学和智源联合提出的 M3D 系列工作，包括 M3D-Data, M3D-LaMed 和 M3D-Bench，从数据集、模型和测评全方面推动 3D 医学图像分析的发展。（1）M3D-Data 是目前最大的 3D 医学图像数据集，包括 M3D-Cap (120K 3D 图文对), M3D-VQA (510K 问答对)，M3D-Seg（150K 3D Mask），M3D-RefSeg (3K 推理分割)共四个子数据集。（2）M3D-LaMed 是目前最

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

机器之能报道编辑：杨文玩梗、看病、耍心眼、做数学题，「新王」Claude 3.5能力真那么玄乎？它来了，它来了，它带着 Claude 3.5 Sonnet 走来了！蛰伏三个月，就在昨晚，OpenAI 的「劲敌」Anthropic 上新了，推出新一代模型 ——Claude 3.5 Sonnet！这款大模型有啥独到之处？首先，它更能把握住细微差别、幽默和复杂指令，并且书写语气更自然、亲切。它还是Anthropic最强的视觉模型，擅长解释图表、图形或者从不完美的图像中转录文本等任务。此外，它在推理、阅读理解、数学、科学和

乐聚夸父人形机器人亮相 HDC 2024，搭载华为云盘古具身智能大模型

乐聚夸父人形机器人今日下午亮相 HDC 2024 华为开发者大会，搭载华为云盘古具身智能大模型。▲ 夸父与华为常务董事、华为云 CEO 张平安击掌华为常务董事、华为云 CEO 张平安在介绍盘古具身大模型的环节中，向观众展示了夸父人形机器人搭载盘古具身智能大模型后，在工业、家庭场景中展现的潜力，并与夸父人形机器人进行击掌互动。IT之家查阅 HDC 2024 日程表获悉，6 月 22 日，乐聚机器人董事长冷晓琨将在盘古具身智能大模型专题论坛上作《建设“人形机器人 ”开放生态平台，打造通用具身智能解决方案》主题报告；6

快手可灵上线图生视频与最长 3 分钟的视频续写功能

感谢快手可灵新功能“图生视频”和“视频续写”今日上线。图生视频功能，支持将静态图像转化为 5 秒钟视频，用户可通过提示词文本控制图像中物体的运动；视频续写功能，支持对生成视频一键续写和连续多次续写，最长可生成约 3 分钟视频；此外文生视频新增 9:16 和 1:1 视频尺寸选择。 IT之家附快手可灵官方网站：，能够生成大幅度的合理运动，模拟物理世界特性。可灵使用了 DiT 架构，快手对模型中的隐空间编 / 解码、时序建模等模块进行了升维处理。在隐空间编 / 解码上，快手自研了 3D VAE 网络，实现时空同步压缩，

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

「21 世纪什么最贵？人才！」二十年前的黎叔语录，现在听来也不过时。这两年，大模型赛道风起云涌。科技公司们全力投入生成式 AI 技术的研发，期待将新的突破整合到自家产品中。OpenAI 是一个非常成功的样本，并受到了研究员、工程师和投资人们的广泛关注与深刻讨论：为什么是 OpenAI？它的成功不只来自于多年的坚持技术探索、投资者不断注入的资金，更重要的是一批顶尖 AI 研究人员的聚集。我们能看到，在 ChatGPT、Sora、GPT-4o 等划时代产品的背后，有一长串名单的核心贡献者，一家科技公司想要持续「伟大」，

2024 WAIC「全球创新项目路演」征集！最高可获千万算力补贴

新一代人工智能正在全球范围内蓬勃兴起，为经济社会发展注入了新动能，我国正以开放的胸襟拥抱 AI，上海更以包容的氛围滋养 AI，持续打造更加融通开放的生态、更加活跃的创新集群、更加泛在的超级场景、更加安全的敏捷治理。 7月4日-6日，2024 世界人工智能大会（WAIC）如期在上海举行，本次将围绕“以共商促共享以善治促善智”的主题，打造“会议论坛、展览展示、评奖赛事、智能体验”四大核心内容。在每年的世界人工智能大会上，「全球创新项目路演」亦成为重要看点。

Luma、Runway轮番炸场，视频生成卷出新高度，Sora还能称霸吗？来这场WAIC视频生成论坛寻找答案

2023 年 PIKA 发布时，马斯克曾论断称 2024 年将是「人工智能电影」元年。年初 Sora 惊艳亮相、大杀四方，接着 Stable Video Diffusion 、LTX Studio、谷歌 Veo 轮番炸场，再到近期的可灵、Luma 和 Runway 隔空斗法……短短半年时间，众多 AI 视频应用如雨后春笋般涌现，不仅将视频生成技术推向了新的高度，而且拓展了 AI 视频的应用范围，赋予未来更多可能性。如今，发展多模态能力已成为 AIGC 应用的大势所趋，伴随着视频生成技术的不断完善，以及越来越多 AI

不做数值运算、纯靠嘴炮也能机器学习？基于自然语言的全新ML范式来了

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本文作者肖镇中是德国马克思普朗克-智能系统研究所和图宾根大学的博士生，Robert Bamler 是图宾根大学机器学习方向的教授，Bernhard Schölkopf 是马克思普朗克-智能

无论真实还是AI视频，「摩斯卡」都能重建恢复4D动态可渲染场景

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]雷嘉晖，美国宾夕法尼亚大学计算机系博士生 (2020 - 今), 导师为 Kostas Daniilidis 教授，目前主要研究方向为四维动态场景几何的建模表示和算法以及应用。他在计算机视

力压GPT-4o！新王Claude 3.5 Sonnet来了，直接免费可用

如今，大模型领域更卷了！前脚 OpenAI 发布 GPT4o，硬控全场，后脚就被最大的竞争对手 Anthropic 超越了。刚刚，Anthropic 发布了全新大模型 Claude 3.5 Sonnet，号称是迄今为止最智能的模型。据介绍，Claude 3.5 Sonnet 是 Anthropic 即将推出的 Claude 3.5 系列的首个版本。该模型提高了整个领域的智能水平，在绝大多数基准评估中都超越了竞品大模型和自家前代最强 Claude 3 Opus。与此同时，运行速度、成本与自家前代 Claude 3 S

腾讯混元文生图大模型开源训练代码，发布LoRA与ControlNet插件

6月21日，腾讯混元文生图大模型（以下简称为混元DiT模型）宣布全面开源训练代码，同时对外开源混元DiT LoRA 小规模数据集训练方案与可控制插件ControlNet。这意味着，全球的企业与个人开发者、创作者们，都可以基于混元DiT训练代码进行精调，创造更具个性化的专属模型，进行更大自由度的创作；或基于混元DiT的代码进行修改和优化，基于此构建自身应用，推动技术的快速迭代和创新。作为中文原生模型，用户在通过混元DiT的训练代码进行精调时，可以直接使用中文的数据与标签，无需再将数据翻译成英文。此前，腾讯混元文生图大

阿里云推出首个 AI 程序员，具备架构师、开发 / 测试工程师等岗位技能

在今天的阿里云上海 AI 峰会上，阿里云推出首个“AI 程序员”，具备架构师、开发工程师、测试工程师等岗位技能，能完成任务分解、代码编写、测试、问题修复、代码提交整个过程，号称最快“分钟级”完成应用开发。据介绍，该“AI 程序员”是基于通义大模型构建的多智能体，包含任务分解、编码、测试等不同板块，与“通义灵码”有所不同。在收到用户需求后，“AI 程序员”就可实现软件开发“一条龙”：理解需求-拆分任务-编写代码-识别并解决报错-提交代码。据IT之家此前报道，阿里云去年 11 月推出了 AI 编程工具通义灵码，兼容

武大等开源大幅面高清卫星影像数据集：涵盖 21 万 + 地理目标，复杂地理空间场景知识精准生成

AI 卫星影像知识生成模型数据集稀缺的问题，又有新解了。来自武汉大学、上海 AI 实验室、西工大等 9 家机构共同推出了该领域的大型数据集，涵盖了 21 万个地理目标和 40 万个目标-关系三元组。而且像机场、港口、立交桥等这样复杂地理空间场景，也都包括在了数据集当中。具体来说，该数据集名为 RSG，主要面向卫星影像中的目标检测（OBD）和场景图生成（SGG）任务。SGG 有助于促进模型对地理空间场景从感知到认知的智能理解，但一直缺乏大幅面、超高分辨率的卫星影像数据。而 RSG 的出现很好地填补了这一空白，一同提出

资讯列表