AI资讯列表 - AI在线

GPT-4o 能玩《黑神话：悟空》：精英怪胜率超人类，无强化学习纯大模型方案

AI 玩黑神话，第一个精英怪牯护院轻松拿捏啊。有方向感，视角也没有问题。躲闪劈棍很丝滑。甚至在打鸦香客和牯护院时，AI 的胜率已经超过人类。而且是完全使用大模型玩，没有使用强化学习。阿里巴巴的研究人员们提出了一个新型 VARP（视觉动作角色扮演）智能体框架。它能直接将游戏截图作为输入，通过视觉语言模型推理，最终生成 Python 代码形式的动作，以此来操作游戏。以玩《黑神话・悟空》为例，该智能体在 90% 简单和中等水平战斗场景中取胜。GPT-4o、Claude 3.5 都来迎战研究人员以《黑神话・悟空》为研究平台

微软亚洲研究院与上海市精神卫生中心展开联合研究，借助多模态大模型为认知障碍患者带来全新训练方法

据微软亚洲研究院官方披露，该研究院与上海市精神卫生中心携手展开联合研究，基于微软 Azure OpenAI 服务中的多模态大模型，开发了利用多种模态数据（如语音、文字、图片、音乐等信息）的个性化认知训练框架，为认知障碍患者的认知训练带来了新的可能。▲ 图源微软亚洲研究院公众号AI在线从微软亚洲研究院获悉，综合上海市精神卫生中心专家的建议与患者的需求，微软亚洲研究院的研究员们从易用性、界面友好性、功能专业性和入门难易度等多个维度出发，开发了个性化认知训练框架“忆我”（ReMe）。该工具以微软 Azure OpenAI

Jeff Dean回忆谷歌趣事：吴恩达激励自己继续研究，Hinton曾是最强「实习生」

1999 年 8 月，Jeff Dean 加入了谷歌，成为早期第 20 号员工。他在 2011 年参与创立了 Google Brain 团队，专注于智能机器领域的进展。自那时起，他的工作重心转到了 AI 和 ML 领域的研究、系统和应用，并引领了更广泛 AI/ML 和计算机科学研究社区的发展方向。2020 年 12 月，Jeff Dean 获得了 2021 年度 IEEE 冯诺依曼奖，以表彰他对大规模分布式计算机系统和人工智能系统科学与工程的贡献。2023 年 4 月，谷歌宣布将旗下 Google Brain 和

o1 研发团队完整采访：Ilya早期曾参与，灵感源于AlphaGo

自从 OpenAI 的 o1 问世以来，它强大的推理能力就承包了 AI 圈近期的热搜。不需要专门训练，它就能直接拿下数学奥赛金牌，甚至可以在博士级别的科学问答环节上超越人类专家。展示 o1 实力的 demo，我们看了不少，评估 o1 表现的评测，全网比比皆是，关于 o1 技术路线的讨论也如火如荼，引发了广泛的关注和深入的思考。不过 o1 背后的故事，还鲜为人知，那些在幕后默默付出的团队成员们，他们的故事同样值得被讲述和铭记。刚刚，OpenAI 发布了 o1 研发团队的完整访谈，为我们揭秘了 o1 的「成长历程」。o

ECCV 2024 oral | 首次基于深度聚类的多模态融合，上交、伯克利提出双向结构对齐的融合网络新SOTA！

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]

华知大模型 5.0 发布：同方知网与华为云打造，7B~135B 尺寸

以“数智共生、行业共赢”为主题的华知大模型行业应用研讨会于 9 月 21 日在上海举行，会议由同方知网与华为云联合主办。会上，华知大模型 5.0 发布，并全新上线智能 PPT、AI 科技查新、华知 App、3D 全息交互数字人等应用。据同方知网介绍，此次发布的华知大模型 5.0 实现了：“全系列、多模态、强知识、高可信”的能力跃升，针对多样化大模型建设需求，训练了 7B、13B、38B、135B 从端侧到千亿级多尺寸模型；跨模态多层语义融合的多模态大模型，可实现学术图片、统计表格理解以及复杂场景下实体智能识别和分割

夏普发布 AI Smart Link 可穿戴设备：挂在脖子上的 AI 助手，支持自然语言沟通

在 9 月 17~18 日举行的夏普科技日活动上，夏普宣布与日本京都艺术大学合作，共同开发了一款可实现与生成式 AI 自然沟通的可穿戴设备 —— AI Smart Link。近年来，随着生成式 AI 等人工智能的开发和普及不断进行，但仍存在一些使用上的问题，如需要看着电脑或智能手机的屏幕操作，或 AI 回应需要较长时间等，这些都阻碍了 AI 的便捷使用。为解决这些问题，夏普开发出一款只需将设备挂在脖子上就能通过语音与 AI 自然沟通的产品。对于使用者的询问，该设备会通过内置麦克风和摄像头了解周围环境，然后以语音进行

JetBrains AI Assistant 编程助手正式在国内发布，基于阿里通义大模型

在本周举行的 2024 云栖大会上，JetBrains 正式发布了基于阿里云通义大模型的 JetBrains Al Assistant。JetBrains 官方介绍称，JetBrains Al Assistant 与多款 JetBrains 产品深度集成，是专为中国开发者量身定制的“提效神器”。JetBrains Al Assistant 支持全链路优化开发，可在特定 IDE 工具窗口中作为内联操作使用，也可以通过内置聊天使用，不会中断开发工作流。此外，JetBrains 承诺所用模型绝不会在开发者的代码库上训练，

腾讯元器 AI 智能体接入微信公众号，变身 7*24 小时智能客服

感谢腾讯混元宣布，腾讯元器 AI 智能体支持发布到公众号，主要功能如下：通过数字分身，与粉丝实时互动可作为 7*24 小时的智能客服，例如查快递、新生指引等插入公众号文章目前，用户通过“设置智能体的功能及人设”“授权公众号历史文章到知识库”“一键配置到公众号”三个步骤，即可创建腾讯元器 AI 智能体。▲ 图源腾讯混元官方公众号AI在线注意到，在 5 月 17 日举办的腾讯云生成式 AI 产业应用峰会上，腾讯发布了新推出的智能体产品“腾讯元器”，腾讯称之为“一站式智能体创造与分发平台”。据腾讯官方介绍，腾讯元器有如下

前苹果设计总监 Jony Ive 确认正与 OpenAI 开发一款新设备，iPhone 元老级人物加盟

今年 4 月曾有消息称，OpenAI 首席执行官山姆・阿尔特曼（Sam Altman）携手前苹果设计总监乔纳森・伊夫（Jony Ive），联合设计面向个人的 AI 硬件，目前正寻求外部投资。对此，伊夫本人在纽约时报 9 月 21 日的一篇文章中证实了这一点。报道称，伊夫是通过 Airbnb 的首席执行官布 Brian Chesky 认识阿尔特曼的，该项目则由伊夫和劳伦娜・鲍威尔・乔布斯（乔布斯遗孀）的公司 Emerson Collective 资助。报道提到，到今年年底，该新公司可能会筹集 10 亿美元（AI在线备

全球首个，我国发布百亿级遥感解译基础模型“空天・灵眸”3.0 版

综合新华社、《中国科学报》消息，在今天举行的第一节空天信息技术大会上，中国科学院空天信息创新研究院（AI在线注：下文简称“空天院”）宣布，该院付琨研究员团队联合鹏城实验室自主研制的、全球首个百亿参数级空天一体遥感解译基础模型 ——“空天・灵眸”3.0 版正式发布。“空天・灵眸”3.0 版可为天临空地一体化应用提供一套行之有效的解决方案。据报道，今年 3 月起，研究团队与鹏城实验室深度合作，基于中国算力网“鹏城云脑 II”枢纽节点，采用 512 张昇腾 910 显卡，历时数月攻关完成了在 4 亿张国产化多模态空天遥感

首个Mamba+Transformer混合架构多模态大模型来了，实现单卡千图推理

OpenAI前研究者发布提示词工程框架ell，升级版LangChain，支持版本控制和多模态

LLM 喜欢赞美，如果你在提示词中夸奖它是个「才华横溢的专家（genius expert）」，它就更可能为你生成更好的答案。当然，OpenAI 的这位前研究科学家 William H. Guss 分享的这个技巧并不是新闻，之前就有不少研究者发现 AI 喜欢鼓励和赞美。刚不久前，Huss 宣布发布了一款自称是「提示词工程的未来」工具 ell。具体来说，ell 是一款轻量级的函数式语言模型编程软件库，其优势包括自动化的版本控制和跟踪、丰富的本地开源视觉化工具、原生支持多模态数据。项目地址：，网友们纷纷点赞。比如有一位网

最强卷王3个月进化9次！可灵AI上新1.5模型，国外网友：太疯狂

传说中的 Sora 公测还遥遥无期，「卷王」可灵又又又上新了。要知道，自今年 6 月发布以来，仅三个月，可灵 AI 就迭代了 9 次。这次它还直接把基座模型升级了，推出可灵 1.5 模型。那么，这个新模型到底强在哪儿？举个例子，我们输入同样的 Prompt：一位女生看到一封信后悲伤起来，不停地哭泣。1.0 模型的效果是这样的：1.5 模型的效果则是这样：（视频来源：X 博主 Pierrick Chevallier）一言以蔽之，可灵 1.5 模型不仅显著提升画质，直出 1080p 视频，还让画面主体的动幅更大、质量更

部分科技巨头请求欧盟对 AI“从宽”监管，避免数十亿美元罚款风险

据路透社 20 日报道，一些全球科技巨头正在尽最后的努力，试图说服欧盟在监管 AI 时采取宽松的方式，以避免面临数十亿美元的罚款风险。在经过各政治团体几个月的激烈谈判后，欧盟今年 5 月通过了《人工智能法》（AI Act），这是全球首个全面规范该技术的法律。然而在相关操作规程最终敲定之前，仍然不清楚如何严格执行针对通用用途人工智能（GPAI）系统（如 OpenAI 的 ChatGPT）的规定，以及公司可能面临多少版权诉讼和数十亿美元的罚款。欧盟已邀请公司、学者及其他相关方帮助起草操作规程，据不具名知情人士透露，欧盟

最癫 AI 社交 App“SocialAI”上线 3 天爆火，注册即送百万“粉丝”

最癫 AI 社交 App，刚上架苹果商店 3 天就火了：根据网友分享的试玩体验，它能让你成为世界的主角，注册就送百万粉丝，但全都不是真人，随便发什么帖都有大批机器人回复点赞。虽然都是假的，但居然很多人玩过之后表示，“很上头”。作者公布后台注册人数统计，上升曲线陡峭，或考虑加上邀请限制。比如一位网友发的是“我想辞职去开一家羊驼农场”。评论区有提供鼓励的如“追梦去吧，羊驼就是可持续农业的未来”，也会有喷子来质疑你“你考虑过经济可行性吗？”。他表示玩起来让人渴望那种瞬间获得关注和反馈的感觉，总价下来体验就像：口袋里装了一

o1 核心作者 MIT 演讲：激励 AI 自我学习，比试图教会 AI 每一项任务更重要

“o1 发布后，一个新的范式产生了”。其中关键，OpenAI 研究科学家、o1 核心贡献者 Hyung Won Chung，刚刚就此分享了他在 MIT 的一次演讲。演讲主题为“Don’t teach. Incentivize（不要教，要激励），核心观点是：激励 AI 自我学习比试图教会 AI 每一项具体任务更重要思维链作者 Jason Wei 迅速赶来打 call：Hyung Won 识别新范式并完全放弃任何沉没成本的能力给我留下了深刻的印象。2022 年底，他意识到了强化学习的力量，并从那时起就一直在宣扬它。在演

OpenAI 朝 AI 第 3 阶段迈进，正招募人才组建“多智能体”团队

OpenAI 在发布 o1 AI 模型之后，下一步会怎么走？该公司研究员诺姆・布朗（Noam Brown）在 X 平台给出了答案，组建“多智能体”multi-agent 研究团队。根据 OpenAI 公布五级量表，最新推出的 o1 模型处于第二阶段，即所谓的“推理者”（reasoners），而开发 multi-agent 符合第三阶段的目标要求。OpenAI 的五级量表如下：第一级：聊天机器人，具有会话语言的人工智能第二级：推理者，解决人类水平问题的人工智能第三级：智能体，能够代表用户采取行动的人工智能第四级：创新