AI资讯列表 - AI在线

Anthropic挖走DeepMind强化学习大牛、AlphaGo核心作者Julian Schrittwieser

从 AlphaGo、AlphaZero 、MuZero 到 AlphaCode、AlphaTensor，再到最近的 Gemini 和 AlphaProof，Julian Schrittwieser 的工作成果似乎比他的名字更广为人知。今天的 AI 社区，再次被一则大佬转会消息吸引了目光。在谷歌工作十年后，大名鼎鼎的谷歌 DeepMind Alpha 系列核心作者 Julian Schrittwieser，宣布加入 Anthropic。

丹麦首台AI超级计算机，NVIDIA技术加持，服务于量子计算、清洁能源、生物技术等领域

编辑 | 萝卜皮2024 年 10 月 23 日 NVIDIA 创始人兼首席执行官黄仁勋携手丹麦国王启动该国最大 AI 超级计算机，旨在实现量子计算、清洁能源、生物技术等领域的突破，服务丹麦社会乃至全球。丹麦首台 AI 超级计算机以丹麦神话中的女神命名为 Gefion。 Gefion 由丹麦人工智能创新中心 (DCAI) 运营，该公司由全球最富有的慈善基金会 Novo Nordisk 基金会和丹麦出口与投资基金资助成立。

神秘模型“小熊猫”一夜刷屏：排名超 Flux、Midjourney

一夜之间，名为“red_panda” （小熊猫）的神秘文生图模型狠狠火了！！登顶文生图竞技场，直接将 Flux、Midjourney 等一众顶尖模型踩在脚下 ——其 ELO 得分比 Flux 1.1 Pro 高出 100 多，胜率高达 79%，每 7 秒就能生成一张图像。

古早费曼论文手写公式也能转LaTeX，还能看懂梗图，马斯克Grok新功能上线就火了

Grok 大模型终于能看懂图像了。设想一下，如果我们能够将所有 LaTeX 时代之前的文本资料输入到先进的大型语言模型（LLM）中，并从中获得格式规范的 LaTeX 文档库，这无疑将极大地推动科学文献的数字化进程和标准化工作。对于科研工作者而言，这不仅仅是技术层面的飞跃，它更标志着知识管理和信息传播方式的一次重大变革。

新扩散模型OmniGen一统图像生成，架构还高度简化、易用

大型语言模型（LLM）的出现统一了语言生成任务，并彻底改变了人机交互。然而，在图像生成领域，能够在单一框架内处理各种任务的统一模型在很大程度上仍未得到探索。近日，智源推出了新的扩散模型架构 OmniGen，一种新的用于统一图像生成的多模态模型。

强化学习训练一两个小时，100%自主完成任务：机器人ChatGPT时刻真来了？

把平均成功率从 50% 拉到了 100%。最近，AI 的进步有目共睹，现在这些进步已经开始传递到机器人领域。强大的 AI 技术也能帮助机器人更好地理解其所处的物理世界并采取更合理的行动。

权威AI开源标准1.0版发布：Llama也不算开源

大模型开源的口号，不是随便说说的。该来的终于来了。本周，人工智能领域迎来了对于「开源」的官方定义。

超越YOLOv10/11、RT-DETRv2/3！中科大D-FINE重新定义边界框回归任务

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

国庆期间被 AI 雷军“骂了 7 天”，雷军本人呼吁网友不要再玩

感谢在今年国庆假期期间，一些网友利用 AI 技术克隆雷军的声音，借此吐槽不文明行为或表达对他人的不满，有网友戏称“被 AI 雷军追着骂了整个假期”。对此，雷军本人今日发布视频回应称，的确让自己挺困扰，也挺不舒服。雷军表示希望大家不要再玩了，觉得这个事情不太好，不过他还是觉得 AI 是很好的技术，也非常实用。

华为云董理斌：解难题做难事，AI重塑千行万业

10 月 28 日，新浪新闻・2024 探索大会在北京召开，邀请专家学者、行业领袖，以及数字技术领域的探索者和从业者们，就新质生产力赋能产业、企业数字化转型、数字生态构建等热点话题展开深入探讨。华为云 Marketing 部部长董理斌发表题为 “解难题做难事，AI 重塑千行万业” 的主题演讲，分享华为云在 AI for Science 领域的最新进展，以及盘古大模型、昇腾 AI 云服务等创新技术。华为云 Marketing 部部长董理斌发表主题演讲人工智能正在改变我们进行科学研究的方式，增强人类探索以前难以解决的问题的能力。

微软开源 OmniParser 纯视觉 GUI 智能体：让 GPT-4V 秒懂屏幕截图，可操控手机 / 电脑

科技媒体 marktechpost 于 10 月 24 日发布博文，报道称微软公司宣布开源 OmniParser，是一款解析和识别屏幕上可交互图标的 AI 工具。项目背景传统的自动化方法通常依赖于解析 HTML 或视图层次结构，从而限制了其在非网络环境中的适用性。而包括 GPT-4V 在内的现有的视觉语言模型（VLMs），并不擅长解读复杂 GUI 元素，导致动作定位不准确。

消息称 Meta 正开发自家 AI 搜索引擎：追赶 OpenAI，降低对微软、谷歌的依赖

感谢科技媒体 The Information 昨日（10 月 28 日）发布博文，报道称 Meta 公司一方面为减少对微软、谷歌的依赖，另一方面追赶 OpenAI 在 AI 领域的发展，正开发一款 AI 搜索引擎。 AI在线援引该媒体报道，内置于 Instagram 和 Facebook 的 Meta AI 机器人目前调用谷歌公司的 Google 和微软 Bing 搜索引擎，来回答用户关于近期新闻和事件的问题。而消息称 Meta 公司早在 8 个月前就组建了专门的团队，通过网络爬虫收集了大数量网页数据，并建立了一个信息数据库。

谷歌扩展 AI 总结搜索结果功能至全球 100 多个市场，覆盖 10 亿月活用户

感谢谷歌公司昨日（10 月 28 日）发布博文，宣布在全球 100 多个国家和地区扩展 AI Overviews in Search 功能，覆盖全球 10 亿月活跃用户。 AI在线注：谷歌公司于今年 5 月在美国启动 AI Overviews in Search 功能，并于今年 8 月扩展到部分美国以外的市场，该功能主要用于 AI 总结搜索结果，让用户找到更契合的搜索结果。谷歌在博文中表示，将于本周开始将会在全球 100 多个国家和地区推出 AI Overviews 功能，覆盖全球 10 亿月活跃用户。