AI资讯列表 - AI在线

开源模型进展盘点：最新Mixtral、Llama 3、Phi-3、OpenELM到底有多好？

深度学习领域知名研究者、Lightning AI 的首席人工智能教育者 Sebastian Raschka 对 AI 大模型有着深刻的洞察，也会经常把一些观察的结果写成博客。在一篇 5 月中发布的博客中，他盘点分析了 4 月份发布的四个主要新模型：Mixtral、Meta AI 的 Llama 3、微软的 Phi-3 和苹果的 OpenELM。他还通过一篇论文探讨了 DPO 和 PPO 的优劣之处。之后，他分享了 4 月份值得关注的一些研究成果。Mixtral、Llama 3 和 Phi-3：有什么新东西？首先，从

字节豆包推出桌面客户端：支持 Windows / macOS，快捷启动、AI 划词、 AI 搜索

感谢字节豆包推出桌面客户端，支持 Windows 与 macOS。IT之家附下载地址： Windows 点此/macOS 点此▲ 字节豆包 macOS 客户端界面IT之家查询发现，字节豆包桌面客户端基于 Chromium，也就是大家常说的“套壳浏览器”。字节豆包可以设置快捷启动，还可以访问本地应用或文件。字节豆包支持 AI 划词，选择文本后，可以提供如搜索、翻译、解释、总结等 AI 辅助功能。字节豆包支持 AI 搜索，点击“问问豆包或 AI 搜索”，可通过 AI 搜索互联网内容，也可以使用百度、头条搜索等搜索引擎。

高效、可泛化的高斯重建框架，只需3张视图即可快速推理，45秒便可完成优化

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected] 重建和新视图合成技术在虚拟现实和增强现实等领域有着广泛的应用。NeRF 通过隐式地将场景编码为辐射场，在视图合成上取得了显著的成功。然而，由于 NeRF 依赖于耗时的逐场景优化，极大

斯坦福团队被曝抄袭清华系大模型，已删库跑路，创始人回应：也算国际认可

斯坦福 AI 团队，竟然曝出了抄袭事件，而且抄袭的还是中国国产的大模型成果 —— 模型结构和代码，几乎一模一样！跟任何抄袭事故一样……AI 圈内都惊呆了。斯坦福的这项研究叫做 Llama3-V，是于 5 月 29 日新鲜发布，宣称只需要 500 美元就能训出一个 SOTA 多模态大模型，比 GPT-4V、Gemini Ultra、Claude Opus 都强。Llama3-V 的 3 位作者或许是拥有名校头衔加持，又有特斯拉、SpaceX 的大厂相关背景，这个项目短短几天就受到了不小的关注。甚至一度冲上了 Hugg

ASQuery：基于Query的时序动作分割新架构

1. 前言北京邮电大学与EVOL创新团队和ACG工业算法组针对时序动作分割任务共同提出了基于query新架构的模型ASQuery。ASQuery包含了动作及边界两种query，利用动作query将原先的帧维度分类过程转化为query与视频帧的相似度计算过程，提高了分类精度；利用边界query预测动作的边界，进一步平滑了原先的预测结果，大大缓解了过分割现象。论文ASQuery: A Query-based Model for Action Segmentation 已被ICME2024接收。论文地址：。2. 背景和动

新生与对话，华东师范大学上海人工智能金融学院举办首届学术年会

华东师范大学上海人工智能金融学院举办首届学术年会2024年5月31日至6月1日，华东师范大学上海人工智能金融学院首届学术年会在华东师范大学普陀校区科学会堂举行。来自4大洲18位人工智能、金融领域以及跨学科领域的顶尖学者和产业领军者齐聚华东师大。与会嘉宾围绕“人工智能与金融世界的对话”这一主题，重点聚焦“人工智能与金融科技的融合”、“大模型与金融”、“AI伦理与治理的国际视野”等三大核心议题，展开15场主题演讲和3场圆桌论坛，碰撞思想智慧、分享行业前沿动态、探讨创新发展趋势，为与会人员呈现了一场精彩纷呈、富有深度的学术盛宴。

一年一更同步英伟达，AMD 公布 2024~2026 年 Instinct GPU 加速器路线图

感谢AMD 今日公布直至 2026 年的 Instinct GPU AI 加速器路线图。AMD 宣布其 Instinct 产品线更新节奏调整与英伟达相同的一年一更，以满足不断扩张的 AI 应用需求。AMD Instinct MI325X 加速器将在今年四季度率先上市，其可视为 MI300 更换 HBM3E 内存的刷新版本。该加速器内存容量将从 MI300X 的 192GB 提升至 288GB，同时内存带宽也从 5.3TB / s 小幅增加至 6TB / s（IT之家注：内存等效速率从 5.2Gbps 提升至 5.

给ChatGPT越狱，谈场赛博恋爱

你期待的是《赛博朋克》，先到来的却是《她》。既然人间不好玩，就找个赛博对象陪你耍。2023 年堪称「赛博恋爱」元年，模拟恋爱的互动游戏突然热度飙起。从最初在 Steam 平台上获得 94% 好评的《完蛋！我被美女包围了》，到今年的《美女，请别影响我学习》，「赛博恋爱」席卷整个网络。「赛博恋爱」已经不再是某种虚无缥缈的「梗」，而是满足我们正常精神需求的一种补充品。当最会「撩拨」的 AI 进入这个赛道，赛博恋爱会不会又提升一个次元呢？近日，一个生活在加州的华裔女性（昵称：午夜狂暴哈士奇狗）坠入爱河而被全网羡慕了。而她的

Yann LeCun：ViT慢且效率低，实时图像处理还得看卷积

用卷积能做出一样好的效果。在 Transformer 大一统的时代，计算机视觉的 CNN 方向还有研究的必要吗？今年年初，OpenAI 视频大模型 Sora 带火了 Vision Transformer（ViT）架构。此后，关于 ViT 与传统卷积神经网络（CNN）谁更厉害的争论就没有断过。近日，一直在社交媒体上活跃的图灵奖得主、Meta 首席科学家 Yann LeCun 也加入了 ViT 与 CNN 之争的讨论。这件事的起因是 Comma.ai 的 CTO Harald Schäfer 在展示自家最新研究。他（像

单GPU训练一天，Transformer在100位数字加法上就达能到99%准确率

乘法和排序也有效。自 2017 年被提出以来，Transformer 已成为 AI 大模型的主流架构，一直稳站 C 位。但所有研究者都不得不承认的是，Transformer 在算数任务中表现非常糟糕，尤其是加法，这一缺陷在很大程度上源于 Transformer 无法跟踪大范围数字中每个数字的确切位置。为了解决这个问题，来自马里兰大学、CMU 等机构的研究者向这一问题发起了挑战，他们通过在每个数字中添加一个嵌入来解决这个问题，该嵌入编码数字相对于开头的位置。该研究发现，只用一天时间在单个 GPU 上训练 20 位数字

超长小说可以用AI翻译了，新型多智能体协作系统媲美人工翻译

机器翻译 (MT) 的最新进展显着提高了各个领域的翻译质量。然而，由于其复杂的语言、比喻表达和文化差异，文学文本的翻译仍然是一个艰巨的挑战。最近，一篇题为《(Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts》的论文，提出了一种用于文学翻译的基于大型语言模型（LLM）的新型多智能体框架，并构建了一家名为 TRANSAGENTS 的虚拟出版公司

CVPR 2024 | 合成视频数据集里只有单人数据？M3Act破解人群行为标注难题

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]论文链接：：：M3Act: Learning from Synthetic Human Group Activities引言通过视觉信息识别、理解人群的行为是视频监测、交互机器人、自动驾驶

AI 电影来袭：翠贝卡电影节将展映 5 部使用 OpenAI Sora 制作的短篇

由著名演员罗伯特・德尼罗 (Robert de Niro) 创立的纽约翠贝卡电影节 (Tribeca Festival) 即将迎来历史性时刻，生成式人工智能将首次登上这个已有 20 年历史的电影盛会。6 月 15 日，翠贝卡电影节将携手 OpenAI 公司首映“Sora 短片”，届时将展映五部使用人工智能创作的短片作品，这标志着 OpenAI 的文本转视频工具 Sora 首次在电影节上亮相。根据电影节发布的声明，创作者们承诺遵守去年与导演、演员和编剧工会达成的有关人工智能使用的相关条款。主办方为这些电影人提供了 O

英伟达黄仁勋解读“CEO 数学”：花小钱，办大事

英伟达首席执行官黄仁勋日前在 2024 台北电脑展前夕提出了一个有趣的概念 ——“CEO 数学”。“买得越多，省得越多，” 黄仁勋在演讲中表示，“这就是 CEO 数学，它并不完全准确，但却很有效。”乍一听让人困惑？黄仁勋随后解释了这个概念的含义。他建议企业同时投资图形处理器 (GPU) 和中央处理器 (CPU)。这两种处理器可以协同工作，将任务完成时间从“100 个单位缩短到 1 个单位”。因此，从长远来看，增加投资反而能节省成本。这种结合使用 CPU 和 GPU 的做法在个人电脑领域已经很普遍。“我们往一台 10

人形机器人“造车”，东风柳汽与优必选签署战略合作协议

5 月 31 日，东风柳汽与优必选科技正式签署人形机器人应用战略合作协议，共同推动人形机器人在汽车制造场景的应用。通过此次合作，优必选工业版人形机器人 Walker S 将进入东风柳汽，开展汽车制造过程中的安全带检测、车门锁检测、车灯盖板检测、车身质检工位、车厢后盖检测、内饰总检、油液加注、前桥分装、集配捡料、贴覆车标、配置刷写、标签打印等一系列工作。此外，人形机器人还将和传统自动化设备协作作业，解决复杂场景的柔性无人化生产。东风柳汽总经理林长波表示：今天，我们终于非常荣幸地把优必选人形机器人 Walker S 请

世界最大开源 AI 社区 Hugging Face 曝安全漏洞：部分用户密钥泄露

感谢世界最大的开源 AI 社区 Hugging Face（IT之家注：通称“抱抱脸”）在 5 月 31 日报告了一起安全漏洞事件，其团队检测到对其 Spaces 平台的未经授权访问，可能导致部分用户密钥泄露。Hugging Face 是世界最大的人工智能和数据科学项目合作平台之一，拥有超过一百万个模型、数据集和人工智能驱动的应用程序。Hugging Face 发言人在声明中说：“在过去几个月里，我们看到网络攻击的数量明显增加，这可能是因为我们的使用量大幅增长，人工智能正成为主流。技术上很难知道有多少 Spaces

黄仁勋一口气解密三代 GPU，量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题

感谢IT之家网友佳宜的线索投递！【新智元导读】刚刚，老黄又高调向全世界秀了一把：已经量产的 Blackwell，8 年内将把 1.8 万亿参数 GPT-4 的训练能耗狂砍到 1/350；英伟达惊人的产品迭代，直接原地冲破摩尔定律；Blackwell 的后三代路线图，也一口气被放出。就在刚刚，老黄手持 Blackwell 向全世界展示的那一刻，全场的观众沸腾了。它，是迄今为止世界最大的芯片！▲ 眼前的这块产品，凝聚着数量惊人的技术如果用老黄的话说，它就是「全世界迄今为止制造出来的最复杂、性能最高的计算机。」▲ 8

ECCV 2024 Workshop自动驾驶难例场景多模态理解与视频生成征稿与挑战赛火热启动！

Workshop主页：。近年来，多模态大模型（如GPT-4V）展示了其在多模态感知与理解方面前所未有的进步。然而，利用MLLMs来应对自动驾驶中复杂场景，特别是罕见但关键的难例场景，仍然是一个未解的挑战难题。本次Workshop旨在促进多模态大模型感知与理解、先进的AIGC技术在自动驾驶系统中的应用、端到端自动驾驶等方面的创新研究。Workshop征稿本次论文征稿关注自动驾驶场景多模态感知与理解、自动驾驶场景图像与视频生成、端到端自动驾驶、下一代工业级自动驾驶解决方案等主题，包括但不限于：Corner case m