资讯列表

LeCun上月球?南开、字节开源StoryDiffusion让多图漫画和长视频更连贯

有了 StoryDiffusion,更加一致性的图像和视频生成得到了保障。两天前,图灵奖得主 Yann LeCun 转载了「自己登上月球去探索」的长篇漫画,引起了网友的热议。其实,产出这些漫画的研究出自南开大学、字节跳动等机构。在《StoryDiffusion:Consistent Self-Attention for long-range image and video generation》这篇论文中,该研究团队提出了一种名为 StoryDiffusion 的新方法,用于生成一致的图像和视频以讲述复杂故事。论文

仅用250美元,Hugging Face技术主管手把手教你微调Llama 3

大语言模型的微调一直是说起来容易做起来难的事儿。近日 Hugging Face 技术主管 Philipp Schmid 发表了一篇博客,详细讲解了如何利用 Hugging Face 上的库和 fsdp 以及 Q-Lora 对大模型进行微调。我们知道,Meta 推出的 Llama 3、Mistral AI 推出的 Mistral 和 Mixtral 模型以及 AI21 实验室推出的 Jamba 等开源大语言模型已经成为 OpenAI 的竞争对手。不过,大多数情况下,使用者需要根据自己的数据对这些开源模型进行微调,才能

看透物体的3D表示和生成模型:NUS团队提出X-Ray

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]项目主页::::,在计算机视觉中,图像和视频生成技术已日渐成熟,如Midjourney、Stable Video Diffusion [1]等模型广泛应用。然而,三维视觉领域的生成模型仍面

英特尔 Falcon Shores GPU 明年晚些时候推出,已为 AI 负载重构

英特尔在上月末举行的一季度电话财报会议上明确,Falcon Shores GPU 将于 2025 年晚些时候推出。另据外媒 HPCwire 报道,该处理器正重新设计,以适应 AI 产业需求。英特尔 CEO 帕特・基辛格称,Falcon Shores 将结合完全可编程的架构和 Gaudi 3 加速器优异的系统性能,用户可在两代硬件间实现顺利且无缝的升级转换。英特尔表示,AI 业界正转向 Python 或 Triton 等更高级别的软件抽象,采用开放式软件平台以减少依赖。而英特尔的软件堆栈正日趋成熟,可消除从 Gaud

2024 惠普商用 AI 战略暨 AI PC 新品发布会 5 月 9 日举行

感谢惠普电脑日前宣布,2024 惠普商用 AI 战略暨 AI PC 新品发布会将于 5 月 9 日 14:30 举行。本次发布会的宣传语为“用智能开启无限可能”,号称“一键应需万变”,目前尚不清楚发布会的具体内容以及新品型号。IT之家注意到,近期发布的惠普星 Book Pro 16 2024 等笔记本已经搭载了部分 AI 功能,支持以下功能:AI 智能人机交互:输文字或发语音,多种交互方式。实时翻译自动记录:同步精准收录,分秒必争。免费录屏功能:录屏存重点,更高效、更轻松。统一生态,原生互联:生态产品快速连接,智能

Rabbit R1 被持续扒皮:AI 风口一夜转型,NFT 充值用户欲哭无泪,动作大模型也是套壳的

一波未平一波又起,不光 App 被批评套壳安卓,主推的大动作模型 LAM 依赖 OpenAI 接口,现在公司也被扒皮有猫腻 ——Rabbit 公司本来是搞元宇宙的,原地改名转投 AI?!这家曾经主打 NFT 游戏的创业公司,去年转型做 AI 终端(即 R1)。并在转型后疑似“删号跑路”,留下一堆曾为其付费的用户不管。要知道,Rabbit 前身推出的 GAMA,是一款需要预先付费购买 NFT 的游戏,其中有的 NFT 售价高达 2000 美元(折合人民币超 2 万)。再联想到 Rabbit 同样也需要预先支付费用

ICLR 2024 Spotlight | 负标签挖掘助力基于CLIP的分布外检测任务

在机器学习模型日益应用于开放世界场景中,如何有效识别和处理分布外(Out-of-Distribution, OOD)数据成为一个重要研究领域[1]。分布外数据的存在可能导致模型过度自信和错误预测,这在安全关键应用(如自动驾驶和医疗诊断)中尤为危险。因此,发展一种有效的OOD检测机制,对于提高模型在实际应用中的安全性和可靠性至关重要。传统的OOD检测方法主要集中在单一模态,特别是图像数据上,而忽视了其他潜在有用的信息源,例如文本数据。随着视觉-语言模型(VLMs)的兴起,它们在多模态学习场景中展示了强大的性能,特别是

12年前上手深度学习,Karpathy掀起一波AlexNet时代回忆杀,LeCun、Goodfellow等都下场

没想到,自 2012 年 AlexNet 开启的深度学习革命已经过去了 12 年。而如今,我们也进入了大模型的时代。近日,知名 AI 研究科学家 Andrej Karpathy 的一条帖子,让参与这波深度学习变革的许多大佬们陷入了回忆杀。从图灵奖得主 Yann LeCun 到 GAN 之父 Ian Goodfellow,纷纷忆往昔。到目前为止,该帖子已经有 63 万 的浏览量。在帖子中,Karpathy 提到:有一个有趣的事实是,很多人可能听说过 2012 年 ImageNet/AlexNet 的时刻,以及它开

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声,提高插值图片质量

作者 | Pengfei Zheng单位 | USTC, HKBU TMLR Group最近生成式AI的迅猛发展为文本到图像生成、视频生成等令人瞩目的领域注入了强大的动力,这些技术的核心在于扩散模型的应用。扩散模型首先通过定义一个不断加噪声的前向过程来将图片逐步变为高斯噪声,再通过逆向过程将高斯噪声逐步去噪变为清晰图片以得到采样。其中扩散常微分模型可以被用于生成的图片的插值,这在生成视频以及一些广告创意上有着极大的应用潜力。然而,我们注意到,当这种方法应用于自然图片时,插值出的图片效果往往不尽如人意。通常情况下,扩

LeCun哈佛演讲PPT放出:唱衰自回归LLM,指明下一代AI方向

LeCun 一如既往地不看好自回归 LLM。机器如何能像人类和动物一样高效地学习?机器如何学习世界运作方式并获得常识?机器如何学习推理和规划……当一系列问题被提出时,有人回答自回归 LLM 足以胜任。然而,知名 AI 学者、图灵奖得主 Yann LeCun 并不这么认为,他一直唱衰自回归 LLM。近日 LeCun 在哈佛大学的演讲内容深入探讨了这些问题,内容长达 95 页,可谓干货满满。LeCun 给出了一个模块化的认知架构,它可能构成回答这些问题的途径。该架构的核心是一个可预测的世界模型,它允许系统预测其行动的后

告别偏科,能玩转多模态、多任务、多领域的强化智能体终于来了

模型、专家智能体和数据集都已开源。随着 Llama 3 发布,未来大模型的参数量已飙升至惊人的 4000 亿。尽管每周几乎都有一个声称性能超强的大模型出来炸场,但 AI 应用还在等待属于它们的「ChatGPT 时刻」。其中,AI 智能体无疑是最被看好的赛道。就连吴恩达都说,GPT-4 加上 AI 智能体,可能提前达到 GPT-5 的效果。不过,我们熟知的智能体往往有点「偏科」。例如,第一个 AI 软件工程师 Devin,专精于代码。会打游戏的智能体往往也只能在某一个游戏里秀操作。寻找一个能够同时擅长多个领域,并能在

CVPR 2024 | 借助神经结构光,浙大实现动态三维现象的实时采集重建

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]。对于烟雾等动态三维物理现象的高效高质量采集重建是相关科学研究中的重要问题,在空气动力学设计验证,气象三维观测等领域有着广泛的应用前景。通过采集重建随时间变化的三维密场度序列,可以帮助科学

新加坡国立大学医院新建消化健康中心:利用 AI 量化打分、可检测早期癌症迹象

据新加坡“联合早报”报道,新加坡国立大学医院近日开建消化系统健康中心,该中心将于 2025 年上半年竣工,整合了一系列 AI 技术,旨在重点提升消化系统疾病的早期疾病检测、精确诊断、治疗和预防标准。▲ 图源 PixabayIT之家获悉,新中心将配备计算机辅助检测、诊断和品质控制三重 AI 系统;当这三个系统配合运用时,据称不仅能更有效地识别早期胃肠道病变,还可针对这些病变进行实时可量化打分的癌症诊断。新加坡国立大学医院肠胃与肝脏科主任兼高级顾问医生李冠辉客座副教授指出,从近几年的趋势来看,患消化系统疾病的人逐年增加

特斯拉分享第二代 Optimus 机器人工作视频:可将电池精确插入托盘

感谢特斯拉今日再次分享了一段第二代 Optimus 人形机器人的工作视频,视频显示,该机器人可将电池单体精确地插入托盘中。据特斯拉官方介绍,他们训练并部署了一个神经网络,允许 Optimus 开始执行有用的任务,例如从传送带上捡起电池单体并精确地将它们插入托盘中。这个神经网络完全端到端运行,意味着它只使用来自机器人的 2D 摄像头以及板载的本体感知传感器的视频,并直接产生关节控制序列。 特斯拉还称,已经在其中一家工厂部署了几个机器人,它们正在实际的工作站上每天进行测试并不断改进。此外,新款 Optimus 现在也能

消息称“AI 教母”李飞飞正建立初创公司,开发可理解 3D 空间关系的 AI 系统

当地时间周六,据路透社援引 6 名知情人士消息,计算机科学家李飞飞正在建立一家初创公司。该公司旨在利用类似人类的视觉处理技术,使 AI 具备高级推理能力,有望成为 AI 技术的一次飞跃。IT之家注:李飞飞被广泛称为“AI 教母”,与通常用来指因 AI 技术突破而在 2018 年获得图灵奖的三位研究人员的“AI 教父”对应。这三名“AI 教父”则是杰弗里・辛顿、杨立昆、约书亚・本西奥。一位消息人士通过李飞飞上个月在温哥华 TED 大会发表的演讲,对这家初创公司进行了详细描述:李飞飞曾表示,最前沿的研究涉及一种算法,这

硅谷 AI 工程师内卷崩溃记:996 写代码项目被砍,连续熬夜只为讨好投资人

【新智元导读】亚马逊工程师一个周末辛苦写出的代码,因为项目最终被降级而白白浪费了。AI 爆火的背面,是一众硅谷大厂员工的疯狂内耗。越来越密集的活动日程表,越来越不可思议的 deadline,为董事会准备毫无用途的 AI 产品展示…… 被迫「内卷」的大厂 AI 工程师们,已经感到窒息。AI 爆火之后,硅谷的工程师们已经被「内卷」搞得精疲力竭,苦不堪言!放弃整个周末休息辛苦写出的代码,因为项目降低优先级全部白费。大家你追我赶,争取比竞家更快发布产品,一切都向速度看齐。领导疯狂发号施令,但对项目的实际影响漠不关心。为了赶

斯坦福李飞飞首次创业:学术休假两年,瞄准「空间智能」

「AI 教母」李飞飞创业了。没想到,在大模型时代,知名「AI 教母」李飞飞也要「创业」了,并完成了种子轮融资。据路透社独家报道,著名计算机科学家李飞飞正在创建一家初创公司。该公司利用类似人类的视觉数据处理方式,使人工智能能够进行高级推理。知情人士透露称,李飞飞最近为这家公司进行了种子轮融资,投资者包括硅谷风险投资公司 Andreessen Horowitz,以及她去年加入的加拿大公司 Radical Ventures。不过,Andreessen Horowitz 和 Radical Ventures 的发言人均对此

瑜伽球上遛「狗」!入选英伟达十大项目之一的Eureka有了新突破

机器狗在瑜伽球上稳稳当当的行走,平衡力那是相当的好:各种场景都能拿捏,不管是平坦的人行道、还是充满挑战的草坪都能 hold 住:甚至是研究人员踢了一脚瑜伽球,机器狗也不会歪倒:给气球放气机器狗也能保持平衡:上述展示都是 1 倍速,没有经过加速处理。论文地址:::DrEureka: Language Model Guided Sim-To-Real Transfer这项研究由宾夕法尼亚大学、 NVIDIA 、得克萨斯大学奥斯汀分校的研究者联合打造,并且完全开源。他们提出了 DrEureka(域随机化 Eureka),