ControlNet作者又出爆款!一张图生成绘画全过程,两天狂揽1.4k Star
同样是图生视频,PaintsUndo 走出了不一样的路线。ControlNet 作者 Lvmin Zhang 又开始整活了!这次瞄准绘画领域。新项目 PaintsUndo 刚上线不久,就收获 1.4k star(还在疯狂涨)。项目地址:,用户输入一张静态图像,PaintsUndo 就能自动帮你生成整个绘画的全过程视频,从线稿到成品都有迹可循。绘制过程,线条变化多端甚是神奇,最终视频结果和原图像非常…- 26
- 0
CVPR’24 Highlight|一个框架搞定人物动作生成,精细到手部运动
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]本文作者蒋楠是北京大学智能学院二年级博士生,指导教师朱毅鑫教授,与北…- 5
- 0
单一作者论文,谷歌提出百万专家Mixture,超越密集前馈、稀疏MoE
释放进一步扩展 Transformer 的潜力,同时还可以保持计算效率。标准 Transformer 架构中的前馈(FFW)层会随着隐藏层宽度的增加而导致计算成本和激活内存的线性增加。在大语言模型(LLM)体量不断增大的现在,稀疏混合专家(MoE)架构已成为解决此问题的可行方法,它将模型大小与计算成本分离开来。很多新兴的 MoE 模型都可以实现相同体量之上,更好的性能与更强大的表现。最近发现的细粒…- 8
- 0
鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆
2.4B 的 Memory3比更大的 LLM 和 RAG 模型获得了更好的性能。近年来,大型语言模型 (LLM) 因其非凡的性能而获得了前所未有的关注。然而, LLM 的训练和推理成本高昂,人们一直在尝试通过各种优化方法来降低成本。本文来自上海算法创新研究院、北京大学等机构的研究者受人类大脑记忆层次结构的启发,他们通过为 LLM 配备显式记忆(一种比模型参数和 RAG 更便宜的记忆格式)来降低这一…- 26
- 0
没想到!AlphaZero式树搜索也能用来增强大语言模型推理与训练
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]万梓煜是上海交通大学的三年级在读博士生,导师为温颖教授和张伟楠教授,…- 18
- 0
又遇到「GPT写的review」了?看看北大&密歇根的这个研究工作
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]本文是对发表在计算经济学顶级会议ACM Conference on …- 11
- 0
CVPR最佳论文候选 | NeRF新突破,用启发式引导分割去除瞬态干扰物,无需额外先验知识
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected] 论文第一作者为中山大学计算机学院研二硕士生陈家豪,研究方向为神经…- 19
- 0
单卡A100实现百万token推理,速度快10倍,这是微软官方的大模型推理加速
微软的这项研究让开发者可以在单卡机器上以 10 倍的速度处理超过 1M 的输入文本。大型语言模型 (LLM) 已进入长上下文处理时代,其支持的上下文窗口从先前的 128K 猛增到 10M token 级别。然而,由于注意力机制的二次复杂度,模型处理输入提示(即预填充阶段)并开始产生第一个 token 可能需要几分钟时间。导致首个 token 生成的时间过长,从而严重影响了用户体验,这也极大地限制了…- 28
- 0
几分钟生成四维内容,还能控制运动效果:北大、密歇根提出DG4D
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]本文作者潘亮博士目前是上海人工智能实验室的Research Scie…- 7
- 0
开源视频版GPT-4o?快速记忆,实时问答,拿下CVPR’24长视频问答竞赛冠军
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]张颢继:清华大学本科生,师从唐彦嵩老师,主要研究方向为视频理解。王逸…- 19
- 0
Adam有了mini版:内存占用少一半,吞吐量提升50%
在训练大型语言模型(LLM)时,Adam(W) 基本上已经成为了人们默认使用的优化器。Adam 尽管性能优异,但使用成本很高。具体来说,Adam 需要内存来保存其优化器状态:一阶动量 m 和二阶动量 v^2。这总共需要模型大小至少 2 倍的内存。这样的内存消耗已经成为了 LLM 训练的一大主要负担。举个例子,要训练一个 7B 模型,只是 Adam 就需要每张卡有大约 56 GB 来保存 m 和 v…- 3
- 0
RAGFlow开源Star量破万,是时候思考下RAG的未来是什么了
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]本文作者为张颖峰,英飞流 InfiniFlow 创始人 CEO,连续…- 23
- 0
LLM用于时序猜测真的不行,连推理能力都没用到
言语模型真的能用于时序猜测吗?根据贝特里奇头条定律(任何以问号结尾的新闻标题,都能够用「不」来回答),答案应该能否定的。事实似乎也果然如此:强大如斯的 LLM 并不能很好地处理时序数据。时序,即空儿序列,顾名思义,是指一组按照空儿发生先后顺序进行排列的数据点序列。在很多领域,时序分析都很关键,包括疾病传播猜测、零售分析、医疗和金融。在时序分析领域,近期不少研究者都在研究如何利用大型言语模型(LLM…- 8
- 0
ACL 2024 | 引领学术视听研究,上海交大、清华大学、剑桥大学、上海AILAB联合发布学术视听数据集M3AV
AIxiv专栏是机器之心发布学术、技术实质的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇实质,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]本文作家来自上海交通大学,清华大学,剑桥大学和上海野生智能实验室。一…- 30
- 0
ICML 2024高分论文 | 零阶优化器微调大模型,大幅降低内存
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级尝试室,有效促进了学术交流与传递。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]本文共同第一作者简介:张逸骅:密歇根州立大学计算机系博士三年级学生,…- 9
- 0
神经搜集可能不再需要激活函数?Layer Normalization也具有非线性表达!
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级试验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]本文作家均来自北京航空航天大学人工智能学院和复杂关键软件环境全国重点…- 20
- 0
哈工大提出创新迭代推理框架 DPE-MNER :充分发挥多模态表达潜力
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实行室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]该文章的作者团队来自于哈工大社会计算与信息检索钻研中心,作者团队构成…- 24
- 0
浙大、腾讯团队发布迷信LLM大规模评测基准,国产大模型显露亮眼
编辑 | ScienceAI随着庞大言语模型(LLMs)在迷信研究畛域的广泛利用,评价这些模型在理解和利用迷信常识方面的本领变得尤为重要,但是迷信畛域全面评价 LLMs 迷信常识的高级基准非常缺乏。近日,来自浙江大学 NLP 实验室与腾讯 AI Lab 的研究者构建了 SciKnowEval 评测基准,定义了 L1 到 L5 不同层级的迷信智能,共包含化学和生物畛域 50,000 个不同档次的迷信…- 27
- 0
等不来OpenAI的Q*,华为诺亚探索LLM推理的秘密武器MindStar先来了
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]本论文作者来自华为蒙特利尔诺亚方舟实验室的康计堃,李信择,陈熙, A…- 7
- 0
ICML 2024 Spotlight | 在解码中从头对齐,让言语模型更少幻觉、更符合人类偏好
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级尝试室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]本文介绍了一篇言语模型对齐研究的论文,由瑞士、英国、和法国的三所大学…- 6
- 0
亚马逊云创新「神经稠密检索」:仅需要文本婚配就能实现语义搜刮
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]本文作者是来自 OpenSearch 中国研发团队的机器学习负责人杨…- 8
- 0
看张手绘草图就能合成图形法式,加州伯克利让分散模型掌握新技能
事实证明,分散模型不仅能用于生成图象和视频,也能用于合成新法式。假设我们给模型一张手绘的「5」状图形,它就能通过不断渐变来修改法式,最终获得能输出指标图形的法式。该模型来自加州大学伯克利分校的一个研究团队,他们提出的这种法式合成新方式运用了神经分散模型来直接操作句法树。论文一作为该校博士生 Shreyas Kapur,其导师为该校计算机科学教授 Stuart Russell。论文标题:Diffus…- 9
- 0
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]本文作者张天宇,就读于加拿大Mila人工智能研究所,师从图灵奖得主Y…- 6
- 0
300多篇相关钻研,复旦、南洋理工最新多模态图象编写综述论文
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]该文章的第一作者帅欣成,目前在复旦大学FVL实验室攻读博士学位,本科…- 17
- 0
工程
❯
个人中心
今日签到
搜索
扫码打开当前页
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
- ¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!