DeepMind终结大模型幻觉?标注现实比人类靠谱、还便宜20倍,全开源
DeepMind 这篇论文一出,人类标注者的饭碗也要被砸了吗?大模型的幻觉终于要终结了?今日,社媒平台 reddit 上的一则帖子引起网友热议。帖子讨论的是谷歌 DeepMind 昨日提交的一篇论文《Long-form factuality in large language models》(大言语模型的长篇现实性),文中提出的方法和结果让人得出大胆的结论:对于负担得起的人来说,大言语模型幻觉不再…- 3
- 0
CVPR 2024|生成不了光线极强的图片?微信视觉团队有效办理聚集模型奇点课题
聚集模型凭借其在图象生成方面的出色表现,开启了生成式模型的新纪元。诸如 Stable Diffusion,DALLE,Imagen,SORA 等大模型如雨后春笋般涌现,进一步丰富了生成式 AI 的使用前景。然而,当前的聚集模型在理论上并非完美,鲜有研讨关注到采样时间端点处未定义的奇点课题。此外,奇点课题在使用中导致的平衡灰度等影响生成图象质量的课题也一直未得到办理。为了办理这一难题,微信视觉团队与…- 8
- 0
两分钟1200帧的长视频生成器StreamingT2V来了,代码将开源
广阔的战场,风暴兵在奔跑…… prompt:Wide shot of battlefield, stormtroopers running...这段长达 1200 帧的 2 分钟视频来自一个文生视频(text-to-video)模型,尽管 AI 生成的痕迹依然浓重,但我们必须承认,其中的人物和场景具有相当不错的一致性。这是如何办到的呢?要知道,虽…- 20
- 0
ICLR 2024 | RLHF有了通用平台和基准,天大开源,专攻现实决策场景
RLHF 通过进修人类偏好,可以在难以手工设想赞美函数的复杂决策工作中进修到正确的赞美引导,得到了很高的关注,在不同情况中选择合适的人类反应典型和不同的进修方法至关重要。然而,当前钻研社区缺乏可以支持这一需求的标准化标注平台和统一基准,量化和比较 RLHF 的最新进展是有挑战性的。本文中,天津大学深度强化进修实验室的钻研团队推出了面向现实决策场景的 Uni-RLHF 平台,这是一个专为 RLHF …- 8
- 0
CNN、Transformer、Uniformer之外,我们终于有了更高效的视频懂得技术
视频懂得因大量时空冗余和复杂时空依赖,同时克服两个问题难度巨大,CNN 和 Transformer 及 Uniformer 都难以胜任,Mamba 是个好思路,让我们看看本文是如何创造视频懂得的 VideoMamba。视频懂得的核心目标在于对时空表示的把握,这存在两个巨大挑战:短视频片段存在大量时空冗余和复杂的时空依赖关系。尽管曾经占主导地位的三维卷积神经网络 (CNN) 和视频 Transfor…- 5
- 0
CVPR 2024 | 零样本6D物体姿势预计框架SAM-6D,向具身智能更进一步
物体姿势预计在许多现实世界应用中起到至关重要的作用,例如具身智能、机器人灵巧操作和增强现实等。在这一领域中,最先受到关注的任务是实例级别 6D 姿势预计,其需要关于目的物体的带标注数据进行模型训练,使深度模型具有物体特定性,无法迁移应用到新物体上。后来研究热点逐步转向类别级别 6D 姿势预计,用于处理未见过的物体,但要求该物体属于已知的感兴趣类别。而零样本 6D 姿势预计是一种更具泛化性的任务设置…- 12
- 0
ICLR 2024 | 陆续进修不怕丢西瓜捡芝麻,神经形状要领保护旧知识
以脉冲神经网络(SNN)为代表的脑启发神经形状计较(neuromorphic computing)由于计较上的节能性质在最近几年受到了越来越多的关注 [1]。受启发于人脑中的生物神经元,神经形状计较通过模拟并行的存内计较、鉴于脉冲信号的事件驱动计较等生物特性,能够在不同于冯诺依曼架构的神经形状芯片上以低功耗实行神经网络计较。然而,神经网络模型在持续进修新任意时通常存在对旧任意的灾难性忘记的问题,这…- 7
- 0
拖拽P图技术又升级了:StableDrag更稳、更准,南大、腾讯联合打造
去年 5 月,动动鼠标就能让图片变「活」得研究 DragGAN 吸引了 AI 圈的关注。通过拖拽,我们可以改变并合成自己想要的图象,比以下图中让一头狮子转头并张嘴。实现这一效果的研究出自华人一作领衔的「Drag Your GAN」论文,于上个月放出并已被 SIGGRAPH 2023 会议接收。相关的项目在 GitHub 上已经积累了 34.5k 的 Star 量。项目地址:,新加坡国立大学和字节跳…- 6
- 0
大模型能自己优化Prompt了,曾经那么火的提醒工程要死了吗?
人类设计 prompt 的效率其实很低,效果也不如 AI 模型自己优化。2022 年底,ChatGPT 上线,同时引爆了一个新的名词:提醒工程(Prompt Engineering)。简而言之,提醒工程就是寻找一种编辑查询(query)的方式,使得大型谈话模型(LLM)或 AI 绘画或视频生成器能得到最佳结果或者让用户能绕过这些模型的安保措施。将来的互联网上到处都是提醒工程指南、快捷查询表、建议推…- 11
- 0
COLING24|自符合剪枝让多模态大模型减速2-3倍,哈工大等推出SmartTrim
鉴于 Transformer 结构的视觉语言大模型(VLM)在各种下游的视觉语言任务上取得了巨大成功,但由于其较长的输出序列和较多的参数,导致其相应的较量争论开消地提升,阻碍了在实际环境中进一步部署。为了追求更为高效的推理速度,前人提出了一些针对 VLM 的减速要领,包括剪枝和蒸馏等,但是现有的这些要领大都采用静态架构,其针对分别输出实例采用同样的较量争论图进行推理,忽略了分别实例之间具有分别较量…- 6
- 0
提升生成式零样本进修能力,视觉增强动态语义原型办法入选CVPR 2024
虽然我从来没见过你,但是我有可能「认识」你 —— 这是人们希望人工智能在「一眼初见」下达到的状态。为了达到这个目的,在传统的图象鉴别任务中,人们在带有不同种别标签的大量图象样本上训练算法模型,让模型获得对这些图象的鉴别能力。而在零样本进修(ZSL)任务中,人们希望模型能够举一反三,鉴别在训练阶段没有见过图象样本的种别。生成式零样本进修(GZSL)是实现零样本进修的一种有效办法。在生成式零样本进修中…- 7
- 0
LLaMA-2-7B数学威力上限已达97.7%?Xwin-Math利用分解数据解锁后劲
分解数据持续解锁大模型的数学推理后劲!数学课题办理威力一直被视为衡量言语模型智能水平的重要指标。通常只有规模极大的模型或经过大量数学相关预训练的模型才能有机会在数学课题上表现出色。近日,一项由 Swin-Transformer 团队打造,来自西安交通大学、中国科学技术大学、清华大学和微软亚洲钻研院的学者共同完成的钻研工作 Xwin 颠覆了这一认知,揭示了通用预训练下 7B(即 70 亿参数)规模的…- 8
- 0
AI图片橡皮擦来了,清华&阿里合作推出「观点半透膜」模型,还能改头换面
一只橘猫,减去「猫」,它会变成什么?第一步在常见 AI 作图模型输入「一只胖胖的像面包的橘猫」,画出一只长得很像面包的猫猫,然后用观点半透膜 SPM 技术,将猫猫这个观点擦掉,结果它就失去梦想变成了一只面包。上图 1 是更多的猫猫图失去猫这个观点后的结果。 图 1 观点半透膜 SPM 针对不同的「猫」图擦除猫观点后的成果下图 2 到图 …- 7
- 0
OpenAI开源了:Transformer主动debug东西上线GitHub
不用敲代码,就可以快速探索模型结构。最近时常被吐槽不够开源的 OpenAI,突然开放了一次。今天一早,OpenAI 机器学习研究员 Jan Leike 宣布,OpenAI 开放了自己内部一直用于分析 Transformer 内部结构的东西。GitHub 链接:,虽然没有经过太多宣传,star 数量上涨得也挺快。Transformer Debugger 介绍Transformer Debugger …- 4
- 0
王室修图何必用PS?Midjourney上新「换脸魔法」,奥特曼一秒COS罗马将军
这两天,英国王室的 P 图事件闹得沸沸扬扬。3 月 10 日,威廉与凯特的 X 官方账号分享了一张凯特王妃和 3 个孩子的合影。然而,这张本意为辟谣的照片却掀起了一场「大家来找茬」的游戏,眼尖的网友发现了多处修图痕迹:还有一些猜测是,这张照片是由 AI 生成的。照片中人物数量比力多,且是相互依靠的动作,AI 直接生成的结果未必有这么自然,但也不能排除「局部 AI 生成」的可能性。随后,凯特王妃为「…- 5
- 0
当prompt方略遇上分治算法,南加大、微软让大模型炼成「火眼金睛」
近年来,大语言模型(LLMs)由于其通用的成绩处理能力而引起了大量的关注。现有研究表明,适当的提醒设计(prompt enginerring),例如思维链(Chain-of-Thoughts),可以解锁 LLM 在不同领域的强大能力。然而,在处理涉及重复子使命和 / 或含有欺骗性内容的使命(例如算术计算和段落级别长度的虚假旧事检测)时,现有的提醒方略要么受限于表达能力不足,要么会受到幻觉引发的中间…- 5
- 0
怎么劝ChatGPT干活效果最好?我们尝试了100种方法,有图有真相
在 ChatGPT API 中,系统提醒是一项很有亮点的功能,它允许开发人员控制 LLM 输入的「角色」,包括特殊规则和限定。系统提醒中的命令比用户输入提醒中的命令要有效得多,这让开发人员拥有了更大的发挥空间,而不是像现在利用 ChatGPT 网页应用程序和移动应用程序那样仅仅利用用户提醒。举个例子,一个很有趣的 Trick 就是「给小费」。BuzzFeed 数据科学家 Max Woolf 是数亿…- 5
- 0
清华姚班本科生连发两作,十年来最大改善:矩阵乘法接近理论最优
通过打消「公开的低效」课题,盘算机科学家提出了一种比以往更快的大型矩阵相乘新方式。矩阵乘法作为众多 GPU 算子的基础操作,是高性能盘算的重要课题之一,也是 AI 等应用的基石。它的算法机制本身相当简单,但为了达到更快的速度,人们多年来不懈努力,优化程度却一直有限。今日,在《量子杂志》的一篇报道中,我们看到了推动矩阵乘法速度进一步提升的两篇论文,其中清华姚班一位大四本科生全程参与了两篇论文的撰写,…- 21
- 0
「AI透视眼」,三次马尔奖获得者Andrew带队解决恣意物体遮拦补全难题
遮拦是计算机视觉很基础但依旧未解决的问题之一,因为遮拦意味着视觉信息的缺失,而机器视觉系统却依靠着视觉信息进行感知和理解,并且在现实世界中,物体之间的相互遮拦无处不在。牛津大学 VGG 实验室 Andrew Zisserman 团队最新事情系统性解决了恣意物体的遮拦补全问题,并且为这一问题提出了一个新的更加精确的评价数据集。该事情受到了 MPI 大佬 Michael Black、CVPR 官方账号…- 5
- 0
ICLR 2024 Spotlight | 大言语模型权重、激活的全方位低bit可微量化,已集成进商用APP
模型量化是模型压缩与加速中的一项关键技术,其将模型权重与激活值量化至低 bit,以允许模型占用更少的内存开支并加快推理速度。对于具有海量参数的大言语模型而言,模型量化显得更加重要。例如,GPT-3 模型的 175B 参数当使用 FP16 格式加载时,需消耗 350GB 的内存,需要至少 5 张 80GB 的 A100 GPU。但若是可以将 GPT-3 模型的权重压缩至 3bit,则可以实现单张 A…- 4
- 0
怒斥Sora之后,LeCun放出「视觉天下模型」论文,揭示AI进修物理天下的关键
Sora 的发布让整个 AI 领域为之狂欢,但 LeCun 是个例外。面对 OpenAI 源源不断放出的 Sora 生成视频,LeCun 热衷于寻找其中的失误:归根结底,LeCun 针对的不是 Sora,而是 OpenAI 从 ChatGPT 到 Sora 一致采用的自回归生成式路线。LeCun 一直认为, GPT 系列 LLM 模型所依赖的自回归进修范式对天下的理解非常肤浅,远远比不上真正的「天…- 19
- 0
CVPR 2024满分论文:浙大提出鉴于可变形三维高斯的高质量单目静态重修新步骤
单目静态场景(Monocular Dynamic Scene)是指使用单眼摄像头观察并分析的静态环境,其中场景中的物体可以自由移动。单目静态场景重修对于理解环境中的静态变化、预测物体运动轨迹以及静态数字资产生成等任务至关重要。随着以神经辐射场(Neural Radiance Field, NeRF)为代表的神经衬着的兴起,越来越多的工作开始使用隐式表征(implicit representatio…- 5
- 0
ControlNet作者又出新作:百万数据训练,AI图象生成迎来图层设计
有人表示:「等待已久的 AI 图象创建功能终于迎来了图层!」尽管用于生成图象的大模型已经成为计算机视觉和图形学的基础,但令人惊讶的是,分层实质生成或浑浊图象(是指图象的某些部分是浑浊的,允许布景或者其他图层的图象通过这些浑浊部分显示出来)生成领域获得的关注极少。这与市场的实际需求形成了鲜明对比。大多数视觉实质编辑软件和工作流程都是基于层的,严重依赖浑浊或分层元素来组合和创建实质。来自斯坦福大学的研…- 13
- 0
微软37页论文逆向工程Sora,得到了哪些结论?
一篇论文回顾 Sora 文生视频技巧的背景、技巧和应用。追赶 Sora,成为了很多科技公司当下阶段的新目标。研究者们好奇的是:Sora 是如何被 OpenAI 发掘出来的?未来又有哪些演进和应用方向?Sora 的技巧报告披露了一些技巧细节,但远远不足以窥其全貌。在最近的一篇文章中,微软研究院和理海大学的研究者根据已发表的技巧报告和逆向工程,首次全面回顾了 Sora 的背景、相关技巧、新兴应用、当前…- 5
- 0
工程
❯
个人中心
今日签到
搜索
扫码打开当前页
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
- ¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!