一阶优化算法启迪,北大林宙辰团队提出具备万有切近亲近本质的神经收集架构的设想步骤
以神经收集为基础的深度学习技术已经在诸多应用领域获得了有效成果。在实践中,收集架构可以显著影响学习效率,一个好的神经收集架构能够融入成绩的先验知识,稳定收集训练,提高计算效率。目前,经典的收集架构设想步骤包括人工设想、神经收集架构搜索(NAS)[1]、以及鉴于优化的收集设想步骤 [2]。人工设想的收集架构如 ResNet 等;神经收集架构搜索则通过搜索或强化学习的方式在搜索空间中寻找最佳收集结构;…- 31
- 0
从AIGC到AGI,为什么我们必要更多的“技能信奉派”?
整理 | 伊风采访 | 张晓楠嘉宾 | 巴川、朱雷、肖然作为AIGC运用落地元年,2024开年就抛给我们一些不太好回答的题目:在以探索AGI为长期目标时,我们该坚守技能信奉吗?除了复制外洋GPT-4、Sora这样的成功案例,我们该如何寻求更大发展和突破?即便算力题目得以解决,算法的难题如何跨越?海内企业为什么大都安排多个大模型?为什么并非所有企业都该拥抱AIGC?前不久51CTO全新直播栏目《AI…- 4
- 0
曾爆火的 InstantID又有了新玩法:格调化图象生成,已开源
InstantID 原班团队推出了格调转嫁的新方式 InstantStyle。格调化图象生成,也常称为格调转嫁,其目标是生成与参照图象格调一致的图象。此前鉴于 diffusion 的方式(比如 LoRA)通常需要批量的同格调数据进行训练,无法转嫁到新的格调中,或者鉴于 inversion(如 StyleAlign),通过将格调图象还原到 latent noise 后,将其前向传播得到的 K、V 用…- 17
- 0
CVPR 2024 | 仅需文本或图象提醒,新框架CustomNeRF精准编写3D场景
美图影像研究院(MT Lab)与中国科学院信息工程研究所、北京航空航天大学、中山大学共同提出了 3D 场景编写办法 ——CustomNeRF,同时支持文本描绘和参照图象作为 3D 场景的编写提醒,该研究成果已被 CVPR 2024 接收。自 2020 年神经辐射场 (Neural Radiance Field, NeRF) 提出以来,将隐式表达推上了一个新的高度。作为当前最前沿的技术之一,NeRF…- 36
- 0
谁说大象不能起舞! 重编程大谈话模型实现跨模态交互的时序展望 | ICLR 2024
最近,来自澳大利亚蒙纳士大学、蚂蚁集团、IBM 研究院等机构的研究人员探索了模型重编程 (model reprogramming) 在大谈话模型 (LLMs) 上应用,并提出了一个全新的视角:高效重编程大谈话模型进行通用时序展望 –- 其提出的 Time-LLM 框架无需修改谈话模型即可实现高精度时序展望,在多个数据集和展望恣意中超越了传统的时序模型,让 LLMs 在处置惩罚跨模态的空儿序列数据时…- 14
- 0
改变LoRA的初始化方式,北大新方法PiSSA显著提升微调动机
随着大模型的参数目日益增长,微调整个模型的开销逐渐变得难以接受。为此,北京大学的研究团队提出了一种名为 PiSSA 的参数高效微调方法,在主流数据集上都超过了目前广泛应用的 LoRA 的微调动机。论文: PiSSA: Principal Singular Values and Singular Vectors Adaptation of Large Language Models论文链接: : 1…- 43
- 0
若通过验证可颠覆美国后量子暗码设计,清华陈一镭预印论文破解格暗码
30 年来最重要的量子算法突破?在计算机领域,办理格上的近似最短向量成绩(Approximate Shortest Vector Problems in Lattices。Lattice Problems)以及与之等价的容错学习成绩(Learning with Errors,LWE)是典范的算法难题,科学界普遍认为它们超出了传统计算机的能力范围。量子计算机是否有望能破解 Lattice Probl…- 4
- 0
蚂蚁团体CodeFuse 颁布“图生代码”性能,超五成程序员用AI写代码
4月11日,蚂蚁团体自研的智能研发平台CodeFuse推出“图生代码”新性能,支持开发人员用产品设计图一键生成代码,大幅提升前端页面的开发效率。目前相关性能正在内测。和很多互联网公司一样,蚂蚁团体正在内部全面推行AI编程,使用CodeFuse支持平常研发处事的工程师达到50%以上,这些工程师提交的代码中10%由AI生成。Gartner颁布的2024年十大战略技术趋势指出:到2028年,75%的企业…- 7
- 0
Llama架构比不上GPT2?神奇token提升10倍记忆?
一个 7B 规模的言语模型 LLM 能保存多少人类常识?如何量化这一数值?训练工夫、模型架构的分别将如何影响这一数值?浮点数压缩 quantization、混合专家模型 MoE、以及数据质量的差异 (百科常识 vs 网络垃圾) 又将对 LLM 的常识容量产生何种影响?近日,朱泽园 (Meta AI) 和李远志 (MBZUAI) 的最新钻研《言语模型物理学 Part 3.3:常识的 Scaling …- 4
- 0
CVPR 2024 | 联系一切模型SAM泛化能力差?域顺应策略给解决了
第一个针对「Segment Anything」大模型的域顺应策略来了!相关论文已被CVPR 2024 接收。引言大语言模型(LLMs)的成功激发了计算机视觉领域探索联系基础模型的兴趣。这些基础联系模型通常通过 Prompt Engineer 来举行 zero/few 图象联系。其中,Segment Anything Model(SAM)是最先进的图象联系基础模型。 …- 10
- 0
N-S方程题目有解了?与黎曼想象并列,千禧年数学困难胜利在望
这是数学中最著名的未解题目之一。新的工作已通过同行评审,全文可看。起猛了,流体力学迎来自己的超导时刻了?最近几天,数学圈内人们正在热烈讨论纳维 - 斯托克斯题目的正则哈密顿公式终于出现了 —— 这个数学史上悬而未决的题目可能有了解答。而在以前,人们甚至普遍认为这是不可能的。此事有多重要?纳维 - 斯托克斯方程与黎曼想象一样,在 2000 年被列为「千禧年数学七大困难」。这七个世界级困难分别是:NP…- 10
- 0
无需训练,这个新办法实现了生成图象尺寸、分辨率自由
近日,来自香港中文大学 - 商汤科技联合实验室等机构的研究者们提出了FouriScale,该办法在利用预训练分散模型生成高分辨率图象方面取得了显著提升。近期,分散模型凭借其出色的性能已超越 GAN 和自回归模型,成为生成式模型的主流选择。基于分散模型的文本到图象生成模型(如 SD、SDXL、Midjourney 和 Imagen)展现了生成高质量图象的惊人能力。通常,这些模型在特定分辨率下进行训练…- 8
- 0
揭秘AI幻觉:GPT-4V存在视觉编码毛病,清华联合NUS提出LLaVA-UHD
GPT-4V 的推出引爆了多模态大模型的研究。GPT-4V 在包括多模态问答、推理、交互在内的多个领域都展现了出色的能力,成为如今最领先的多模态大模型。然而,近期很多工作发现 GPT-4V 在很多基本能力上却意外的出现短板。例如,在微软一篇长达 166 页的技术报告《The Dawn of LMMs:Preliminary Explorations with GPT-4V (ision)》中,作家…- 6
- 0
二次元专用超分AI模型APISR:在线可用,入选CVPR
《龙珠》、《神奇宝贝》、《新世纪福音战士》等上个世纪开播的动漫是很多人童年回忆的一部分,它们曾给我们带来了充满了热血、友情与梦想的视觉之旅。某些时候,我们会突然有重温这些童年回忆的冲动,但我们却可能会略带遗憾地发现这些童年回忆的分辨率非常低,根本无法在客厅的 4K 大屏电视上创造出良好的视觉体验,以至于可能阻碍我们与在高分辨率数字世界中成长的孩子分享这些童年回忆。针对这样的困扰(以及潜在的市场),…- 7
- 0
ICLR 2024 | 联邦进修后门进击的模型环节层
联邦进修使多个参与方可以在数据隐私失去庇护的情况下训练机器进修模型。但是由于服务器无法监控参与者在本地举行的训练过程,参与者可以篡改本地训练模型,从而对联邦进修的全局模型构成安全序隐患,如后门进击。本文重点关注如何在有进攻庇护的训练框架下,对联邦进修发起后门进击。本文发现后门进击的植入与部分神经网络层的相关性更高,并将这些层称为后门进击环节层。鉴于后门环节层的发现,本文提出通过进击后门环节层绕过进…- 11
- 0
让智能体像孩子一样观察别人进修行动,跨视角妙技进修数据集EgoExoLearn来了
在探索人工智能边界时,我们时常惊叹于人类孩童的进修才智 —— 可以轻易地将他人的行动映射到自己的视角,进而模仿并创新。当我们追求更高阶的人工智能的时候,无非是希望赋予机器这种与生俱来的天赋。由上海人工智能实验室,南京大学,中科院深圳先进技术研究院牵头,联合东京大学,复旦大学,浙江大学,中国科学技术大学等高校的学生和研究者,共同公布了跨视角妙技进修数据集EgoExoLearn,为机器人赋予了通过观察…- 6
- 0
弱智吧:大模型变聪明,有我一份贡献
「被门夹过的核桃,还能补脑吗?」在华文网络上流传着这样一段话:弱智吧里没有弱智。百度「弱智吧」是个神奇的地方,在这里人人都说自己是弱智,但大多聪明得有点过了头。最近几年,弱智吧的年度归纳文章都可以顺手喜提百度贴吧热度第一名。所谓归纳,其实就是给当年吧里的弱智发言排个名。各种高质量的段子在这里传入传出,吸引了无数人的围观和转载,这个贴吧的关注量如今已接近 300 万。你网络上看到的最新流行词汇,说不…- 2
- 0
长文本之罪:Claude团队新逃狱技术,Llama 2到GPT-4无一幸免
Anthropic 发现一种新型逃狱破绽并给出了高效的减缓方案,可以将进击成功率从 61% 降至 2%。刚刚,人工智能初创公司 Anthropic 宣布了一种「逃狱」技术(Many-shot Jailbreaking)—— 这种技术可以用来逃避大型语言模型(LLM)开发人员设置的安全护栏。研讨者表示,其对 Anthropic 自家模型以及 OpenAI、Google DeepMind 等其他 AI…- 3
- 0
还得是抖音,字节推出竖屏视频理解数据集,入选CVPR2024
短视频在当下社交媒体逐渐成为主导的视频格式。传统视频处理技巧和钻研一般都专注于横屏视频的理解和解析,而竖屏视频因其拍摄手法和实质重点分歧,揭示出与横屏视频数据分歧的特点。针对这一分歧,字节跳动技巧团队发布了专注于竖屏视频理解的数据集,提出了多个针对竖屏视频处理的技巧点以及一个初始规划。这项钻研对准确的竖屏视频理解和基础技巧架构有较为重要的意义,论文已入选 CVPR2024。视频 demo 揭示、数…- 4
- 0
可编写的DALL·E 3要来了?一句话就能PS图片
OpenAI 从未放慢前进的脚步,DALL・E 3 将支持对生成后的图片举行再次编写。可编写的 DALL・E 3 难道要来了?在 OpenAI 刚刚革新的一篇文章中,透漏了一些关于 DALL・E 3 编写器界面的消息。该功用使得用户通过采用图象中的一个地区并在聊天中举行文本描述来编写图象。去年,OpenAI 将 DALL・E 3 集成进 ChatGPT,这种王炸级别的组合令很多人直呼 OpenAI…- 4
- 0
比LoRA还快50%的微调方法来了!一张3090性能超越全参调优,UIUC联合LMFlow团队提出LISA
2022 年底,随着 ChatGPT 的爆火,人类正式进入了大模型时代。然而,训练大模型需要的时空斲丧依然居高不下,给大模型的普及和发展带来了巨大困难。面对这一挑拨,原先在计算机视觉领域流行的 LoRA 手艺成功转型大模型 [1][2],带来了接近 2 倍的时间加速和实际最高 8 倍的空间压缩,将微调手艺带进千家万户。但 LoRA 手艺仍存在一定的挑拨。一是 LoRA 手艺在很多任意上还没有超过正…- 34
- 0
ICLR 2024 | 鸡生蛋蛋生鸡?再论生成数据能否帮助模型训练
随着生成模型(如 ChatGPT、扩散模型)飞速发展,一方面,生成数据品质越来越高,到了以假乱真的程度;另一方面,随着模型越来越大,也使得人类世界的实在数据即将枯竭。面对这一处境,一个近期的研究热度是,能否利用生成模型生成的假数据来辅助进修?学界对此也产生了许多争论:到底是可以左脚踩右脚(bootsrap)地实现 weak-to-strong 的不断晋升,还是像鸡生蛋、蛋生鸡一样,只不过是徒劳无功…- 8
- 0
CVPR 2024 | 让视频姿势Transformer变得飞速,北大提出高效三维人体姿势算计框架HoT
目前,Video Pose Transformer(VPT)在鉴于视频的三维人体姿势算计领域取得了最领先的功能。近年来,这些 VPT 的算计量变得越来越大,这些巨大的算计量同时也限制了这个领域的进一步发展,对那些算计资源不足的研究者十分不友好。例如,训练一个 243 帧的 VPT 模型通常需要花费好几天的时间,严重拖慢了研究的进度,并成为了该领域亟待解决的一大痛点。那么,该如何有效地提升 VPT …- 11
- 0
非侵入设置装备摆设贴在脖子上,就能代替人类发声,研讨登《自然通讯》
研讨人员开发了一种由 AI 驱动的发声贴片,可以非侵入性地粘附在喉部帮助发声。在你看不到的地方,说话这件小事对于许多人来说「难于登天」:2014 年美国一项针对发声障碍的研讨发现,近 1800 万成年人在使用声道说话时存在困难,而该群体中超过一半的人经历过言语衰弱问题的时间超过 10 年。现在,一种新型非侵入式可穿戴设置装备摆设成为了这一调理需求新的解决方法。该技术包括粘附在脖子上的轻质贴片,该贴…- 4
- 0
工程
❯
个人中心
今日签到
搜索
扫码打开当前页
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
- ¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!