工程

模型越大，本能越好？苹果自返回视觉模型AIM：没错
视觉模型，同样遵循「参数越多本能越强」的规律？刚刚，一项来自苹果公司的研究考证了这个猜想。过去几年，大规模预训练模型在 NLP 领域取得了成功，这类模型可以通过几个示例解决复杂的推理义务，也可以按照指令从事推理。众所周知的是，预训练模型能取得成功的一个理论基础是，随着容量（即参数量）或预训练数据量的增加，模型能够不断提升本能。这很自然地引发了研究者们的联想：应用自返回标的对 Transformer…
工程
- 25
- 0
机器之心1月18日
三个臭皮匠顶个诸葛亮？可能是真的，已证实混杂多个小模型机能比肩GPT3.5
对模型参数量的迷信、执念也许可以放下了，混杂多个小模型也是未来构造对话型 AI 的一个光明的方向。在对话型人工智能（AI）研究中，存在趋势即朝着开发参数更多的模型方向发展，如 ChatGPT 等为代表的模型。尽管这些庞大的模型能够生成越来越好的对话呼应，但它们同时也需要大量的计算资源和内存。本文研究探讨的问题是：一组小模型是否能够协同达到与单一大模型相当或更好的机能？本文介绍了一种创新而简单的方…
工程
- 7
- 0
机器之心1月18日
为什么普通人「出圈」，都在小红书？
解码小红书推举体系：为什么在这里普通人更容易被看见？出差期间，我在酒店百无聊赖地打开了小红书。一篇看似平淡无奇的条记吸引了我的注意——一位 ID 叫「倚着彩虹看夕阳」的用户发帖，说自己在酒店的床上看西游记时，感觉到前所未有的放松。从标题到配图，这篇发布于去年 5 月的条记没有任何明显的爆点，但显然在小红书上引发了广泛的共鸣，收到了大量的点赞、收藏和批评。我也被吸引，陷入了#走不出的批评区。现代人的…
工程
- 5
- 0
机器之心1月16日
深挖RLHF潜力，复旦言语和视觉团队创新嘉奖模型优化，让大模型更对齐
继第一份大模型对齐技术报告（Secrets of RLHF in Large Language Models Part I）获 NeurIPS 2023 workshop best paper 后，第二份报告强势归来，复旦言语和视觉团队联合推出的第二份报告将进入这一领域更深层的探索和优化之旅。在首份报告中，复旦团队揭示了 RLHF 在大言语模型中的基本框架，并深入分析了 PPO 算法的内部机制，特…
工程
- 6
- 0
机器之心1月15日
47年前经典影片另类重制，从宇宙到原子皆是生成
从广角视图到微距拍摄，每一步由你来决定。以躺在草坪上的男人为中心，将镜头画面按照 10 倍的比率不断扩展，你将看到一亿光年外的场景。以躺在草坪上的男人为中心，每次画面镜头缩减 90%，单个质子将充满整个镜头。让人震惊的是，这两组画面来自 1977 年的经典短片《Powers of Ten》。在评论区中，有人表示这个视频在 2022 年依然被当做经典出现在课堂中。有网友对于这个视频的制作表示无法想象…
工程
- 6
- 0
机器之心1月15日
能找神经网络Bug的可视化对象，Nature子刊收录
近来，《自然》子刊收录了一项能找出神经网络在哪里出错的钻研成果。钻研团队提供了一种利用拓扑学描述神经网络的判断结果与其分类之间关系的可视化方式。这项成果不妨资助钻研职员判断神经网络推理流程中发生混淆的具体情况，让人工智能系统更加透明。钻研职员发明，在神经网络推理的某些数据图中存在尖峰，这些尖峰往往出现在神经网络判断模糊与产生差错的地方。观察这些尖峰，钻研职员可以更容易发明人工智能系统中的故障点。从…
工程
- 8
- 0
机器之心1月15日
挥舞起代码语料的魔杖，大模型和智能体将召唤出更强大的能量
正如瑞斯福兹魔杖缔造了诸如邓布利多在内的历代非凡魔法师的传奇，具有巨大潜能的传统大型言语模型，在经过代码语料的预训练 / 精调后，掌握了更超出本源的实行力。具体来说，进阶版的大模型在编写代码、更强推理、自决援引实行接口、自决完善等方面都获得了晋升，这将为它作为 AI 智能体、实行下游任意时方方面面带来增益。近日，伊利诺伊大学厄巴纳 - 香槟分校（UIUC）的研讨团队发布了一项重要综述。论文链接: …
工程
- 4
- 0
机器之心1月10日
FATE 2.0版本重磅发布：实现异构联邦学习系统互联互通
打破“算计孤岛”、联通“技术孤岛”，推动异构平台之间的互联互通，是隐衷算计技术下一阶段的重要发展方向。国家数据局印发的《“数据要素×”三年行动计划（2024—2026年）》提出：“打造安全可信流通环境，深化隐衷算计、联邦学习等技术应用，巩固数据利用可信、可控、可计量能力，促进数据合规高效流通使用。”[1]中国信通院评论文章曾指出：“隐衷算计有望成为支撑数据流通产业的基础设施，解决不同产品之间的技术…
工程
- 34
- 0
FedAI联邦学习1月9日
首个无师自通、泛化运用各种家具家电的具身三维图文大模型系统
这几天，家务活都被机器人抢着干了。前脚来自斯坦福的会用锅的机器人刚刚登场，后脚又来了个会用咖啡机的机器人 Figure-01 。只需给它观看示范视频，加上10个小时的训练，Figure-01 就能学会运用咖啡机，放咖啡胶囊到按下启动键，一气呵成。但是想要让机器人无师自通，第一次见到各式各样的家具家电，就能在没有示范视频的情况下熟练运用。这是个难以解决的问题，不仅需要机器人拥有强大的视觉感知、决策计…
工程
- 4
- 0
机器之心1月9日
告别逐一标注，一个提醒实现批量图片肢解，高效又准确
仅需一个义务形貌，即可一键肢解任何图片！Segment Anything Model (SAM) 的提出在图象肢解领域引起了巨大的关注，其卓越的泛化性能引发了广泛的兴趣。然而，尽管如此，SAM 仍然面临一个无法回避的问题：为了使 SAM 能够准确地肢解出目的物体的位置，每张图片都需要手动供应一个独特的视觉提醒。如下图所示，即使点击的是同一物体（图 (b)-(d)），微小位置变化都会导致肢解结果的显…
工程
- 6
- 0
机器之心1月8日
模型A：幸亏有你，我才不得0分，模型B：俺也一样
现在大模型都学会借力了。琳琅满目的乐高积木，通过一块又一块的叠加，可以创造出各种栩栩如生的人物、景观等，不同的乐高作品相互拉拢，又能为爱好者带来新的创意。我们把思路打开一点，在大模型（LLM）爆发的当下，我们能不能像拼积木一样，把不同的模型搭建起来，而不会影响原来模型的性能，还能起到 1 12 的效果。这样的想法，谷歌已经实现了。他们的研讨为未来的言语模型发展提供了一个新的方向，特别是在资本节约和…
工程
- 3
- 0
机器之心1月8日
言语模型是如何感知时光的？「时光向量」了解一下
言语模型究竟是如何感知时光的？如何利用言语模型对时光的感知来更好地控制输出甚至了解我们的大脑？最近，来自华盛顿大学和艾伦人工智能研究所的一项研究提供了一些见解。他们的实验结果表明，时光变化在一定程度上被编码在微调模型的权重空间中，并且权重插值可以帮助自定义言语模型以适应新的时光段。具体来说，这篇论文提出了时光向量（time vectors）的概念，这是一种让言语模型适应新时光段的简单方法。论文发布…
工程
- 3
- 0
机器之心1月8日
只需1080ti，即可在遥感图象中对目标举行像素级定位！代码数据集已开源！
太长不看版这篇论文介绍了一项新的任务 —— 指向性遥感图象朋分（RRSIS），以及一种新的办法 —— 转动多标准交互网络（RMSIN）。RRSIS 旨在根据文本描述实行遥感图象中目标对象的像素级定位。为了解决现有数据集规模和范围的限制，本文构建了一个新的大规模 RRSIS 数据集（RRSIS-D），其中涵盖了多种空间分辨率的图象和具有标准和角度多样性的朋分目标（已公开！）。同时还提出了多标准交互模…
工程
- 2
- 0
机器之心1月5日
高情商的NPC来了，刚伸出手，它就做好了要配合下一步作为的准备
在假造现实、增强现实、游戏和人机交互等领域，经常需要让假造人物和屏幕外的玩家互动。这种互动是即时的，要求假造人物根据操作家的作为从事动态调整。有些互动还涉及物体，比如和和假造人物一起搬动一把椅子，这就需要特别关注操作家手部的精确作为。智能、可交互的假造人物的出现，将极大地提升人类玩家与假造人物的交际体验，带来全新的娱乐方式。在该研究中，作家专注于人与假造人的互动使命，特别是涉及物体的互动使命，提出…
工程
- 4
- 0
机器之心1月3日
面向超长上下文，大语言模型如何优化架构，这篇综述一网打尽了
作家重点关注了鉴于 Transformer 的 LLM 模型体系结构在从预训练到推理的所有阶段中优化长上下文才智的进展。ChatGPT 的诞生，让鉴于 Transformer 的大型语言模型 (LLM) 为通用人工智能（AGI）铺开了一条革命性的道路，并在知识库、人机交互、机器人等多个领域得到应用。然而，目前存在一个普遍的节制：由于资源受限，当前大多 LLM 主要是在较短的文本上进行预训练，导致它…
工程
- 4
- 0
机器之心1月3日
这是GPT-4变笨的新解释
变笨的本质是知识没进脑子。自公布以来，曾被认为是世界上最强大的 GPT-4 也经历了多场「信任危机」。如果说今年早些时候那次「间歇式降智」与 OpenAI 重新设计 GPT-4 架构有关，前段光阴的「变懒」传闻就更搞笑了，有人测出只要告诉 GPT-4「现在是寒假」，它就会变得懒懒散散，仿佛进入了一种冬眠状态。大模型变懒、变笨，具体是指模型在新工作上的零样本功能变差。尽管上述原因听起来很有趣，但问题…
工程
- 7
- 0
机器之心1月2日
告别冷启动，LoRA成为大模型「氮气加速器」，提速高达300%
用 LoRA 打造更快的 AI 模型。AI 模型功能越来越强大，结构也越来越复杂，它们的速率也成为了衡量先进程度的标准之一。如果 AI 是一辆豪华跑车，那么 LoRA 微调技术就是让它加速的涡轮增压器。LoRA 强大到什么地步？它可以让模型的处理速率提升 300%。还记得 LCM-LoRA 的惊艳表现吗？其他模型的十步，它只需要一步就能达到相媲美的效果。这是怎么做到的？Raphael G 的博客详…
工程
- 24
- 0
机器之心1月2日
「花果山名场面」有了高清画质版，NTU提出视频超分框架Upscale-A-Video
分散模型在图像生成方面取得了明显的成功，但由于对输出保真度和工夫一致性的高要求，将这些模型应用于视频超分辨率仍然具有挑战性，特别是其固有的随机性使这变得复杂。来自南洋理工大学 S-Lab 的研讨团队提出了一种用于视频超分的文本领导（text-guided）潜伏分散框架 ——Upscale-A-Video。该框架通过两个关键机制确保工夫一致性：在全部，它将工夫层集成到 U-Net 和 VAE-Dec…
工程
- 15
- 0
机器之心1月2日
从模型、数据和框架三个视角出发，这里有份54页的高效大语言模型综述
大规模语言模型（LLMs）在很多关键任务中展现出显著的能力，比如自然语言理解、语言生成和复杂推理，并对社会产生深远的影响。然而，这些卓越的能力伴随着对庞大训练资源的需求（如下图左）和较长推理时延（如下图右）。因此，研究者们需要开发出有效的技能手段去解决其服从问题。同时，我们从图右还可以看出，近来较为火热的高效 LLMs，例如 Mistral-7B，在确保和 LLaMA1-33B 相近的准确度的情况…
工程
- 4
- 0
机器之心1月2日
深度网络数据编码新突破，上交大SPARK登上计较机体系结构顶会
随着深度神经网络（DNNs）模型在规模和复杂性上的迅速增长，传统的神经网络处理方法面临着严峻的挑战。现有的神经网络紧缩技术在处理参数规模大、精度要求高的神经网络模型时效率低下，无法满足现有应用的需求。数值量化是神经网络模型紧缩的一种有效手段。在模型推理过程中，低位宽（比特）数据的存取和计较可以大幅度节省保存空间、访存带宽与计较负载，从而降低推理延迟和能耗。当前，大多数量化技术的位宽在 8bit。更…
工程
- 15
- 0
机器之心23年12月29日
大模型玩星际争霸能秀到什么程度？有意识，有预判，中科院和汪军团队发布
全球最重要的电竞赛事之一 DreamHack 刚刚落幕，来自世界各地的星际争霸 II 顶尖选手们展开了激烈的较量。在这场紧张精彩的赛事中，人族选手 CLEM 凭借出色的战术和操作，击败了世界冠军 Dark，赢得了其生涯首个线下大赛冠军。在 AI 领域，DeepMind 的 AlphaStar 在 2019 年发表于《Nature》杂志，至今仍是 AI 研究的重要里程碑。AlphaStar 标志着 …
工程
- 3
- 0
机器之心23年12月29日
清华大学提出三维重修的新办法：O²-Recon，用2D分散模型补全残缺的3D物体
在计算机视觉中，物体级别的三维概况重修技术面临诸多挑战。与场景级别的重修技术不同，物体级别的三维重修需要为场景中的每个物体给出独立的三维表示，以支持细粒度的场景建模和理解。这对 AR/VR/MR 以及机器人相关的应用具有重要意义。许多现有办法行使三维生成模型的隐空间来完成物体级别的三维重修，这些办法用隐空间的编码向量来表示物体外形，并将重修任务建模成对物体位姿和外形编码的联合估计。得益于生成模型隐…
工程
- 7
- 0
机器之心23年12月29日
GPT-4完全破解版：用最新官方API微调，想干啥就干啥，网友怕了
灰盒访问，十几步消除 GPT-4 核心保护措施。只要使用最新的微调 API，GPT-4 就可以帮你干任何事，输入无害信息，或是训练数据中的个人隐私。本周二，一篇来自 FAR AI、麦吉尔大学等机构的研究引发了 AI 研究社区的广泛担忧。研究人员试图对 GPT-4 最新上线的几种 API 举行打击，想绕过安全机制，使其完成通常不被答应的各种任务，结果发觉所有 API 都能被攻破，被破解后的 GPT-…
工程
- 7
- 0
机器之心23年12月27日
Llama2推理RTX3090胜过4090，延迟吞吐量占优，但被A800远远甩开
这是为数不多深入比较使用消费级 GPU（RTX 3090、4090）和服务器显卡（A800）进行大模型预训练、微调和推理的论文。大型语言模型 (LLM) 在学界和业界都取得了巨大的进展。但训练和部署 LLM 非常昂贵，需要大量的算计资源和内存，因此研究人员开发了许多用于加速 LLM 预训练、微调和推理的开源框架和方法。然而，不同硬件和软件堆栈的运行时机能可能存在很大差异，这使得选择最佳配置变得困难…
工程
- 10
- 0
机器之心23年12月27日