AI资讯列表 - AI在线

不是大模型全局微调不起，只是LoRA更有性价比，教程已经准备好了

这是作者 Sebastian Raschka 经过数百次实验得出的经验，值得一读。增加数据量和模型的参数量是公认的提升神经网络性能最直接的方法。目前主流的大模型的参数量已扩展至千亿级别，「大模型」越来越大的趋势还将愈演愈烈。这种趋势带来了多方面的算力挑战。想要微调参数量达千亿级别的大语言模型，不仅训练时间长，还需占用大量高性能的内存资源。为了让大模型微调的成本「打下来」，微软的研究人员开发了低秩自适应（LoRA）技术。LoRA 的精妙之处在于，它相当于在原有大模型的基础上增加了一个可拆卸的插件，模型主体保持不变。L

NeurIPS 2023｜北京大学提出类别级6D物体位姿估计新范式，取得新SOTA

类别级 6D 物体位姿估计是一个基础且重要的问题，在机器人、虚拟现实和增强现实等领域应用广泛。本文中，来自北京大学的研究者提出了一种类别级 6D 物体位姿估计新范式，取得了新的 SOTA 结果，论文已被机器学习领域顶会 NeurIPS 2023 接收。6D 物体位姿估计作为计算机视觉领域的一个重要任务，在机器人、虚拟现实和增强现实等领域有众多应用。尽管实例级别的物体位姿估计已经取得了显著进展，但它需要事先了解物体的特性，因此无法轻松适用于新的物体，这限制了其实际应用。为了解决这一问题，近年来，越来越多的研究工作集中

全球首个开源多模态医疗基础模型：人工打分平均超越GPT-4V、支持2D/3D放射影像

本文中，上海交大 & 上海 AI Lab 发布 Radiology Foundation Model (RadFM)，开源 14B 多模态医疗基础模型，首次支持 2D/3D 放射影像输入。论文链接：： Dataset: Dataset: Model: 等一系列大型基础模型的迅猛发展突破了人工智能技术的边界，为众多垂直领域带来了新的发展机遇和挑战。在医学领域，构建强大而全面的基础模型，可以为临床医疗任务提供更为智能、高效的解决方案，为医护人员和患者创造更为优质的医疗体验，开启医学领域技术创新的新篇章。然而，

OpenAI同意从一家初创公司购买5100万美元的类脑芯片，CEO Altman是它的股东

机器之能报道编辑：大盘鸡、吴昕据连线杂志报道，OpenAI 签署过一份意向书，斥资 5100 万美元购买初创公司 Rain 开发的类脑芯片。OpenAI CEO Sam Altman 此前曾对这家初创芯片公司进行过个人投资，拥有股份。Rain 的总部距离 OpenAI 旧金山总部不到一英里，正在开发一种名为神经形态处理单元 (NPU) 的芯片，拥有不同的芯片架构——结构和功能上高度模拟人脑计算原理。公司目前拥有约 40 名员工，其中包括人工智能算法开发和传统芯片设计方面的专家。在此之前，人们最为熟知的类脑芯片可能

将合成生物学与AI相结合，以无细胞方式寻找新抗生素

编辑 | 萝卜皮生物活性肽是健康和医学的关键分子。深度学习为生物活性肽的发现和设计带来了巨大的希望。然而，需要合适的实验方法来以高通量和低成本验证候选物。马克斯·普朗克陆地微生物研究所（Max Planck Institute for Terrestrial Microbiology）的研究团队建立了无细胞蛋白质合成（CFPS）管线，用于直接从 DNA 模板快速、廉价地生产抗菌肽 (AMP)。为了验证该平台，研究人员使用深度学习从头设计了数千个 AMP。使用计算方法，研究人员对使用 CFPS 管线生成和筛选的 50

手机上0.2秒出图、当前速度之最，谷歌打造超快扩散模型MobileDiffusion

在手机等移动端侧运行 Stable Diffusion 等文生图生成式 AI 大模型已经成为业界追逐的热点之一，其中生成速度是主要的制约因素。近日，来自谷歌的一篇论文「MobileDiffusion: Subsecond Text-to-Image Generation on Mobile Devices」，提出了手机端最快文生图，在 iPhone 15 Pro 上只要 0.2 秒。论文出自 UFOGen 同一团队，在打造超小扩散模型的同时，采用当前大火的 Diffusion GAN 技术路线做采样加速。论文地址

任意文本、视觉、音频混合生成，多模态有了强大的基础引擎CoDi-2

研究者表示，CoDi-2 标志着在开发全面的多模态基础模型领域取得了重大突破。今年 5 月，北卡罗来纳大学教堂山分校、微软提出一种可组合扩散（Composable Diffusion，简称 CoDi）模型，让一种模型统一多种模态成为可能。CoDi 不仅支持从单模态到单模态的生成，还能接收多个条件输入以及多模态联合生成。近日，UC 伯克利、微软 Azure AI、Zoom、北卡罗来纳大学教堂山分校等多个机构的研究者将 CoDi 升级到了 CoDi-2。论文地址：：

驶向未来，首个多视图预测+规划自动驾驶世界模型来了

Drive-WM 模型通过多视图世界模型，能够想象不同规划路线的未来情景，并根据视觉预测获取相应的奖惩反馈，从而优化当前的路线选择，为自动驾驶系统的安全提供了保障。近期，世界模型的概念引发了火热浪潮，而自动驾驶领域岂能隔岸观「火」。来自中科院自动化所的团队，首次提出了一种名为 Drive-WM 的全新多视图世界模型，旨在增强端到端自动驾驶规划的安全性。网站：： CVPR2023 自动驾驶的研讨会上，特斯拉和 Wayve 两大科技巨头狂秀黑科技，一种名为「生成式世界模型」的全新概念随之火爆自动驾驶领域。Wayve 更

Meta教你5步学会用Llama2：我见过最简单的大模型教学

本文是 Meta 官网推出的 Llama2 使用教学博客，简单 5 步教会你如何使用 Llama2。在这篇博客中，Meta 探讨了使用 Llama 2 的五个步骤，以便使用者在自己的项目中充分利用 Llama 2 的优势。同时详细介绍 Llama 2 的关键概念、设置方法、可用资源，并提供一步步设置和运行 Llama 2 的流程。Meta 开源的 Llama 2 包括模型权重和初始代码，参数范围从 7B 到 70B。Llama 2 的训练数据比 Llama 多了 40%，上下文长度也多一倍，并且 Llama 2 在

全网都在模仿的「科目三」，梅西、钢铁侠、二次元小姐姐马上拿下

来自阿里的研究团队提出了一种名为 Animate Anyone 的方法，只需一张人物照片，再配合骨骼动画引导，就能生成动画视频。最近一段时间，你可能或多或少的听到过「科目三」，摇花手、半崴不崴的脚，配合着节奏鲜明的音乐，这一舞蹈动作遭全网模仿。如果相似的舞蹈，让 AI 生成会怎样？就像下图所展示的，不管是现代人、还是纸片人，都做着整齐划一的动作。你可能猜不到的是，这是根据一张图片生成的舞蹈视频。人物动作难度加大，生成的视频也非常丝滑（最右边）：让梅西、钢铁侠动起来，也不在话下：还有各种动漫小姐姐。上述效果是如何做到

一张照片生成视频，张嘴、点头、喜怒哀乐，都可以打字控制

视频 PS 可以灵活到什么程度？最近，微软的一项研究提供了答案。在这项研究中，你只要给 AI 一张照片，它就能生成照片中人物的视频，而且人物的表情、动作都是可以通过文字进行控制的。比如，如果你给的指令是「张嘴」，视频中的人物就会真的张开嘴。如果你给的指令是「伤心」，她就会做出伤心的表情和头部动作。当给出指令「惊讶」，虚拟人物的抬头纹都挤到一起了。此外，你还可以给定一段语音，让虚拟人物的嘴型、动作都和语音对上。或者给定一段真人视频让虚拟人物去模仿。如果你对虚拟人物动作有更多的自定义编辑需求，比如让他们点头、转头或歪头

用GPT-4V和人类演示训练机器人：眼睛学会了，手也能跟上

微软提出使用人手运动视频直接教机器人完成任务的新方法，这种方法使用 GPT-4V 分解视频中的动作，结合大语言模型生成对应的行为表述并作为任务列表，训练机器人只需要动动手就能完成。如何将语言 / 视觉输入转换为机器人动作？训练自定义模型的方法已经过时，基于最近大语言模型（LLM）和视觉语言模型（VLM）的技术进展，通过 prompt 工程使用 ChatGPT 或 GPT-4 等通用模型才是时下热门的方法。这种方法绕过了海量数据的收集和对模型的训练过程，展示出了强大的灵活性，而且对不同机器人硬件更具适应性，并增强了系

专注图表理解，腾讯、南洋理工等开源图表羊驼大模型ChartLlama

在图像理解领域，多模态大模型已经充分展示了其卓越的性能。然而，对于工作中经常需要处理的图表理解与生成任务，现有的多模态模型仍有进步的空间。尽管当前图表理解领域中的最先进模型在简单测试集上表现出色，但由于缺乏语言理解和输出能力，它们无法胜任更为复杂的问答任务。另一方面，基于大语言模型训练的多模态大模型的表现也不尽如人意，主要是由于它们缺乏针对图表的训练样本。这些问题严重制约了多模态模型在图表理解与生成任务上持续进步。近期，腾讯联合南洋理工大学、东南大学提出了 ChartLlama。研究团队创建了一个高质量图表数据集，

微软教小模型推理进阶版：Orca 2性能媲美10倍参数模型，已开源

站在巨人的肩膀上会让你看的更远，而通过让大规模语言模型来「教」较小规模的语言模型进行推理，也会是事半功倍的效果。如你我所见，像 GPT-4、PaLM 等前沿语言模型已经展现了出色的推理能力，例如回答复杂问题、生成解释，甚至解决需要多步推理的问题，这些能力曾被认为是 AI 无法达到的。这样的能力在较小的语言模型中并不明显，因此现在的挑战就是如何利用对大型语言模型不断增长的知识，进而提升较小模型的能力。之前微软研究院推出了 Orca，它是拥有 130 亿参数的语言模型，通过模仿更强大 LLM 的逐步推理过程，展现了强大

智加科技获全国首张重卡无人驾驶开放道路测试牌照

2023年12月1日，智加科技获得苏州市智能网联汽车无人化测试牌照。该牌照也是江苏省及国内首张无人重卡开放高速公路全路段全场景全息路网（S17苏台高速）道路测试牌照。该重卡无人驾驶开放道路测试牌照，经由苏州市智能网联汽车联席小组及产业专家评审决议颁出，企业可以在指定路段展开无人重卡的自动驾驶测试。此牌照的发放是苏州市大力推进智能车联网产业的重要举措，旨在为未来无人重卡的商业化运营提供有力支撑。此前，智加科技无人重卡已在中国首条满足车路协同式自动驾驶等级的全息感知智慧高速公路苏台高速S17上完成了全球首次示范运营。搭

国科大&首师大合作综述，「白盒」张量网络：增强量子机器学习的可解释性和效率

编辑 | 紫罗深度机器学习在 AI 的各个领域取得了显著的成功，但同时实现高可解释性和高效率仍然是一个严峻的挑战。张量网络（Tensor Network，TN）是一种源自量子力学的成熟数学工具，在开发高效的「白盒」机器学习方案方面显示出了其独特的优势。近日，首都师范大学的冉仕举和中国科学院大学的苏刚从量子力学中汲取灵感，综述了一种基于 TN 的创新方法，为协调深度机器学习的可解释性和效率这一长期挑战提供了一个有前景的解决方案。一方面，TN ML 的可解释性可以通过基于量子信息和多体物理的坚实理论基础来实现。另一方面

不服、愤怒....Sam Altman首次回应重返岗位经过，完善OpenAI治理结构需要时间

机器之能报道编辑：Sia在一场持续了五天的董事会政变之后，Sam Altman 昨日正式重返 OpenAI 首席执行官一职。该公司最大的投资者微软也在董事会中占有一个无投票权的席位。除了一封致全体员工的公开信，重返岗位的 Altman 还为一度因潜在利益冲突而遭外界猜疑但仍留任董事会的 Adam D'Angelo（也是 Quora CEO）进行了澄清，信任他会恪职尽责，「Quora 是 OpenAI 的大客户，董事会中有客户代表很有帮助。」甚至在社交平台上与之互动。同时，Ilya 在 OpenAI 的存在方式仍然不

IDC MarketScape2023年分布式数据库报告：OceanBase位列“领导者”类别，产品能力领先

12月1日，全球领先的IT市场研究和咨询公司IDC发布《IDC MarketScape：中国分布式关系型数据库2023年厂商评估》（Document number:# CHC50734323）。报告认为，头部厂商的优势正在扩大，OceanBase（蚂蚁集团旗下的自研原生分布式数据库）位列“领导者”类别。作为一款原生分布式数据库，OceanBase在产品能力上表现突出，处于领先地位。IDC MarketScape厂商评估模型旨在为特定市场中信息和通信技术（ICT）厂商的竞争力提供一个概述。研究方法采用严格的定性和定量