AI资讯列表 - AI在线

清华、小米、华为、 vivo、理想等多机构联合综述，首提个人LLM智能体、划分5级智能水平

嘿 Siri、你好小娜、小爱同学、小艺小艺、OK Google、小布小布……想必这些唤醒词中至少有一个曾被你的嘴发出并成功呼唤出了一个能给你导航、讲笑话、添加日程、设置闹钟、拨打电话的智能个人助理（IPA）。可以说 IPA 已经成了现代智能手机不可或缺的标配，近期的一篇综述论文更是认为「个人 LLM 智能体会成为 AI 时代个人计算的主要软件范式」。这篇个人 LLM 智能体综述论文来自国内多所高校和企业研究所，包括清华大学、小米、华为、欢太、vivo、云米、理想汽车、北京邮电大学、苏州大学。文中不仅梳理了个人 LL

英伟达新对话QA模型准确度超GPT-4，却遭吐槽：无权重代码意义不大

昨天，Meta、纽约大学的研究者用「自我奖励方法」，让大模型自己生成自己的微调数据，从而在 Llama 2 70B 的迭代微调后超越了 GPT-4。今天，英伟达的全新对话 QA 模型「ChatQA-70B」在不使用任何 GPT 模型数据的情况下，在 10 个对话 QA 数据集上的平均得分略胜于 GPT-4。一年多来，ChatGPT 及后续产品引发了生产和研究社区中构建问答（QA）模型的范式转变。尤其是在实际应用中，QA 模型在以下情况成为首选：用户能够以对话方式与 QA 模型进行交互，并可以轻松提出后续问题；通才模

Pika、Gen-2、ModelScope、SEINE……AI视频生成哪家强？这个框架一测便知

AI 视频生成，是最近最热门的领域之一。各个高校实验室、互联网巨头 AI Lab、创业公司纷纷加入了 AI 视频生成的赛道。Pika、Gen-2、Show-1、VideoCrafter、ModelScope、SEINE、LaVie、VideoLDM 等视频生成模型的发布，更是让人眼前一亮。v⁽ⁱ⁾大家肯定对以下几个问题感到好奇：到底哪个视频生成模型最牛？每个模型有什么特长？AI 视频生成领域目前还有哪些值得关注的问题待解决？为此，我们推出了 VBench，一个全面的「视频生成模型的评测框架」，来告诉你「视频模型哪

普林斯顿博士生高天宇指令微调进展速览：数据、算法和评估

自 ChatGPT 等大型语言模型推出以来，为了提升模型效果，各种指令微调方法陆续被提出。本文中，普林斯顿博士生、陈丹琦学生高天宇汇总了指令微调领域的进展，包括数据、算法和评估等。图源：（LLM）很强大，但要想真正帮助我们处理各种日常和工作任务，指令微调就必不可少了。近日，普林斯顿大学博士生高天宇在自己的博客上总结了指令微调研究方向的近期进展并介绍了其团队的一项近期研究成果。具有十亿级参数且使用万亿级 token 训练的大型语言模型（LLM）非常强大，直接就能用于解决大量不同的任务。但是，要用于真实世界应用以及作为

大模型自我奖励：Meta让Llama2自己给自己微调，性能超越了GPT-4

人工智能的反馈（AIF）要代替 RLHF 了？大模型领域中，微调是改进模型性能的重要一步。随着开源大模型逐渐变多，人们总结出了很多种微调方式，其中一些取得了很好的效果。最近，来自 Meta、纽约大学的研究者用「自我奖励方法」，让大模型自己生成自己的微调数据，给人带来了一点新的震撼。在新方法中，作者对 Llama 2 70B 进行了三个迭代的微调，生成的模型在 AlpacaEval 2.0 排行榜上优于一众现有重要大模型，包括 Claude 2、Gemini Pro 和 GPT-4。因此，论文刚刚发上 arXiv 几

奥特曼筹数十亿美元建全球晶圆厂网络，自造AI芯片

可以低成本代替英伟达？据彭博社消息，OpenAI CEO 萨姆・奥特曼（Sam Altman）近日再次为一家人工智能芯片企业筹集了数十亿美元的资金，希望建立一个范围覆盖全球的晶圆厂「企业网络（network of factories）」，并计划与未具名的顶级芯片制造商合作。报道称，奥特曼已与几家大型潜在投资者进行了谈判，希望能筹集到晶圆厂所需的巨额资金。在生成式 AI 快速爆发的时代，运行 AI 模型面临的主要困难是算力限制。在 ChatGPT 、 DALL-E 等生成式 AI 模型的背后，研究者们投入了大量的算力

被OpenAI、Mistral AI带火的MoE是怎么回事？一文贯通专家混合架构部署

本文将介绍 MoE 的构建模块、训练方法以及在使用它们进行推理时需要考虑的权衡因素。专家混合 (MoE) 是 LLM 中常用的一种技术，旨在提高其效率和准确性。这种方法的工作原理是将复杂的任务划分为更小、更易于管理的子任务，每个子任务都由专门的迷你模型或「专家」处理。早些时候，有人爆料 GPT-4 是采用了由 8 个专家模型组成的集成系统。近日，Mistral AI 发布的 Mixtral 8x7B 同样采用这种架构，实现了非常不错的性能（传送门：一条磁力链接席卷 AI 圈，87GB 种子直接开源 8x7B MoE

一张照片，为深度学习巨头们定制人像图片

主题驱动的文本到图像生成，通常需要在多张包含该主题（如人物、风格）的数据集上进行训练，这类方法中的代表工作包括 DreamBooth、Textual Inversion、LoRAs 等，但这类方案因为需要更新整个网络或较长时间的定制化训练，往往无法很有效地兼容社区已有的模型，并无法在真实场景中快速且低成本应用。而目前基于单张图片特征进行嵌入的方法（FaceStudio、PhotoMaker、IP-Adapter），要么需要对文生图模型的全参数训练或 PEFT 微调，影响原本模型的泛化性能，缺乏与社区预训练模型的兼容

高手总结！十五个 Midjourney V6 与 V5.1 镜头对比（附超多实用提示词）

最近人工智能新闻铺天盖地，属 OpenAI 耀眼，1 月 11 日推出 GPT 商店，由于登录的人数较多，网站一直登录不上，只能耐心等待... 本篇图片来自 @4rtofficial 相机镜头（部分）第二卷 PDF 文件。开头/文末已给出完整的 PDF 文件和福利。更多V6 介绍：一、CANON EF 50MM F/1.8 STM LENS 佳能（Canon）EF 50mm f/1.8 STM 镜头的型号。这是一款标准定焦镜头，适用于街头摄影、旅行摄影等。焦距：50mm，是一款标准定焦镜头，适用于多种拍摄场景。

百度实战案例复盘！如何设计问答式AI产品？

前言在传统营销中，客户在策划广告推广时需要层层搭建计划、手动添加素材、时刻关注效果，这个繁琐流程需要大量表单填写和反复跳转，重复的基建工作量很大，导致商业营销成为繁重的体力活，影响整体投放效率。借助文心大模型，我们推出了轻舸：一个成本优化、高效经营的智能营销平台。更多AI产品设计干货：一、探索方向轻舸平台核心想要解决的，是如何利用生成式 AI 的能力，让交互过程回归自然，让客户可以通过自然语言对话这种最本能的方式完整表达原生诉求，全面解决传统广告投放中曲折繁复、学习门槛高、分析操作耗时的痛点，降低营销门槛，

煮咖啡只是热身，人形机器人要去宝马工厂上班了

机器之能报道编辑：吴昕人形机器人何时能从研究项目过渡到商业产品？答案似乎是 2024 年。少数资金相对雄厚的公司将在商业试点项目中部署自己的机器人，以确定它们是否真的准备好为人类工作。看了十小时视频、透过端到端的系统学会如何做咖啡后， Figure 01 又要去工厂打工了。今天，总部位于加州的人形机器人初创公司Figure 宣布与宝马签署一项商业协议，将在宝马的美国制造工厂部署 Figure 01。这也是 Figure 自 2022 年成立以来签署的第一个商业协议。公司的人形机器人会被部署到位于南卡罗来纳州的斯帕坦

不担心字节跳动、腾讯等大厂竞争，英矽智能CEO Alex Zhavoronkov谈AI药物发现

编译 | 紫罗人工智能在生物制药领域的应用越来越广泛，其应用超出了发现设备的范畴。2024 年 1 月 8 日-11 日，在旧金山举行的第 42 届摩根大通医疗保健大会（ J.P. Morgan Healthcare Conference）上，这是一个热点问题。在会议刚刚开始之际，礼来公司和诺华公司甚至宣布与 Alphabet 的 Isomorphic Labs 达成数百万美元的发现协议。在人工智能的热潮中，外媒与英矽智能（Insilico Medicine）首席执行官 Alex Zhavoronkov 进行了座谈

如何利用革命性的蛋白质结构工具来发现药物？AlphaFold 发现了数千种可能的致幻剂

编辑 | XAlphaFold2 (AF2)和 RosettaFold 极大地扩展了可用于基于结构的配体发现的结构的数量，尽管它们在这一目标中的直接作用提出了质疑。1 月 18 日，Nature 发表题为《AlphaFold found thousands of possible psychedelics. Will its predictions help drug discovery?》的新闻报道。文章地址： AlphaFold 识别出数十万种潜在的新型迷幻（psychedelic）分子，这可能有助于开发新型抗

国内首个网络安全大模型评测平台SecBench发布

2024年1月19日，业界首个网络安全大模型评测平台SecBench正式发布，该平台由腾讯朱雀实验室和腾讯安全科恩实验室，联合腾讯混元大模型、清华大学江勇教授/夏树涛教授团队、香港理工大学罗夏朴教授研究团队、上海人工智能实验室OpenCompass团队共同建设，主要解决开源大模型在网络安全应用中安全能力的评估难题，旨在为大模型在安全领域的落地应用选择基座模型提供参考，加速大模型落地进程。同时，通过建设安全大模型评测基准，为安全大模型研发提供公平、公正、客观、全面的评测能力，推动安全大模型建设。行业首发，弥补大模型在

扎克伯格宣战AGI：Llama 3训练中，今年要囤35万块H100，砸近百亿美元

「事情越来越明确了，各大科技公司的下一代服务会构建在通用 AI 之上。」为了通用人工智能（AGI）的宏大目标，扎克伯格正在给 Meta 的 AI 研究部门进行大幅度的改组。本周四，Meta 首席执行官马克・扎克伯格宣布，他的公司正在致力于为人工智能助手构建「通用智能」并「负责任地开源」，Meta 正在将其两个主要研究小组（FAIR 和 GenAI）合并在一起以实现这一目标。为此，Meta 将准备屯集业内最为强大的 AI 算力。扎克伯格表示，公司将购买超过 35 万块英伟达 H100 GPU—— 这是目前业界构建生

视觉Mamba来了：速度提升2.8倍，内存能省87%

Vision Mamba 不是个普通模型。号称「全面包围 Transformer」的 Mamba，推出不到两个月就有了高性能的视觉版。本周四，来自华中科技大学、地平线、智源人工智能研究院等机构的研究者提出了 Vision Mamba（Vim）。论文地址：：：Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model效果如何呢？在 ImageNet 分类任务、COCO 对象检测任务和 ADE20

一键实景转动画，清华系初创公司全球首发4D骨骼动画框架，还能生成个性化角色

前几日，苹果宣布首款虚拟头显设备 Vision Pro 将于 2 月 2 日正式发售，XR 设备作为下一代终端预计将迎来快速发展。未来随着虚拟显示设备的普及，数字交互将从平面走向立体，立体模型、立体动画将成为未来主流的内容形态，虚实融合下的多维沉浸式交互也将成为潮流。但从数据规模看，现阶段内容产业的数据积累仍以 2D 图像、平面视频为主，3D 模型、4D 动画等数据基础较为薄弱。其中，4D 动画是在传统 3D 模型的基础上引入时间序列，即随时间变化的 3D 模型，可以呈现出动态立体效果，在游戏动画、电影特效、虚拟现

吞吐量提升5倍，联合设计后端系统和前端语言的LLM接口来了

大型语言模型 (LLM) 越来越多地用于需要多个链式生成调用、高级 prompt 技术、控制流以及与外部环境交互的复杂任务。然而，用于编程和执行这些应用程序的现有高效系统存在着明显的缺陷。现在，开源社区的研究者们面向 LLM 提出了一种结构化生成语言（Structured Generation Language）——SGLang。SGLang 能够增强与 LLM 的交互，通过联合设计后端运行时系统和前端语言，使 LLM 更快、更可控。机器学习领域知名学者、CMU 助理教授陈天奇还转发了这项研究。总的来说，SGLan