AI资讯列表 - AI在线

清华北航博士生「强迫」Gemma-2 说中文！弱智吧、角色扮演、数学问题表现惊喜

【新智元导读】谷歌的 Gemma 2 刚刚发布，清华和北航的两名博士生就已经成功推出了指令微调版本，显著增强了 Gemma 2 9B / 27B 模型的中文通用对话、角色扮演、数学、工具使用等能力。众所周知，很多国外 LLM 一直存在非英语歧视问题，英语和其他语言在 LLM 中存在的性能差距有时可以用悬殊来形容。之前就有网友发现，GPT-4o 分词器语料库中，中文数据污染非常严重，赌博色情网站是一个也不少，严重影响了我们用中文和 AI 机器人好好聊天。最近发布的 Gemma 2 模型虽然既开源又强悍，但比较遗憾的是

快手可灵 AI 网页端上线：所有功能限时免费，单次视频生成时长增至 10 秒

感谢快手今日宣布可灵 AI 网页端正式上线，所有功能限时免费（需自行申请）。“文生视频”开放最长 10 秒生成能力，“图生视频”新增运镜控制、自定义首尾帧等功能。官方演示视频： IT之家实测，可灵 AI 网页端提供 AI 图片、AI 视频以及即将上线的视频编辑三大板块。AI 图片可以登录后直接使用，用户通过文字描述即可获得自动生成的图片，另外还可以添加参考图使用。AI 视频支持最长 3 分钟的高清视频生成，目前需要申请使用，审核结果将通过手机短信通知，想要体验的朋友需要耐心等待一下。在今日举行的世界人工智能大会上

AI 泡沫加剧，红杉资本：年产值 6000 亿美元才够支付硬件开支

红杉资本（Sequoia Capital）的分析师大卫・卡恩（David Cahn）发布报告，认为 AI 产业泡沫家居，年产值超过 6000 亿美元，才够支付数据中心、加速 GPU 卡等 AI 基础设施费用。英伟达 2023 年数据中心硬件收入达到 475 亿美元（其中大部分硬件是用于 AI 和 HPC 应用的计算 GPU）。此外 AWS、谷歌、Meta、微软等公司在 2023 年也在 AI 方面投入了大量资金，卡恩认为这些投资很难在短期内回本。卡恩只是粗略估算了 AI 运行成本，首先将英伟达的 run-rate

现场Live震撼！OmAgent框架强势开源！行业应用已全面开花

第一个提出自动驾驶并进行研发的公司是 Google，巧的是，它发布的 Transformer 模型也为今天的大模型发展奠定了基础。自动驾驶已经完成从概念到现实的华丽转变，彻底重塑了传统驾车方式，而大模型行业正在经历的，恰如自动驾驶技术发展的传奇征程 ——最顶尖的研发团队竞相投身其中、不断加速抢跑的技术产品创新，以及持续被推向极致的用户体验。在大模型赛道中，有一家企业始终以领先的身位，推动着行业边界向前拓展。为什么是联汇科技？当行业刚开始关注大模型，他们已经锚定多模态大模型，并高分取得了工信部大模型检测的 001 号

WAIC 最具技术想象力成果发布：新架构面壁小钢炮又一次验证并加速了面壁定律

2020 年，1750 亿参数规模的 GPT-3 问世。彼时，完整训练 1750 亿参数的模型需要 3.14E11（TFLOPS）的每秒浮点运算量。如果使用英伟达 80GB A100 GPU（16位浮点算力有 312 TFLOPS，但在分布式环境中很难达到峰值），按照每张显卡 1.5 刀每小时的租赁价格来算，则需要使用一千张 A100 、花费81.6 万刀、用 22 天才能完成整个训练过程。

现场削黄瓜、叠衣服，曾爆火的刮胡子机器人再进化，穹彻的具身智能大脑来了！

7 月 4 日，在 2024 世界人工智能大会上，具身智能公司穹彻智能 Noematrix （展位号：H1-A715）宣布推出穹彻具身大脑 Noematrix Brain，加速具身智能大模型落地。结合实体机器人，穹彻在完全开放的环境中向现场观众近距离展示了 “随手一扔就能叠的衣物折叠”（无限自由度物体操作，复杂物体理解堪比人类）和 “削完就能吃的黄瓜削皮”（不规则曲面操作，精细度甚至超越人类水平）等突破性技术，以及家庭地面整理等落地应用。通过这些实时演示和真实互动，穹彻具身大脑的通用性和鲁棒性得以全方位展现。穹彻

快手文生图大模型“可图”宣布开源，现已上线微信小程序和网页版

感谢正在举行的世界人工智能大会期间，快手高级副总裁、主站业务与社区科学负责人盖坤宣布，快手文生图大模型可图正式开源，希望共建更加繁荣的文生图大模型社区生态。IT之家注意到，快手“可图”大模型于今年 5 月对外开放，目前已经上线网页版和微信小程序，支持文生图和图生图两类功能，可用于 AI 创作图像以及 AI 形象定制。IT之家实测发现，在 AI 创作模块，用户只需输入描述文字并选择期望的画作风格，即可快速获取专属的 AI 画作。其中，画作风格可以选择默认、皮克斯、卡通盲盒、新海诚、动漫 3D、怀旧动漫、电子游戏、水彩

全球首个支持单任务千卡规模异构芯片混合训练平台，来自无问芯穹

“打开水龙头前，我们不需要知道水是从哪条河里来的。同理，未来我们用各种 AI 应用时，也不会知道它调用了哪些基座模型，用到了哪种加速卡的算力——这就是最好的 AI Native 基础设施。”7月4日，在2024年世界人工智能大会AI基础设施论坛上，无问芯穹联合创始人兼CEO夏立雪发布了无问芯穹大规模模型的异构分布式混合训练系统，千卡异构混合训练集群算力利用率最高达到了97.6%。同时，夏立雪宣布无问芯穹Infini-AI云平台已集成大模型异构千卡混训能力，是全球首个可进行单任务千卡规模异构芯片混合训练的平台，具备万

LLM用于时序预测真的不行，连推理能力都没用到

语言模型真的能用于时序预测吗？根据贝特里奇头条定律（任何以问号结尾的新闻标题，都能够用「不」来回答），答案应该是否定的。事实似乎也果然如此：强大如斯的 LLM 并不能很好地处理时序数据。时序，即时间序列，顾名思义，是指一组按照时间发生先后顺序进行排列的数据点序列。在很多领域，时序分析都很关键，包括疾病传播预测、零售分析、医疗和金融。在时序分析领域，近期不少研究者都在研究如何使用大型语言模型（LLM）来分类、预测和检测时间序列中的异常。这些论文假设擅长处理文本中顺序依赖关系的语言模型也能泛化用于时间序列数据中的顺序依

ACL 2024 | 引领学术视听研究，上海交大、清华大学、剑桥大学、上海AILAB联合发布学术视听数据集M3AV

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本文作者来自上海交通大学，清华大学，剑桥大学和上海人工智能实验室。一作陈哲为上海交通大学博一学生，师从上海交通大学人工智能学院王钰教授。通讯作者为王钰教授（主页：）与清华大学电子工程系张超

细数RAG的12个痛点，英伟达高级架构师亲授解决方案

检索增强式生成（RAG）是一种使用检索提升语言模型的技术。具体来说，就是在语言模型生成答案之前，先从广泛的文档数据库中检索相关信息，然后利用这些信息来引导生成过程。这种技术能极大提升内容的准确性和相关性，并能有效缓解幻觉问题，提高知识更新的速度，并增强内容生成的可追溯性。RAG 无疑是最激动人心的人工智能研究领域之一。有关 RAG 的更多详情请参阅机器之心专栏文章《专补大模型短板的RAG有哪些新进展？这篇综述讲明白了》。但 RAG 也并非完美，用户在使用时也常会遭遇一些「痛点」。近日，英伟达生成式AI高级解决方案架

消息称国内首款鸿蒙人形机器人正在蔚来、亨通等工厂检测验证

据《科创板日报》报道，国内首款搭载鸿蒙操作系统的人形机器人夸父正在蔚来、江苏亨通集团等工厂检测验证。据悉，“盘古大模型夸父人形机器人”将在工业和家庭两大场景同步推进应用。IT之家注意到，去年 12 月，乐聚机器人宣布推出机器人新品夸父，号称是“国内首款可跳跃、可适应多地形行走的开源鸿蒙人形机器人”。该机器人搭载深开鸿基于开源鸿蒙研发的 KaihongOS，采用全栈开源设计，运动控制器全面开源，可接入轨迹规划、反馈控制、状态估计等模块。今年 3 月，海尔机器人、乐聚机器人在 2024 年中国家电及消费电子博览会

第一波！2024年7月精选实用设计工具合集

大家好，这是 2024 年 7 月的第 1 波干货合集！这一期干货合集有精选了一波比较实用的设计工具和素材，有汇总最新 X 平台上设计灵感素材的网站，有帮助设计师进行快速视觉创作的免费在线矢量几何素材的网站，有创建 AI 工作流的在线服务 Rubbrhand，还有快捷键可视化生成网站，快速拆分网页视觉素材的网站，以及免费的 Notion 风格头像生成工具。当然，在此之前记得看看往期干货中有没有你感兴趣的素材：下面我们具体看看这一期的干货： 1、集中整合 X 平台上最新设计灵感的网站 Dribbble、 Beha

智谱发布并开源代码生成大模型 CodeGeeX 第四代，号称百亿以下规模性能最强

正在进行的 2024 世界人工智能大会（WAIC 2024）期间，智谱 AI 发布并开源代码生成大模型 CodeGeeX 的第四代产品 CodeGeeX4-ALL-9B，集代码补全和生成、代码问答、代码解释器、工具调用、联网搜索、项目级代码问答等所有能力于一体，号称是目前百亿（10B）参数以下性能最强、最全能的代码大模型。据介绍，该模型在 GLM4 的语言能力的基础上大幅增强了代码生成能力。CodeGeeX4-ALL-9B 单一模型，即可支持代码补全和生成、代码解释器、联网搜索、工具调用、仓库级长代码问答及生成等功

蚂蚁集团WAIC发布大模型密算平台，助力大模型破解数据供给挑战

大模型向下扎根深入行业，必须要破解高质量数据供给的挑战。7月5日，2024年世界人工智能大会进入第二天，作为数据要素领域的主要技术服务商，蚂蚁集团发布“隐语Cloud”大模型密算平台，通过软硬件结合的可信隐私计算技术，在大模型托管和大模型推理等环节实现数据密态流转，保护模型资产、数据安全和用户隐私。当下，高质量数据供给和安全流通，成为大模型进入垂直产业应用的首要挑战。其一，行业大模型要获得解决专业问题的能力，首先要经过数量充足、质量高的专业数据训练。然而，专业数据往往分散在不同的机构、企业中，并且由于价值大、保密要

面壁智能开源“小钢炮”MiniCPM-S AI 模型，主打高效低能耗

今天的 2024 世界人工智能大会（WAIC 2024）期间，面壁智能联合创始人、首席科学家刘知远宣布，开源主打高效低能耗的新一代“面壁小钢炮”MiniCPM-S 模型，同时发布助力开发者一键打造大模型 SuperApp 的全栈工具集 MobileCPM。据介绍，面壁 2024 年发布了具备 GPT-3 同等性能但参数仅为 24 亿的 MiniCPM-2.4B，知识密度提高了约 86 倍。面壁方面更称，这“并不是极限”—— 其持续优化 Scaling Law 使模型知识密度不断提升，可不断训练出计算更加高效、表现更

100天后，阶跃星辰交出了第二份答卷

今年 3 月，「借着」 2024 全球开发者先锋大会的场子，「国内最后一家通用大模型公司」——阶跃星辰发布了 Step 系列通用大模型，包括 Step-1 千亿参数语言大模型、Step-1V 千亿参数多模态大模型以及 Step-2 万亿参数 MoE 语言大模型预览版，正式进入大众视野，并成功跻身国内六大大模型独角兽行列。另外五家分别是月之暗面、智谱、MiniMax、百川、零一万物。当然，这一份成绩很是亮眼，一举将国内大模型卷到万亿参数赛道（预览版）。

百度李彦宏：开源模型是智商税，闭源模型更强大、推理成本更低

感谢IT之家从百度官方公众号获悉，在 2024 世界人工智能大会期间，百度创始人、董事长兼首席执行官李彦宏对开源闭源、智能体、超级应用、AGI 等业界热点问题，表达了自己的看法。李彦宏称：“我觉得，开源其实是一种智商税”，“当你理性地去想，大模型能够带来什么价值，以什么样的成本带来价值的时候，就会发现，你永远应该选择闭源模型。今天无论是 ChatGPT、还是文心一言等闭源模型，一定比开源模型更强大，推理成本更低。”谈及“AI 超级应用什么时候出现”时，李彦宏表示，“不是说一定在等待一个超级应用的出现”。他认为，在基