AI资讯列表 - AI在线

比肩GPT-4，商汤日日新大幅升级4.0，多模态能力领先一步

大模型的未来时刻，已经来了？速度太快了。商汤一下子把多模态大模型的发展进度条，快进到了落地阶段。商汤的大模型体系「日日新 SenseNova」今天刚刚发布了 4.0 版，不论语言能力还是文生图能力都有全面升级，还自带低门槛的落地工具。新一代 SenseNova 不仅在大语言模型、文生图模型等方面进行了重大升级，部分垂直领域能力超越 GPT-4，还发布了全新多模态大模型，并面向数据分析、医疗等场景提供了全新版本，让大模型通用能力适配到了更多领域。API 申请网址：，商汤还推出了日日新・商量大语言模型 Function

年龄两岁，教龄一年半：婴儿AI训练师登上Science

只用 61 个小时的数据：人们终于证明了，利用当代 AI 工具，实现「真正的语言学习」是可行的。在公开采访中，图灵奖得主 Yann LeCun 多次提到，现在的 AI 模型和人类婴儿相比，学习效率实在是太低了。那么，如果让一个 AI 模型去学习婴儿头戴摄像头拍到的东西，它能学到什么？最近，Science 杂志上的一篇论文进行了初步尝试。研究发现，即使数据有限，AI 模型也能从 10 到 100 个例子中学到单词 - 视觉所指对象之间的映射，而且能够零样本地泛化到新的视觉数据集，并实现多模态对齐。这说明，利用当今的人

大模型也有小偷？为保护你的参数，上交大给大模型制作「人类可读指纹」

将不同的基模型象征为不同品种的狗，其中相同的「狗形指纹」表明它们源自同一个基模型。大模型的预训练需要耗费巨量的计算资源和数据，因而预训练模型的参数也正成为各大机构重点保护的核心竞争力和资产。然而，不同于传统的软件知识产权保护可以通过比对源代码来确认是否存在代码盗用，对预训练模型参数盗用的判断存在以下两方面的新问题：1）预训练模型的参数，尤其是千亿级别模型的参数，通常不会开源。2）更重要的是，预训练模型的输出和参数都会随着 SFT、RLHF、continue pretraining 等下游处理步骤而变化。这使得无

2B参数性能超Mistral-7B：面壁智能多模态端侧模型开源

千元机也能本地运行。在大模型不断向着大体量方向前进的同时，最近一段时间，人们在优化和部署方面也取得了成果。2 月 1 日，面壁智能联合清华 NLP 实验室在北京正式发布了旗舰端侧大模型「面壁 MiniCPM」。新一代大模型被称为「性能小钢炮」，直接拥抱终端部署，同时也具有同量级最强的多模态能力。面壁智能本次提出的 MiniCPM 2B 参数量仅有 20 亿，使用 1T token 的精选数据训练。这是一个参数量上与 2018 年 BERT 同级的模型，面壁智能在其之上实现了极致的性能优化与成本控制，让该模型可以「越

代谢数据集上四项指标达94%~98%，西南交大团队开发多尺度图神经网络框架，助力药物研发

作者 | 刘悦睿编辑 | 红菜苔药物研发过程中，了解分子与代谢路径之间的关系，对于合成新分子和优化药物代谢机制至关重要。西南交通大学杨燕/江永全团队开发了一种新型的多尺度图神经网络框架MSGNN，来将化合物与代谢路径联系起来。它包括特征编码器、子图编码器和全局特征处理器三部分，分别学习了原子特征、子结构特征和额外的全局分子特征，这三个尺度的特征可赋予模型更全面的信息。该框架在 KEGG 代谢路径数据集上的表现优于现有方法，Accuracy、Precision、Recall、F1分别达到98.17%、94.18%、9

中国初创Xreal获新融资，以699 美元提供Apple Vision Pro风格的XR体验

机器之能报道编辑：SIA毫无疑问，苹果将在 2024 年成为空间计算热议的中心，中国厂商又会带给大家什么样的惊喜？据彭博社报道，中国增强现实（AR）设备制造商 Xreal 正在以超过 10 亿美元的估值筹集新资金，该公司已在一轮保密战略融资中筹集了 6000 万美元，以扩大其可穿戴 AR 设备的消费产品线。Xreal 在今年消费电子展上推出了最新产品 Xreal Air 2 Ultra —— XREAL Air 2 系列中的顶级型号（该系列其他型号包括 XREAL Air 2 和 XREAL Air 2 Pro），

个性经济时代，MiniMax 语音大模型如何 To C？

大约一个月前，距离 GPT Store 上线还有两周，一位名为 Kyle Tryon 的国外开发者在个人博客上分享了其基于 ChatGPT Plus 开发的三个 Agent（又称“GPTs”），其中一个 Agent 是关于美国费城旅游出行的个人指南“PhillyGPT”，它能访问当地 SEPTA 公共交通 API，为个人提供费城当地的实时天气、旅游资讯、文艺演出活动、出行路线、公交车站与地标数据、预计抵达时间等等。具体可访问 PhillyGPT 链接：，实际是人们对于 GPT 时代 C 端个性消费产品的真正想象。无独有偶，1 月 11 日 OpenAI 正式上线 GPT Store 后，公布 300 万个 GPTs 之余，也将与用户日常消费活动息息相关的徒步路线指南“AllTrails”放在推荐榜单上。

Midjourney Niji 6 重磅更新！风格全面升级，支持文本生成！

大家好我是花生~ 在 V6 模型推出 1 个多月后，Midjourney 终于在昨天上线了 Niji 6 模型，其出图质量与 Niji 5 相比有了很大的提升，风格感也变得更强了，今天我们一起来看看 Niji 6 的特性以及相关使用技巧~ 上期回顾：Niji 本身就是一个“动漫风”模型，可以生成高质量的二次元图像以及插画，这点大家在使用过程中肯定都有感受到。而在生成非动漫主题的图像时，Niji 模型也偏向于将其处理成插画风，并赋予图像一种鲜明的风格，或者是朦胧梦幻，或者是绚烂多彩，让原本偏写实的图像更具美感。下图

品牌设计实战！ AI 产品 Perplexity 是如何重塑品牌的？

编者按：一个 AI 的品牌要如何进行视觉和体验设计？知名设计机构 Smith & Diction 接到来自新锐 AI 平台 Perplexity 的品牌设计订单，看看他们是怎么落地设计的。当来自 Perplexity 的 Henry 和 Phi 找上我们的时候，直言「我们希望让我们的品牌感觉上，像斯堪的纳维亚的地铁系统一样，干净清爽，周密成熟，但是以一种润物细无声的方式来呈现」。他们不想给人太过浮华、现代或年轻化的印象。结合产品的功能气质，他们希望产品看起来像承载事实的容器。通常，这样的风格不是我们 S&D 的

蚂蚁集团NextEvo全面开源AI Infra技术，可实现大模型训练“自动驾驶”

近日，蚂蚁集团AI创新研发部门NextEvo全面开源AI Infra技术，可帮助大模型千卡训练有效时间占比超过95%，能实现训练时“自动驾驶”，这推动了AI研发效率。图：蚂蚁集团的自动化分布式深度学习系统DLRover现已全面开源该技术框架名为DLRover，目标在于大规模分布式训练的智能化。目前很多企业的训练作业都是跑在混合部署的集群中，运行环境复杂多变，不管多么“崎岖的地形”，DLRover都可以“轻松行驶”。2023 年大模型技术的发展，带来了工程实践的爆发，如何管理数据，提高训练和推理效率，最大化利用现有算

“千帆杯”第一期赛题公布！一起探索 AI 原生应用的时间魔法

提到“春节”，你首先会想到什么？热气腾腾的年夜饭，大门前福气满满的春联，摩肩接踵的车站，还是一眼看不到排队尽头的游玩景点？不知从什么时候起，各大主题乐园不再只是为孩子打造的童话世界，也俨然成为了成年人的理想国。无数的成年人换上霍格沃茨制服，挑选自己的魔杖，逃离“麻瓜世界”，前往环球影城；许多成年的迪士尼粉丝，也蜂拥至上海迪士尼乐园，在全球首个“疯狂动物城主题园区”亦或是香港迪士尼乐园的全球首个“冰雪奇缘主题园区”，寻找自己的快乐。春节将至，热门主题乐园也会成为大家过节的经典选项，巨大的客流量，也意味着排队，将为主题

亚马逊部署超过750，000+ 台机器人，工业创新基金投资生成式AI

机器之能报道编辑：吴昕亚马逊工业创新基金有了新趋势。新负责人表示进一步支持生成式 AI，他们甚至投资了一家未公开的生成式 AI 初创公司，称该公司的技术可能会对机器人技术产生重大影响。2013 年，亚马逊只有 1000 台机器人。十年过去了，今天的亚马逊已经部署了超过 750，000 个机器人来解锁 AI 机会。他们正在测试各种先进的机器人技术，不仅关乎效率，更是在重塑人类和机器的协作方式。亚马逊已经部署了超过 750，000 个机器人来解锁 AI 机会2022 年，亚马逊设立一项 10 亿美元的工业创新基金，

小红书开源「InstantID」效果炸裂，被Yann LeCun点赞，迅速蹿上Github热榜

只需一张照片，整个过程无需训练 LoRA 模型，多风格 AI 写真即刻呈现！最近，有一群来自小红书的 95 后神秘团队，自称 InstantX，搞了个大动作 —— 开源「InstantID」项目。InstantID 凭借着高质量的图像生成能力，在开源界掀起了一股热潮：不仅获得了众多技术大佬的点赞，更是在 GitHub 热榜上迅速飙升，成为焦点。这个「出片神器」，让用户只需上传一张照片，就能轻松定制出多种风格的 AI 写真。对，你没看错。如图左侧所示，与之前爆火的妙鸭相机至少需要上传 20 张照片不同的是，Insta

刚刚，字节版GPTs「扣子」上线了

大玩家终于正式下场。在持续一年的大模型热潮之后，「智能体」成为了科技公司们新的押注方向之一。近日，字节跳动正式推出「Coze 扣子」AI Bot 开发平台。任何用户都可以快速、低门槛地搭建自己的 Chatbot，且平台支持用户将其一键发布到飞书、微信公众号、豆包等渠道。链接：，除了可以创建自己的 Chatbot，Coze 官方还提供了 Bots 商店和插件。如以下按照热度精选的 Bots，包含娱乐、创意、学习等各类产品，甚至我们注意到还有「马歇尔音箱粉丝」这个选项。机器之心挑选了一些已有的 Bot 试了试，看看上手

赶超Gemini Pro，提升推理、OCR能力的LLaVA-1.6太强了

去年 4 月，威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学研究者共同发布了 LLaVA（Large Language and Vision Assistant）。尽管 LLaVA 是用一个小的多模态指令数据集训练的，却在一些样本上展示了与 GPT-4 非常相似的推理结果。10 月，LLaVA-1.5 重磅发布，通过对原始 LLaVA 的简单修改，在 11 个基准上刷新了 SOTA。现在，研究团队宣布推出 LLaVA-1.6，主要改进了模型在推理、OCR 和世界知识方面的性能。LLaVA-1.6 甚至在多项基准测

无注意力大模型Eagle7B：基于RWKV，推理成本降低10-100 倍

Eagle 7B 可将推理成本降低 10-100 倍。在 AI 赛道中，与动辄上千亿参数的模型相比，最近，小模型开始受到大家的青睐。比如法国 AI 初创公司发布的 Mistral-7B 模型，其在每个基准测试中，都优于 Llama 2 13B，并且在代码、数学和推理方面也优于 LLaMA 1 34B。与大模型相比，小模型具有很多优点，比如对算力的要求低、可在端侧运行等。近日，又有一个新的语言模型出现了，即 7.52B 参数 Eagle 7B，来自开源非盈利组织 RWKV，其具有以下特点：基于 RWKV-v5 架构构

最强开源多模态生成模型MM-Interleaved：首创特征同步器

过去几个月中，随着 GPT-4V、DALL-E 3、Gemini 等重磅工作的相继推出，「AGI 的下一步」—— 多模态生成大模型迅速成为全球学者瞩目的焦点。想象一下，AI 不仅会聊天，还长了「眼睛」，能看懂图片，甚至还会通过画画来表达自己！这意味着，你可以和它们谈天说地，分享图片或视频，它们也同样能用图文并茂的方式回应你。最近，上海人工智能实验室联合香港中文大学多媒体实验室（MMLab）、清华大学、商汤科技、多伦多大学等多家高校、机构，共同发布了一个多才多艺的最强开源多模态生成模型 MM-Interleaved，

登 Nature 子刊，滑铁卢大学团队评论「量子计算机+大语言模型」当下与未来

编辑 | X模拟当今量子计算设备的一个关键挑战，是学习和编码量子比特之间发生的复杂关联的能力。基于机器学习语言模型的新兴技术已经显示出学习量子态的独特能力。近日，加拿大滑铁卢大学的研究人员在《Nature Computational Science》发表题为《Language models for quantum simulation》的 Perspective 文章，强调了语言模型在构建量子计算机方面所做出的贡献，并讨论了它们在量子优势竞争中的未来角色。论文链接：，最近许多设备都声称具有量子优势。经典计算能力的