AI资讯列表 - AI在线

上海街头偶遇未来科技！机器狗和外骨骼机器人都来为2024 GDC造势

2024全球开发者先锋大会（2024 GDC）将于3月23日-24日在上海举行。在这场科技嘉年华即将拉开帷幕之际，昨日上海西岸一场别开生面的活动吸引了众多市民的目光：穿戴外骨骼机器人，牵着机器狗漫步上海街头。这一幕犹如未来科技走进现实，点燃了上海这座城市的科技热情！是的，除了敲代码，我们还可以玩转科技新宠！01 外骨骼机器人外骨骼机器人作为科幻元素的“扛把子”，是一种可以增强人体肌肉力量和精确控制能力的装置，通过硬件传感器收集人体信号，实时监测人机交互力矩，识别用户意图，并作出步态响应，特别适合重复劳作、精细操作或

「天工2.0」MoE大模型发布——「天工AI」国内首个MoE架构免费向C端用户开放的大语言模型应用全新问世

北京时间2月6日，昆仑万维正式发布新版MoE大语言模型「天工2.0」与新版「天工AI智能助手」APP，这是国内首个搭载MoE架构并面向全体C端用户免费开放的千亿级参数大语言模型AI应用。用户即日起可在各手机应用市场下载「天工AI智能助手」APP，体验昆仑万维「天工2.0」MoE大模型的卓越性能。「天工2.0」是昆仑万维自去年4月发布双千亿级大语言模型「天工」以来的最大规模版本升级，其采用业内顶尖的MoE专家混合模型架构，应对复杂任务能力更强、模型响应速度更快、训练及推理效率更高、可扩展性更强。此次更新全面升级了AI

第一波！2024年2月精选实用设计工具合集

大家好，这是 2024 年 2 月的第1波干货合集！这一期干货合集开头是 3 个素质过硬的灵感网站，一个是关于包装，另外两个分别偏向网页领域的视觉设计和动态设计，都是相当值得收藏的网站。之后还有两款 AI 相关的工具，以及一个 3D 插画素材。当然，在此之前记得看看往期干货中有没有你感兴趣的素材：下面我们具体看看这一期的干货： 1、包装设计领域顶级在线杂志，那么这个名为 Dieline 的网站一定要收藏一手，这个2007 年创建的网站如今已经是消费产品品牌和包装领域的权威媒体。网站最初是分享创新设计和优秀设计作

可多模态数据集成、插补和跨模态生成，中科院&树兰医院&北师大团队开发带有掩码模块的深度生成框架

编辑 | 红菜苔随着单细胞技术的发展，许多细胞特性可以被测量。此外，多组学分析技术可以同时联合测量单个细胞中的两个或多个特征。为了快速处理积累的各种数据，需要多模态数据集成的计算方法。树兰医院、中国科学院和北京师范大学的合作团队提出了 inClust ，一个用于多组学分析的深度生成框架。它建立在之前针对转录组数据所开发的 inClust 的基础上，并增加了两个专为多模式数据处理设计的掩码模块：编码器前面的输入掩码模块和解码器后面的输出掩码模块。InClust 可用于整合来自相似细胞群的 scRNA-seq 和 M

王长虎：PixVerse 实测效果已超过 Pika，抖音经验让我们有足够优势

今年 4 月宣布创办爱诗科技，加入视频生成赛道后，王长虎就消失在舆论场中了。他在抖音的职业经历，让爱诗科技在视频生成的牌桌上拥有一席重要位置。2017 年，王长虎加入字节跳动开始担任 AI Lab 总监，在这个岗位上，他为抖音和 Tiktok 从 0-1 构建了视频AI能力。用王长虎本人的话说，为抖音所做的工作，让他的团队涉猎了几乎所有与视频智能相关的领域，包括且不限于数据处理、内容生成、安全问题处理、视频内容精准理解以及全方位广告场景。近期，王长虎接受了机器之心的独家专访。在采访中，王长虎详细介绍了抖音的视频智能

罕见！苹果开源图片编辑神器MGIE，要上iPhone?

拍张照片，输入文字指令，手机就开始自动修图？这一神奇功能，来自苹果刚刚开源的图片编辑神器「MGIE」。把背景中的人移除在桌子上添加披萨最近一段时间，AI 在图片编辑这一应用上取得了不小的进展。一方面，在 LLM 的基础上，多模态大模型（MLLM）可以自然地将图像视为输入，并提供视觉感知响应。另一方面，基于指令的编辑技术可以不依赖于详细描述或区域掩码，而是允许人类下达指令，直接表达如何编辑以及编辑

2亿参数时序模型替代LLM？谷歌突破性研究被批「犯新手错误」

照箭画靶，跑分自设标准？最近，谷歌的一篇论文在 X 等社交媒体平台上引发了一些争议。这篇论文的标题是「A decoder-only foundation model for time-series forecasting（用于时间序列预测的仅解码器基础模型）」。简而言之，时间序列预测就是通过分析历史数据的变化趋势和模式，来预测未来的数据变化。这类技术在气象预报、交通流量预测、商业销售等领域有着广泛的应用。例如，在零售业中，提高需求预测的准确性可以有效降低库存成本并增加收入。近年来，深度学习模型已成为预测丰富的多变量

CMU&ETH实现突破：机器狗点满敏捷值天赋，超高速穿越障碍，速度与安全兼备！

足式机器人领域又一次迎来创新！CMU 与 ETH Zurich 团队联合研发了一个名为「敏捷但安全」（ABS，Agile But Safe）的新框架，为四足机器人在复杂环境中实现高速运动提供了解决方案。ABS 不仅在避免碰撞方面展现出高效能力，还在极速上达到了前所未有的 3.1 米秒！在高速机器人运动领域，实现同时兼顾速度和安全一直是一大挑战。但现在，卡内基梅隆大学（CMU）和苏黎世联邦理工学院（ETH）的研究团队带来了突破性进展。他们开发的新型四足机器人算法，不仅能在复杂环境中高速行进，还能巧妙避开障碍，真正做

比OpenAI官方提示词指南更全，这26条黄金准则让LLM性能飙升50%以上

今天，穆罕默德・本・扎耶德人工智能大学 VILA Lab 带来了一项关于如何更好地为不同规模的大模型书写提示词（prompt）的研究，让大模型性能在不需要任何额外训练的前提下轻松提升 50% 以上。该工作在 X (Twitter)、Reddit 和 LinkedIn 等平台上都引起了广泛的讨论和关注。论文地址: : ：Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4在以 ChatGPT 为首的大模型出来之后，为

“女巴菲特”惊人预测人形机器人将于2030年进入家庭，通用AI出现，赞中国开源力量

机器之能报道编辑：sia年关将近，方舟投资（ARK Invest ）2024 年《 Big ideas 》报告如期而至，深入分析了 AI 、机器人等颠覆性技术融合及其巨大的行业和经济变革潜力。作为一家专注投资颠覆性创新（ Disruptive Innovation ）的公司，ARK 主要投资AI、区块链、储能、机器人等技术。他们认为，这些领域将改变世界的运作方式，同时也创造了长期的投资机会。这张图表被认为很有可能是对2024年AI发展做出了预测，并被视为2024最重要的AI图表之一，正是出自方舟投资。过去几年，方舟

专访面壁曾国洋：踩过 1000 次大模型的坑后，造一个性能小钢炮

2月1日，刚成立一年的面壁智能发布了两个在海内外大模型领域「炸裂级」的存在——面壁 MiniCPM 2B 旗舰端侧大模型与面壁OmniLMM多模态大模型。 MiniCPM 2B 有着当之无愧的「小钢炮」称号，其炸裂的点在于，从规模大小和性能来看，仅用2B 规模和1T tokens精选数据，便已在多项主流评测榜单、中英文平均成绩中超越被称为“欧洲最佳大模型”的Mistral-7B。在与其他同等规模大模型的对比中，面壁MiniCPM表现依旧领先，大幅超越了 Llama2-7B, Mistral7B，Gemini Nano，Qwen-1.8B等一众模型，甚至还能越级比肩 Llama2-13B、Falcon 40B和Cohere 54B此类比自己庞大数十倍规模的模型。

AI拜年火了，通义千问上线一张照片生成拜年视频

2月5日，春节将至年味渐浓，阿里云通义千问APP上线多项免费新应用，涵盖全家福、拜新年、万物成龙等图像生成的新玩法，共提供超300套照片模板，用户上传照片即可生成全家福、团圆照、拜年照、千里江山主题照；此外，一个月前火爆全网的全民舞王应用也迎来上新，用户可通过一张照片生成拜年视频，用更轻松、接近真人出镜的方式向亲朋好友传递新年的美好祝福。足不出户即可免费「拍」全家福春节是中国人约定俗成的团圆时刻。AI大模型技术正在让人们突破时空阻碍，用最便捷的方式相聚、庆祝，春节团圆的仪式感拉满。在通义千问APP照相馆应用的全家福

浙大团队发布 75 页科学 LLM 调查，重点关注生物和化学领域，指出七个未来发展方向

编辑 | X大型语言模型 (LLM) 已成为增强自然语言理解的变革力量，代表着通用人工智能的重大进步。LLM 的应用超越了传统的语言界限，涵盖了科学领域各学科中开发的专业语言系统。这也导致了科学 LLM 的出现。作为科学人工智能（AI for Science）领域的一个新兴领域，科学 LLM 值得全面探索。然而，目前缺乏系统的、最新的调查来介绍它们。近日，来自浙江大学的研究团队，系统地描述了「科学语言」的概念，同时对科学 LLM 的最新进展进行了全面回顾。鉴于科学学科领域广阔，该分析重点关注生物和化学领域。这包括对

Midjourney 又变强了！一文详解新功能 Style Reference

大家好我是花生~ 没错今天依旧是 Midjourney 的相关内容，因为它又推出了一个非常重要的新功能—— Style Reference （风格参考），可以学习一张图像的风格并生成相似新图像。新功能的用法是怎样的？与 Image Prompt 垫图又有什么区别呢？一起来看看吧~ 上期回顾：一、 Style Reference 使用介绍如果说 Style Tuner 让我们能探索出更多独特的新风格，那么 Style Reference 就让复制某种特定风格变得更加容易，作用类似于 SD 里的 controln

重磅发布！大淘宝设计部 2023 年度AI设计实践报告出炉

22 年中，绘制头像还在用 3D 进行建模，到了年末，就已经用 AI 直接生成了。 22 年末，面对 AI 工具设想能不能在我们业务中进行尝试，到了 23 年中，AI 工具已经覆盖我们团队所承接的所有营销场景业务。 23 年初，团队同学讲到 AI 工具的应用时觉得这是一个专业亮点，到了 23 年末，AI 工具已成为我们团队设计师的基础能力。这一切，都变的太快。这一年，也积累了些心得。首先 AI 工具带来降本增效，让我们的创意效果快速产生，设计方案有效达成。其次增效不仅仅增的是效率，还有设计效果。设计自由度极

大的要来了：谷歌Bard被曝将更名为Gemini，Ultra 1.0更强但收费、安卓App也会来

也许，谷歌此举是为了提前应对 OpenAI 可能于今年推出的 GPT-4.5 或 GPT-5。终于，谷歌去年 12 月承诺的 Gemini Ultra 要与大家见面了吗？今天，推特网友爆出的谷歌 Bard「大料」引发了社媒广泛热议。这位爆料者提供了一张谷歌 Bard 的更新日志截图，显示接下来几天会迎来一次非常重大的调整。谷歌 Bard 预计将从以下两个方面进行调整：一是 Bard 将正式更名为 Gemini，并亮相 Gemini Ultra 1.0 模型；二是 Gemini 安卓应用程序也将到来。对于这份日志更新

不分割成token，直接从字节中高效学习，Mamba原来还能这样用

给出一句「Hello, world!」你要怎么把它喂给 AI 模型？目前常见的方法是利用某种算法将它分为若干 token，比如 ["Hello", ",", "world", "!"]。模型通过学习这些 token 的上下文关系以及如何组合它们来表示原始文本或预测下一个 token。但这种方法依赖于有效的 token 分割算法，而且可能无法很好地处理新词、专有名词或非标准用法。因此，不少研究者也在尝试另一种方法：直接让模型从字节中学习。在 Mamba 问世之后，这条路似乎有希望了。在定义语言模型时，通常会使用一种基

打破MoE训练效率与性能瓶颈，华为盘古稀疏大模型全新架构LocMoE出炉

2023 年 12 月，首个开源 MoE 大模型 Mixtral 8×7B 发布，在多种基准测试中，其表现近乎超越了 GPT-3.5 和 LLaMA 2 70B，而推理开销仅相当于 12B 左右的稠密模型。为进一步提升模型性能，稠密 LLM 常由于其参数规模急剧扩张而面临严峻的训练成本。MoE 的广泛应用，使得在计算成本相对不变的条件下，模型容量能够得到显著扩展。此特性无疑使得 MoE 成为推动 LLM 发展的关键技术。MoE 设计的初衷，是使模型的学习更加 “术业有专攻”，其有效性已得到业界肯定。然而现有 MoE

资讯列表