AI资讯列表 - AI在线

美图奇想大模型全新升级：生成能力、生成效率、模型性能实现三重进阶

9月23日，美图公司宣布美图奇想大模型（MiracleVision）视频生成能力完成全面升级，在实现生成能力、生成效率以及模型性能的三重进阶基础上，结合美图在计算机视觉领域的多项自研技术优势，视频生成时长与画质、流畅性、真实性及可信度等方面提升显著。目前，美图奇想大模型（MiracleVision）的单次文生视频时长、单次图生视频时长均达5秒，已支持1分钟、帧率24FPS、分辨率1080P的超长视频生成，可以任意视频尺寸输出。基于美图公司在影像领域的长期深厚积累，全新升级的美图奇想大模型（MiracleVision

谷歌 CEO 皮查伊：AI 不会取代程序员，反而会让更多人成为程序员

近年来，人工智能（AI）的飞速发展引发了广泛讨论，人们担心 AI 是否会取代人类的工作。艺术家和程序员尤其担心，因为 AI 似乎能够胜任这两项工作。然而，谷歌及其母公司 Alphabet 的 CEO 桑达尔・皮查伊（Sundar Pichai）认为，AI 不会取代程序员，相反，其将帮助更多人成为程序员。图源 Pixabay皮查伊在卡内基梅隆大学的演讲中谈到了 AI 对编程工作的影响，他表示，AI 最有可能帮助人们，而不是取代他们。它可以帮助现有程序员专注于更高级的任务，而不是重复解决同样的问题。此外，皮查伊认为 A

李飞飞创业之后首个专访：视觉空间智能与语言一样根本

不久之前，李飞飞教授的空间智能创业公司 World Labs 以及全明星的创业阵容正式亮相。随后，李飞飞与另一位联合创始人 Justin Johnson 接受了 a16z 的专访。在这次访谈播客中，李飞飞重点分享了 AI 领域新的研究前沿：空间智能。她说：「视觉空间智能非常根本，与语言一样根本」。节目中，她首先介绍了自己的早期贡献 ImageNet 对计算机视觉发展的影响。之后介绍了计算和数据在 AI 发展中的作用。然后，她定义了 AI 的终极目标以及空间智能在这其中所扮演的重要角色。最后，她介绍了自己的 Worl

AI会「说谎」，RLHF竟是帮凶

虽然 RLHF 的初衷是用来控制人工智能（AI），但实际上它可能会帮助 AI 欺骗人类。语言模型 (LM) 可能会产生人类难以察觉的错误，尤其是在任务复杂的情况下。作为最近流行的后训练方法 RLHF ，可能会加剧这个问题：为了获得更高的奖励，LM 可能会更好地说服人类认为它们是正确的，即使它们是错误的。这对人类评估者来说是一个巨大的挑战，因为人类想要发现 LM 输出中那些似乎正确的细微错误非常困难。在正确的答案和看起来正确的答案之间出现了差距（gap）。这种差距可能会导致 RLHF 奖励黑客攻击：为了获得更高的奖励

仅用4块GPU、不到3天训练出「开源版GPT-4o」，这是国内团队最新研究

LLaMA-Omni能够接收语音指令，同步生成文本和语音响应，响应延迟低至 226ms，低于 GPT-4o 的平均音频响应延迟 320ms。以 ChatGPT 为代表的大型语言模型（LLM）已成为强大的通用任务解决器，但大多数 LLM 仅支持基于文本的交互，这限制了它们在不适合文本输入输出的场景中的应用。GPT-4o 的出现使得通过语音与 LLM 进行交互成为可能。然而，开源社区对于构建此类基于 LLM 的语音交互模型仍然缺乏探索。实现与 LLM 进行语音交互最简单的方法是采用基于自动语音识别（ASR）和语音合成（

钉钉推出 365 会员产品：提供个性化 AI 助理等，连续包月 15 元

钉钉今天下午宣布面向个人用户推出“365 会员”，包含 AI 搜索、个人 AI 助理、AI 自动回复、自动速读等权益，非会员仍可使用钉钉 AI 助理、快速阅读等现有的 AI 功能。AI在线注意到，钉钉 365 会员的定价为单月 39 元，连续包月 39 元，全年 339 元。近期推出“有 AI 价”，单月 19 元，连续包月 15 元，全年 169 元。用户可在钉钉 v7.6.15 或以上版本开通会员。官方介绍显示，钉钉 365 会员中的 AI 搜索功能可以帮助用户整合工作和协同信息，个人 AI 助理可以设定描述、

开源！上海AI Lab视频生成大模型书生·筑梦 2.0来了

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]近日，上海人工智能实验室推出新一代视频生成大模型 “书生・筑梦 2.0”(Vchitect 2.0)。根据官方介绍，书生・筑梦 2.0 是集文生视频、图生视频、插帧超分、训练系统一体化的视

准确率87.6%，南农、国防科大、苏大等发布显微图像分类AI新方法

编辑 | 萝卜皮在医学显微图像分类（MIC）领域，基于 CNN 和 Transformer 的模型得到了广泛的研究。然而，CNN 在建模长距离依赖关系方面存在短板，限制了其充分利用图像中语义信息的能力。相反，Transformer 受到二次计算复杂性的制约。为了解决这些挑战，南京农业大学、国防科技大学、湘潭大学、南京邮电大学、苏州大学组成的联合研究团队提出了一个基于 Mamba 架构的模型：Microscopic-Mamba。具体来说，该团队设计了部分选择前馈网络（PSFFN）来取代视觉状态空间模块（VSSM）的最

英伟达 Jim Fan：复刻NLP的成功路，用通用模型开启具身智能的GPT-3时刻

还记得那只“骑”瑜伽球的机械狗吗？过马路，走草地都稳稳当当，就算瑜伽球被放气也能如履平地。怪不得之前有网友惊叹：机器人马上就要统治世界了吧？

阿里提出结构保持的AI视觉算法：显著提升HDR图像转LDR图像质量

9月21日，记者在2024云栖大会上获悉，阿里巴巴达摩院计算技术实验室提出了一种基于结构保持网络的AI视觉算法，可将高动态范围（HDR）场景图像自动转换为低动态范围（LDR）图像并保持其纹理细节，在常规显示设备上的图像质量相比业界提升7%。HDR图像同时包含强光源照射下的极亮区域和阴影、逆光下的极暗区域，容易出现明亮区域过曝、或者黑暗区域纯黑的情况，必须经过宽动态技术处理才能适配常规显示设备。传统的宽动态技术由于缺失自适应的局部与全局处理方法，会损失大量信息，生成结果局部粗糙或者全局锐化。业界也在探索基于AI的宽动

重磅发布: 「TeleTrip - 星辰文旅」亮相数字人大会, 大熊猫“苏琳”引围观

今日，首届中国数字人大会在北京拉开帷幕，一只以四川省阿坝州大熊猫“苏琳”为原型的 3D 数字熊猫吸引了大量围观和驻足。数字熊猫“苏琳”身着带有藏、羌族元素的特色服装，在现场亲切自然地与观众进行语音互动，介绍并讲解阿坝州本地的景区特色和风土人情，还时不时地跳起舞来。这是由中国电信四川公司与中国电信人工智能研究院（TeleAI）共同建立的人工智能联合实验室最新推出的落地项目之一，是基于首次面向文旅产业推出的创新产品“TeleTrip - 星辰文旅”，以四川省阿坝州为试点打造的3D数字熊猫智能一体机。TeleTrip 以

迅龙软件受邀参加华为全联接大会，系列AI产品服务智能未来

9月19日至9月21日，华为全联接大会2024在上海举行。作为华为昇腾APN伙伴，迅龙软件受邀参加此届大会，并携与华为昇腾共同打造的高算力人工智能系列产品OrangePi AI Studio、OrangePi AImax，OrangePi Ascend HAT、OrangePi AIpro(20T)、OrangePi AIpro(8T)精彩亮相，在世博展览馆 Hall2计算伙伴区给大家带来AI 互动的沉浸式体验。华为全联接大会是面向全行业的盛会，旨在打造开放、合作、共享的平台，与业界共同推动产业发展，构筑开放共赢的

为人工智能赋予机器人躯体的“登月计划”项目，倒在具身智能热潮之前

仿生人会梦见电子羊吗？或许答案就在现代机器人的世界里。 Google X 前任副总裁、Everyday Robots 前任 CEO Hans Peter Brondmo 说，在 Everyday Robots，机器人整晚都在做梦，它们在模拟世界里学习，一觉“醒来”就能掌握新技能。

JetBrains与阿里云战略合作发布JetBrains AI Assistant：聚焦中国市场开发者，实现开发效率代际提升

9月19日，全球知名的软件开发工具提供商JetBrains在2024云栖大会上正式发布基于阿里云通义大模型的JetBrains AI Assistant，标志着JetBrains在完善其开发工具产品生态方面迈出了重要一步。 JetBrains AI Assistant与多款JetBrains产品深度集成，能够以高度的适配性完成代码生成与重构、回答和解释代码相关问题、撰写文档和提交信息等工作，助力中国本土开发者提升效率和代码质量，实现生产力的全面跃升，释放出更多的时间和精力去探索新的技术领域和创新思路。图 | 发布仪式合影JetBrains中国区总裁李玥萱表示，“中国市场在JetBrains的全球版图中占据举足轻重的地位。

大语言模型的规模化联邦全参数调优

光明实验室基础智能研究团队携手新加坡国立大学最新突破——大语言模型的规模化联邦全参数调优，为大语言模型(LLMs)的联邦学习开辟了全新篇章！其中共一第一作者是光明实验室基础智能研究团队负责人，共一第二作者是新加坡国立大学博士生，均师从新加坡国立大学的Bryan Low教授。论文链接：, ：（LLMs）已在众多实际应用中变得不可或缺。然而，在规模化环境下对这些模型进行微调，尤其是在数据隐私和通信效率至关重要的联邦设置中，仍面临着重大挑战。现有方法通常采用参数高效微调（PEFT）来减轻通信开销，但这通常以牺牲模型性能为

一键复刻！10 组超惊艳的 Midjourney 风格代码推荐（四）

大家好我是花生 ~ 今天继续分享 10 组我精选的 Midjourney 风格代码，效果都很好看，肯定有你喜欢的风格~ 上期回顾：一、--sref 3322162017 特点：色彩浓郁柔和的厚涂插画风格，笔触细腻，适合生成头像、装饰画、故事插图。 ① A quiet girl --ar 3:4 --sref 3322162017 --personalize kzilt9y --sw 100 --stylize 1000 --v 6.1 一个安静的女孩。 ② A cute fox, waiting the sunse

AI 让家电质检从“人耳盲听”到“声纹识别”：精准度超 99%

据中新网报道，世界制造业大会于 9 月 20 日至 23 日在安徽合肥举行，大会的新一代信息技术展区展示了“先进光伏和新型储能”以及“新一代信息技术 (芯屏魂端)”两大版块，共有 263 件展品参展。在国家智能语音创新中心展区，工作人员现场演示了家电 AI 质检装置和自动化 AI 检测系统。国家智能语音创新中心的工作人员赵一晓介绍说：“空调内机质检首创应用，实现了从‘人耳盲听辨别’到‘机器声纹自动识别’的升级。”该展区模拟了真实的流水线场景，结合声纹、机器视觉和认知等人工智能技术，通过算法实现 AI 质检。据AI在

OpenAI 首款具备“推理”能力模型 o1 现已向企业 / 教育用户开放，每周最多使用 50 次

OpenAI 公司旗下首款具备“推理”能力的模型 o1 和 o1-mini 现已向企业版（Enterprise）和教育版（Edu）用户开放访问权限，用户每周最多可输入 50 条消息。据介绍，OpenAI o1 系列模型具有更高的理解能力，与传统模型不同，o1 系列模型在回答问题之前会进行深度思考，生成内在的思维链后再给出答案，因此系列模型能够处理比之前模型更复杂的任务，特别擅长解决科学、编程和数学领域的难题。OpenAI 指出，尽管目前 GPT-4o 仍是大多数任务的最佳选择，但 o1 系列在处理复杂、问题解决导向