AI资讯列表 - AI在线

“数智说”工业智能化论坛成功举办

为了进一步汇聚起推进新型工业化的强大合力，推动数字蝶变行动落地见效，12 月 16 日，数智上海 2023 峰会“数智说”工业智能化论坛在上海市杨浦区举办，邀请高校知名专家学者、高端制造业企业和科技企业代表，共享工业数智化丰富经验成果与未来趋势洞见。活动由上海市城市数字化转型工作领导小组办公室、上海市经济和信息化委员会、上海市杨浦区人民政府指导，上海市杨浦区科学技术委员会、上海市城市数字化转型应用促进中心主办，中国联合网络通信有限公司上海市分公司联合主办，机器之心（上海）科技有限公司承办。上海市经济和信息化委员会软

”数智说”算力新基建论坛圆满举办

作为助推数字经济发展的“重要底座”，我国算力基础设施建设近年来正不断跑出建设“加速度”，为千行百业的数字化转型提供着坚实的算力支撑。12 月 16 日，数智上海 2023 峰会“数智说”算力新基建论坛在上海杨浦顺利举办。相关政府主管部门领导，智算服务供应商、运营商、云计算服务商、AI 芯片企业代表以及上海市算力网络协会代表齐聚一堂，共论产业发展新趋势、新格局。本次活动由上海市城市数字化转型工作领导小组办公室、上海市经济和信息化委员会、上海市杨浦区人民政府指导，上海市杨浦区科学技术委员会、上海市城市数字化转型应用促进

开创全新通用3D大模型，VAST将3D生成带入「秒级」时代

生成式 AI 在 3D 领域在很长一段时间内都在等待自己的「ChatGPT」时刻。传统 3D 建模涉及游戏、影视、建筑等多个行业，普遍依赖专业人员手动操作，生产周期短则几天，多则以月为单位，单个 3D 模型的创建成本至少需要几千元。生成式 AI 技术在 2D 图像生成领域的成功经验，让人们看到了 AI 在变革 3D 建模这件事上的潜力。一个万亿美元级别的赛道似乎从此开启，但当前市面上的 3D 生成类的 AI 技术仍然存在各种不足，大家都在期待出现一个让自己眼前一亮的产品。2021 年 1 月初，OpenAI 发布

做大模型时代的最佳云底座，百度智能云打出三套「组合拳」

不破不立，重构云计算这件事，百度智能云公布了最新进展。

4090成A100平替？token生成速度只比A100低18%，上交大推理引擎火了

PowerInfer 使得在消费级硬件上运行 AI 更加高效。上海交大团队最新推出了超强 CPU/GPU LLM 高速推理引擎 PowerInfer。 PowerInfer 和 llama.cpp 都在相同的硬件上运行，并充分利用了 RTX 4090 上的 VRAM。这个推理引擎速度有多快？在单个 NVIDIA RTX 4090 GPU 上运行 LLM ，PowerInfer 的平均 token 生成速率为 13.20 tokens/s，峰值为

谷歌Gemini技术报告出炉，作者多达900余人

从此以后，Google Scholar 数据该出问题了。备受期待的谷歌 Gemini 技术报告完整版，今天终于出炉了。两周前，人们兴奋于谷歌提出的「原生多模态大模型」Gemini，其宣称超越 GPT-4 的强大性能，以及对于图像、视频等领域的理解能力让人们似乎看到了未来。不过由于谷歌演示的 demo 涉嫌夸大效果，Gemini 又很快陷入了争议。但作为生成式 AI 领域最近的重要进展，人们对于 Gemini 的期待越来越高，有团队很快进行研究发了测试论文。今天发布的 64 页技术报告，或许可以为我们的许多疑惑进行更

再也不怕合照缺人，Anydoor为图片编辑开了一道「任意门」

「能不能把这张图里的产品，都放到另一张图的桌子上？」面对这样的要求，设计师肯定会脑瓜嗡嗡的。把指定物品放进另一张图片不像贴张贴纸一样简单，想要做到无缝接入，贴图的形状、材质、光影等等都需要在编辑软件里细致地调整。如果有一种能让贴图穿进背景图里，它们根据你的指令自动摆好姿势、站位的「魔法」呢？来自香港大学、阿里巴巴和蚂蚁集团的新成果 Anydoor 为图片编辑打开了一扇「任意门」。任何物品，只需要一张照片，就能被传送到另一张图片的世界中。论文链接：：，想让这只柯基按照涂鸦的姿势，在墙角站卧坐躺，没有问题。让哆啦 A

只需一张图片、一句动作指令，Animate124轻松生成3D视频

Animate124，轻松将单张图片变成 3D 视频。近一年来，DreamFusion 引领了一个新潮流，即 3D 静态物体与场景的生成，这在生成技术领域引发了广泛关注。回顾过去一年，我们见证了 3D 静态生成技术在质量和控制性方面的显著进步。技术发展从基于文本的生成起步，逐渐融入单视角图像，进而发展到整合多种控制信号。与此相较，3D 动态场景生成仍处于起步阶段。2023 年初，Meta 推出了 MAV3D，标志着首次尝试基于文本生成 3D 视频。然而，受限于开源视频生成模型的缺乏，这一领域的进展相对缓慢。然而，现

阿里云首创PilotScope新技术，为AI4DB应用提速

12月20日，数据库国际顶会VLDB2024公布新一批论文，阿里云新技术PilotScope成功入围，该平台技术可实现AI算法在数据库的“一键部署”，极大降低数据库中AI算法的应用门槛，为数据库智能化开辟了全新空间。同日阿里云宣布将PilotScope全部技术免费开源。图说：数据库顶会VLDB2024数据库是事关国计民生的基础软件技术，数据库技术的更新影响着数字时代的千行百业，其中一个前沿领域即是数据库智能化（AI4DB，AI for Database）。现在的数据库系统非常复杂，对稳定性要求极高，即便将单一AI算

“数智说”金融科技与数实融合论坛成功举办

为了进一步加强现代金融机构和金融基础设施建设，推动金融更好地服务实体经济和科技创新，12 月 16 日，数智上海 2023 峰会“数智说”金融科技与数实融合论坛成功举办。论坛汇聚来自高校、行业协会、金融机构、金融科技企业以及数字供应链企业的众多代表，共同探讨了金融科技创新与赋能之道。本论坛活动由上海市城市数字化转型工作领导小组办公室、上海市经济和信息化委员会、上海市杨浦区人民政府指导，上海市杨浦区科学技术委员会、上海市城市数字化转型应用促进中心主办，中国联合网络通信有限公司上海市分公司联合主办，机器之心（上海）科技

4090成A100平替？上交大推出推理引擎PowerInfer，token生成速率只比A100低18%

机器之心报道机器之心编辑部PowerInfer 使得在消费级硬件上运行 AI 更加高效。上海交大团队，刚刚推出超强 CPU/GPU LLM 高速推理引擎 PowerInfer。项目地址：：？在运行 Falcon (ReLU)-40B-FP16 的单个 RTX 4090 (24G) 上，PowerInfer 对比 llama.cpp 实现了 11 倍加速！PowerInfer 和 llama.cpp 都在相同的硬件上运行，并充分利用了 RTX 4090 上的 VRAM。在单个 NVIDIA RTX 4090 GPU

大模型+搜索构建完整技术栈，百川智能用搜索增强给企业定制化下了一剂「猛药」

用好企业知识库是大模型应用破局的关键。从 ChatGPT 最初发布算起，虽然大模型的热潮已经持续了一年多，但大部分时间依然停留在学术前沿和技术创新层面，深入具体场景实现产业价值的案例并不多见。实际落地的种种挑战最终指向一个方向：行业知识。面对各行各业的垂直场景，依靠网络公开信息和知识预训练的通用模型很难搞定准确性、稳定性、性价比等问题。如果在外部实时信息搜索之余辅以强大的专门的企业知识库，让模型对行业知识的理解大大增强，效果自然更好。这就好比我们熟悉的「开卷考试」模式，人类大脑的「内存容量」越强越好，但终归有上限，

卷生成式AI的旗舰手机，2024年会引发一场交互革命

生成式 AI 已经改变了我们的交互形态。最近，各家手机厂商都在不约而同地做着一件事：把生成式 AI 搬上手机。先是在 10 月份的骁龙峰会上，小米放出消息，能在手机端侧运行的 60 亿参数大模型。他们提出的 AI 模型搭载在新一代手机系统中，可以回答人们提出的各种复杂问题，帮你生成文章、表格，或是帮你写代码。荣耀提前展示了下一代旗舰机 Magic 6 的生成式 AI 能力，在手机上通过自然语言发出指令，你就能让 AI 去找你拍摄的素材，寻找合适的部分整合成一段视频。随后在 11 月份，vivo、OPPO 等厂商发布

视频生成可以无限长？谷歌VideoPoet大模型上线，网友：革命性技术

蒙娜丽莎打哈欠，小鸡学会举铁……谷歌VideoPoet大模型表现很亮眼。2023 年底，科技公司都在冲击生成式 AI 的最后一个关卡 —— 视频生成。本周二，谷歌提出的视频生成大模型上线，立刻获得了人们的关注。这款名为 VideoPoet 的大语言模型，被人们认为是革命性的 zero-shot 视频生成工具。VideoPoet 既可以文生视频、图像生视频，又能风格迁移，视频转语音。从效果上看，它可以构建多样化且流畅的运动。消息一出，有很多人表示欢迎：看看目前的几个成品效果不错，大模型技术发展的速度也太快了。有人对于

霉霉演唱《稻香》，国内团队的Amphion音频生成火了

香港中文大学（深圳）数据科学学院武执政副教授团队联合上海人工智能实验室 OpenMMLab 团队开源了综合音频生成项目 Amphion（安菲翁）。该系统旨在打造一个集语音合成转换、歌声合成转换、音效音乐生成等多功能为一体的开源平台。截至目前，Amphion 已经多次进入 GitHub Trending Repositories 榜单。2022 年被称为 AIGC 元年，ChatGPT、Stable Diffusion、MidJourney 为代表的文字、图像应用带火了 AI 领域。2023 年，AI 孙燕姿、AI

摸底谷歌Gemini：CMU全面测评，Gemini Pro不敌GPT 3.5 Turbo

谷歌的 Gemini 到底几斤几两？和 OpenAI 的 GPT 模型相比表现如何？CMU 这篇论文测明白了。前段时间，谷歌发布了对标 OpenAI GPT 模型的竞品 ——Gemini。这个大模型共有三个版本 ——Ultra（能力最强）、Pro 和 Nano。研究团队公布的测试结果显示，Ultra 版本在许多任务中优于 GPT4，而 Pro 版本与 GPT-3.5 不相上下。尽管这些对比结果对大型语言模型研究具有重要意义，但由于确切的评估细节和模型预测尚未公开，这限制了对测试结果的复现、检测，难以进一步分析其隐含

NeurIPS 2023 Spotlight | 腾讯AI Lab绝悟新突破：在星际2灵活策略应对职业选手

近日，腾讯 AI Lab 的游戏 AI 团队宣布了其决策智能 AI "绝悟" 在《星际争霸 2》中的最新研究进展，提出一种创新的训练方法显著提升了 AI 的局内策略应变能力，使其在考虑了 APM 公平的对战环境中，与 3 位国内顶尖的神族职业选手各进行多达 20 局神族 vs 神族的对战，稳定地保持 50% 及以上的胜率。该成果已获 NeurIPS 2023 Spotlight 论文收录。实时策略游戏（RTS）以其复杂的游戏环境更贴近现实世界，一直是 AI 研究的焦点和挑战所在。《星际争霸 2》作为其中极具代表性的

西南交大杨燕/江永全团队：基于双任务的端到端图至序列无模板反应预测模型

排版 | X本文介绍西南交通大学杨燕/江永全团队发表于《Applied Intelligence》的研究成果，第一作者是硕士生胡昊哲。论文链接：：(Graph-to-Sequence)模型框架为基础，进一步在同参数量规模下尝试构建一类在单个模型中同时解决逆合成预测与正向反应预测任务的模型 BiG2S(Bidirectional Graph-to-Sequence)。同时，作者初步分析了模型在主流逆合成数据集 USPTO-50k 上训练时不同 SMILES 片段的预测难度差异以及模型在训练期间对验证集数据 Top-k