AI资讯列表 - AI在线

如何用 AIGC 快速生成电商主图？来看阿里实战案例！

数字化时代，人工智能的发展为设计师们带来了全新的创作方式和工具。商业广告的设计需要准确地传递品牌的价值和理念，而 AI 生成设计可以通过强大的算法和深度学习，快速生成符合品牌形象和目标受众的广告设计。产品摄影需要展示产品的外观和特点，AI 可以通过图像分析和处理，自动生成令人惊艳的视觉效果。电商主图的设计需要吸引消费者的点击和购买，通过生成则可更快速精准高效的满足场景化设计要求。商品场景图作为电商类产品核心透出起到重要的作用，在药电商场景图实践过程中，探索如何通过 TVC 等精细商业广告到产品摄影原理再到商品场景

发现、合成并表征303个新分子，MIT团队开发机器学习驱动的闭环自主分子发现平台

编辑 | X传统意义上，发现所需特性的分子过程一直是由手动实验、化学家的直觉以及对机制和第一原理的理解推动的。随着化学家越来越多地使用自动化设备和预测合成算法，自主研究设备越来越接近实现。近日，来自 MIT 的研究人员开发了由集成机器学习工具驱动的闭环自主分子发现平台，以加速具有所需特性的分子的设计。无需手动实验即可探索化学空间并利用已知的化学结构。在两个案例研究中，该平台尝试了 3000 多个反应，其中 1000 多个产生了预测的反应产物，提出、合成并表征了 303 种未报道的染料样分子。该研究以《Autonom

百度大模型这一年：文心一言国内首个用户破亿，飞桨开发者超千万

2023 年，AI 大模型的最后一波突破来了。文心一言用户规模破 1 亿，飞桨的开发者数量达到 1070 万。只用短短两个月，文心大模型 4.0 整体效果又提升了 32%。2023 年 12 月 28 日，在刚刚过去的 WAVE SUMMIT 2023 深度学习开发者大会上，百度揭幕了文心大模型与深度学习平台飞桨的一系列新进展。在大会现场，百度的演示呈现了基于大模型进行 AI 原生应用开发的新方法和新思路。想开发一个 AI 原生应用，一行代码也不需要：基于星河社区大模型工具中心「多工具智能编排」开发模式，我们可以

「唤醒」NPC，这家融资过亿的国内创企在做一种很新的游戏

每次进入游戏，NPC 都说着不一样的台词，这将是一个怎样的世界？在众多游戏类型中，开放世界游戏是非常受欢迎的一种，因为它允许玩家在一个引人入胜的虚拟世界中漫游，自由地去体验丰富的故事情节，同时完成一些复杂的支线、主线任务。这极大地满足了人的好奇心和探索欲。《荒野大镖客》、《GTA5》、《塞尔达传说》等大家耳熟能详的游戏都属于开放世界游戏。在这类游戏中，非玩家角色（NPC）在推动剧情进展、提供任务与服务以及增强游戏的沉浸感和真实性方面发挥着至关重要的作用。不过，这些 NPC 的台词和行为模式往往是预先编写和固定的，所

文生视频下一站，Meta已经开始视频生视频了

文本指导的视频到视频（V2V）合成在各个领域具有广泛的应用，例如短视频创作以及更广泛的电影行业。扩散模型已经改变了图像到图像（I2I）的合成方式，但在视频到视频（V2V）合成方面面临维持视频帧间时间一致性的挑战。在视频上应用 I2I 模型通常会在帧之间产生像素闪烁。为了解决这个问题，来自得州大学奥斯汀分校、Meta GenAI 的研究者提出了一种新的 V2V 合成框架 ——FlowVid，联合利用了源视频中的空间条件和时间光流线索（clue）。给定输入视频和文本 prompt，FlowVid 就可以合成时间一致的视

给3D资产生成高清纹理，腾讯让AI扩充游戏皮肤

近日，腾讯宣布推出一项名为 Paint3D 的技术，它能够根据文本或图像输入，为无纹理的 3D 模型生成高分辨率、无光照且多样化的纹理贴图，对任何 3D 物体进行纹理绘制。效果演示视频相关技术论文已经公开。项目主页：：: ，这项技术主要解决的挑战是如何生成没有内嵌光照信息的高质量纹理，使得生成的纹理能够被重新照明或重新编辑，直接应用于现有的渲染管道。Paint3D 通过引入预训练 2D 图像生成模型来获取文字和图像输入的引导能力，从不同的提示中概括出丰富且高质量的纹理。在此基础上，Paint3D 利用 3D 数据高

大模型幻觉问题无解？理论证明校准的LM必然会出现幻觉

理论证明！校准的语言模型必然出现幻觉。大型语言模型（LLM）虽然在诸多下游任务上展现出卓越的能力，但其实际应用还存在一些问题。其中，LLM 的「幻觉（hallucination）」问题是一个重要缺陷。幻觉是指由人工智能算法生成看似合理但却虚假或有误导性的响应。自 LLM 爆火以来，研究人员一直在努力分析和缓解幻觉问题，该问题让 LLM 很难广泛应用。现在，一项新研究得出结论：「经过校准的语言模型必然会出现幻觉。」研究论文是微软研究院高级研究员 Adam Tauman Kalai 和佐治亚理工学院教授 Santosh

美图视觉大模型MiracleVision（奇想智能）将向公众开放

1月2日，美图公司宣布自研AI视觉大模型MiracleVision(奇想智能)通过《生成式人工智能服务管理暂行办法》备案，将面向公众开放。美图自研视觉大模型也是目前福建省唯一通过备案的大模型。美图AI视觉大模型MiracleVision(奇想智能)于2023年6月进行内测，研发之初，美图将其定义为“懂美学”的视觉大模型，搭建了基于机器学习的美学评估系统，并邀请艺术家、设计师等专业人士参与到大模型的训练中。MiracleVision(奇想智能)具备强大的视觉表现力和创作力，为美图秀秀、美颜相机、Wink、美图设计室、

这是GPT-4变笨的新解释

变笨的本质是知识没进脑子。自发布以来，曾被认为是世界上最强大的 GPT-4 也经历了多场「信任危机」。如果说今年早些时候那次「间歇式降智」与 OpenAI 重新设计 GPT-4 架构有关，前段时间的「变懒」传闻就更搞笑了，有人测出只要告诉 GPT-4「现在是寒假」，它就会变得懒懒散散，仿佛进入了一种冬眠状态。大模型变懒、变笨，具体是指模型在新任务上的零样本性能变差。尽管上述原因听起来很有趣，但问题到底怎么解决呢？在最近的一篇论文中，加州大学圣克鲁斯分校研究者的新发现或可解释 GPT-4 性能下降的深层原因：「我们发

你没有看过的全新版本，Transformer数学原理揭秘

近日，arxiv 上发布了一篇论文，对 Transformer 的数学原理进行全新解读，内容很长，知识很多，十二分建议阅读原文。2017 年，Vaswani 等人发表的《Attention is all you need》成为神经网络架构发展的一个重要里程碑。这篇论文的核心贡献是自注意机制，这是 Transformers 区别于传统架构的创新之处，在其卓越的实用性能中发挥了重要作用。事实上，这一创新已成为计算机视觉和自然语言处理等领域人工智能进步的关键催化剂，同时在大语言模型的出现中也起到了关键作用。因此，了解

AI研究也能借鉴印象派？这些栩栩如生的人竟然是3D模型

创建逼真的动态虚拟角色，要么在训练期间需要准确的 3D 配准，要么在测试期间需要密集的输入图像，有时则两者都需要，也许 D3GA 是你需要的。在 19 世纪，印象主义的艺术运动在绘画、雕塑、版画等艺术领域盛行，其特点是以「短小的、断断续续的笔触，几乎不传达形式」为特征，就是后来的印象派。简单来说印象派笔触未经修饰而显见，不追求形式的精准，模糊的也合理，其将光与色的科学观念引入到绘画之中，革新了传统固有色观念。在 D3GA 中，作者的目标反其道而行之，是希望创建像照片般逼真的表现。在 D3GA 中，作者对高斯泼溅（G

长期主义支持青年科技人才，“科学探索奖”启动第六届申报

“科学探索奖”5周年之后再出发。作为目前国内金额最高的青年科技人才资助计划之一，第六届“科学探索奖”申报工作于2024年1月1日正式启动。2024年“科学探索奖”仍设置10个领域，包括数学物理学、化学新材料、天文和地学、生命科学、医学科学、信息电子、能源环境、先进制造、交通建筑、前沿交叉。今年仍将遴选出不超过50位获奖人，每位获奖人在5年内获得总计300万元人民币奖金，且可自由支配。“科学探索奖”是一项由新基石科学基金会出资、科学家主导的公益奖项，秉承“面向未来、奖励潜力、鼓励探索”的宗旨，聚焦基础科学和前沿技术，

基础模型+机器人：现在已经走到哪一步了

机器人是一种拥有无尽可能性的技术，尤其是当搭配了智能技术时。近段时间创造了许多变革性应用的大模型有望成为机器人的智慧大脑，帮助机器人感知和理解这个世界并制定决策和进行规划。近日，CMU 的 Yonatan Bisk 和 Google DeepMind 的夏斐（Fei Xia）领导的一个联合团队发布了一篇综述报告，介绍了基础模型在机器人领域的应用和发展情况。开发能自主适应不同环境的机器人是人类一直以来的一个梦想，但这却是一条漫长且充满挑战的道路。之前，利用传统深度学习方法的机器人感知系统通常需要大量有标注数据来训练监

安徽，全面瞄准通用人工智能

过去一年人工智能赛道投资人的出差列表里，除了北上深，中部省份安徽的存在感越来越高。走在安徽省合肥市的中安创谷产业园里，这个以 “高科技” 作为自己最新发展标签的地方，过去数年打造了 “空天信息”、“电子信息”、“大健康” 等多个专项产业，所孵化或扶持的一系列高科技公司如中科星图、华米科技、东超科技云集于此。而之后，这座园区里的 AI 公司将会越来越多。在 12 月 23 日举办的 2023 全国通用人工智能创新应用大赛总决赛中，总共 20 支参赛队伍共同来到安徽，参与这场活动，他们与安徽建立了近距离接触，这之后对

8x7B MoE与Flash Attention 2结合，不到10行代码实现快速推理

感兴趣的小伙伴，可以跟着操作过程试一试。前段时间，Mistral AI 公布的 Mixtral 8x7B 模型爆火整个开源社区，其架构与 GPT-4 非常相似，很多人将其形容为 GPT-4 的「缩小版」。我们都知道，OpenAI 团队一直对 GPT-4 的参数量和训练细节守口如瓶。Mistral 8x7B 的放出，无疑给广大开发者提供了一种「非常接近 GPT-4」的开源选项。在基准测试中，Mistral 8x7B 的表现优于 Llama 2 70B，在大多数标准基准测试上与 GPT-3.5 不相上下，甚至略胜一筹。

GitHub年终福利，编程聊天机器人开放给所有用户，网友直呼：破局者

你安利了吗？2023 年的最后一两天，GitHub 面向编程的聊天机器人 Copilot Chat 为所有人放出了最后一波福利！今年 3 月，软件源代码托管服务平台 GitHub 推出 Copilot X 计划，正式接入 GPT-4，并在开发者体验中添加了聊天功能「Copilot Chat」，当时适用于 Copilot for Business 企业客户。在实际操作过程中，开发者可以通过聊天界面，使用自然语言与 Copilot Chat 进行交互。今年 7 月，GitHub 又推出了 Copilot Chat 有限

告别冷启动，LoRA成为大模型「氮气加速器」，提速高达300%

用 LoRA 打造更快的 AI 模型。AI 模型功能越来越强大，结构也越来越复杂，它们的速度也成为了衡量先进程度的标准之一。如果 AI 是一辆豪华跑车，那么 LoRA 微调技术就是让它加速的涡轮增压器。LoRA 强大到什么地步？它可以让模型的处理速度提升 300%。还记得 LCM-LoRA 的惊艳表现吗？其他模型的十步，它只需要一步就能达到相媲美的效果。这是怎么做到的？Raphael G 的博客详细说明了 LoRA 如何在提高模型推理效率和速度方面取得显著成效，并介绍了这一技术实现的改进及其对 AI 模型性能的重大

工业制造、商用和家庭，优必选人形机器人的三场战事

2023 年最后一个交易日 12 月 29 日，总部位于深圳的人形机器人公司优必选科技在香港交易所正式挂牌。上市首日股价一度上涨至 93.45 港元，市值逼近 390 亿港元。在上市仪式现场，熊猫机器人优悠走上舞台，向优必选创始人、董事长兼 CEO 周剑递出锣锤，优必选全新一代工业版人形机器人 Walker S 首次亮相，手持另一个锣锤走向舞台中央，与周剑一起敲响开市锣。这一声，格外稀缺。一为人形机器人本体制造之难。从事机器人技术工作，你需要成为一家机器人公司，有一大群人来建造机器人。“要么全包，要么全无。没有