AI资讯列表 - AI在线

大厂出品！如何用 ControlNet 实现精准的画面色彩控制？

颜色控制一直是 AIGC 的难点，prompt 会污染、img2img 太随机… 今天带来利用controlnet，实现对画面颜色的有效控制。都说AIGC是抽卡，但对把它作为工具而非玩具的设计师，必须掌握如何控制它，让我们一起开始可控AI生成。更多相关干货：一、想给 AI 点颜色瞧瞧，怎么这么难大家或许已经通过各种《三分钟包会》《五分钟出道》的教程，可以手拿把掐的将一张商品图，完美植入需要的背景中。客观的说，无论从角度、投影、还是商品与背景的语义关系，以下都能算是合格的图片。但是作为视力 255³的设计师，总能

病毒式传播的短视频，也许就是这个GPT-4工具剪出来的

器之能报道编辑：大盘鸡真正实现人人能做短视频。「视频为王」的环境下，短视频可谓是正在称霸，它的传播速度甚至被称为「病毒式」传播。正是短视频传播迅速、内容简练、节奏快速，填补了快节奏生活的空白。你会不会也经常看短视频来充当自己休闲时光的活动？短视频虽然看着简单，但是制作起来也是颇为费心的。想要将内容极度精炼、做到短时间内快速吸引观众的眼球、视频节奏好，这都需要反复琢磨。Klap 的出现，或许能帮助大家更好地制作短视频。官方网站地址：是一款 AI 驱动的工具，旨在自动创建短视频内容。它所使用的 AI 技术由 Open

腾讯OCR团队斩获ICDAR大赛四项冠军

在全球文字识别（OCR）领域顶级盛会ICDAR 2023上，腾讯OCR团队基于自研算法，斩获四项冠军，这是继2017年、2019年、2021年以来，连续四届参会同时创造佳绩，共获得18项官方认证冠军，展示了腾讯OCR技术在全球的一流水平。ICDAR大会是全球文档图像分析识别领域公认的权威学术会议，每两年举办一次，赛事举办至今已经吸引了超过100多个国家的近8000支队伍参与其中。ICDAR竞赛因其极高的技术难度和强大的实用性享誉国内外，与赛后非正式刷榜不同，ICDAR官方认证的正式竞赛采用全新的数据集，并且在比赛期

OpenAI终于Open一回：DALL-E 3论文公布、上线ChatGPT，作者一半是华人

打开 ChatGPT 就能用 DALL・E 3 生成图片了，OpenAI 还罕见地发布了一些技术细节。终于，「OpenAI 又 Open 了」。在看到 OpenAI 刚刚发布的 DALL・E 3 相关论文后，一位网友感叹说。DALL・E 3 是 OpenAI 在 2023 年 9 月份发布的一个文生图模型。与上一代模型 DALL・E 2 最大的区别在于，它可以利用 ChatGPT 生成提示（prompt），然后让模型根据该提示生成图像。对于不擅长编写提示的普通人来说，这一改进大大提高了 DALL・E 3 的使用效率

在RTX 4090被限制的时代下，让大模型使用RLHF更高效的方法来了

该论文介绍了一种名为 ReMax 的新算法，专为基于人类反馈的强化学习（RLHF）而设计。ReMax 在计算效率（约减少 50% 的 GPU 内存和 2 倍的训练速度提升）和实现简易性（6 行代码）上超越了最常用的算法 PPO，且性能没有损失。论文链接：：李子牛，许天，张雨舜，俞扬，孙若愚，罗智泉机构：香港中文大学（深圳），深圳市大数据研究院，南京大学，南栖仙策开源代码：，所有图片来自于论文。背景今年，以 ChatGPT 为首的大语言模型（Large Language Models, LLMs) 在各个方面大放光彩

阿里达摩院发布遥感AI大模型，让AI进一步下沉到田间地头

10月20日，阿里达摩院发布业内首个遥感AI大模型，一个模型即可识别农田、农作物、建筑等地表万物，让AI进一步下沉到田间地头，大幅提升灾害防治、自然资源管理、农业估产等遥感应用的分析效率，该模型已在AI Earth地球科学云平台开放使用。遥感技术在城市运营、耕地保护、应急救灾等国计民生中的应用甚广，遥感AI则可以大幅提升既有数据的利用深度，输出更精细化、更准确的分析结果，如结合卫星照片与历史气象情况，“算”出某一块农田里作物的长势状况，让种地不再被动，而是更主动地“看天吃饭”。以往，由于遥感卫星的影像数据规模巨大、

智加科技与东风柳汽达成深度合作自动驾驶重卡计划2024年初量产交付

（2023年10月19日，苏州）全球领先的重卡自动驾驶技术公司智加科技与东风柳汽宣布，双方共同开发的自动驾驶重卡H7计划2024年初实现量产交付。未来，双方将携手推出安全可靠、高性价比、性能卓越的自动驾驶重卡产品，共同开拓自动驾驶重卡的市场需求，加速推进干线物流场景自动驾驶重卡的应用及商业化运营。图注：东风柳汽首席师曹越与智加科技商务副总裁刘立签约智加科技长期深耕干线物流重卡自动驾驶技术的研发落地，针对事故频发、司机短缺、运营成本居高不下等物流行业痛点，率先推出了前装量产自动驾驶重卡产品，并联合头部物流客户开展商

用于化学研究的 GPT-4：什么可以做，什么不可以做？

编辑 | 紫罗GPT-4 在应对化学挑战方面表现出非凡的能力，但仍然存在明显的弱点。东京工业大学的化学家 Kan Hatakeyama-Sato 表示：「它对化学有着显著的理解，这表明它可以以类似于人类思维过程的方式预测和提出实验结果。」最近，Hatakeyama-Sato 和他的同事在《Science and Technology of Advanced Materials: Methods》杂志上发表题为《用于化学研究的 GPT-4 指示工程：什么可以/不可以做？》（「Prompt engineering of

获1000万美元捐款，用于代码重构、上云，论文预印版平台arXiv「好起来了」

上云、代码重构一起来。对于节奏越来越快的学术研究领域而言，arXiv 是非常重要的论文预印版平台。和维基百科一样，它是个非营利性机构。当地时间本周四，康奈尔大学科技校区（Cornell Tech）宣布了 arXiv 获得巨额捐款的好消息。作为一个非营利数据库，arXiv 是所有人均可以免费访问的，长期以来一直依赖人们的捐赠。康奈尔科技校区宣布，西蒙斯基金会和美国国家科学基金会（NSF）已提供了总额超过 1000 万美元的赠款以支持 arXiv。据介绍，这笔资金将使这个拥有超过 200 万篇论文的研究存储库迁移到云端

复旦大学联合华为诺亚提出VidRD框架，实现迭代式的高质量视频生成

本文提出了一个名为 “Reuse and Diffuse” 的框架。该框架可以在 LDM 已经生成的少部分视频帧之后，产生更多的视频帧，从而实现迭代式地生成更长、更高质量以及多样化的视频内容。复旦大学联合华为诺亚方舟实验室的研究者基于图像扩散模型（LDM）提出了一种迭代式生成高质量视频的方案 ——VidRD (Reuse and Diffuse)。该方案旨在对生成视频的质量和序列长度上进行突破，实现了高质量、长序列的可控视频生成。有效减少了生成视频帧间的抖动问题，具有较高的研究和实用价值，为当前火热的AIGC社区贡

大视觉语言模型基准数据集ReForm-Eval：新瓶装旧酒，给旧有的基准数据集换个形式就能用来评估新的大视觉语言模型

概要复旦DISC实验室推出了ReForm-Eval，一个用于综合评估大视觉语言模型的基准数据集。ReForm-Eval通过对已有的、不同任务形式的多模态基准数据集进行重构，构建了一个具有统一且适用于大模型评测形式的基准数据集。所构建的ReForm-Eval具有如下特点：构建了横跨8个评估维度，并为每个维度提供足量的评测数据（平均每个维度4000余条）；具有统一的评测问题形式（包括单选题和文本生成问题）；方便易用，评测方法可靠高效，且无需依赖ChatGPT等外部服务；高效地利用了现存的数据资源，无需额外的人工标注，并

专访MIT贾皓钧&段辰儒博士：AI4S时代的化学材料发现——「AI炼金术」

作者 | MIT 贾皓钧&段辰儒博士编辑 | 凯霞大家可能从小就听说过爱迪生尝试上千种材料作为灯丝，凭着不断试错方法以及永不言弃的精神，最后研发出日用白炽灯的故事——天才靠的是百分之一的灵感和百分之九十九的汗水。然而，随着科学的进步和现代社会的发展，新型材料的研发变得愈发复杂。现在，研究者经常需要在上百万大小的材料空间同时优化数十个不同的性质，以寻找适用于电池、半导体、催化剂和合金等领域的新材料。如果说爱迪生需要 99% 的汗水，那现在研究者可能需要 99.99% 的汗水。而新型材料的研发历程就有点像人们去「沙滩」

二次元专供：Midjourney发布动漫风格图像生成APP

机器之能报道编辑：大盘鸡Midjourney 自己的应用将被提上日程。Midjourney 已经被捧上了 AIGC 的神坛，但是显然它并不满足于此。随着越来越多的高质量图片生成 AI 兴起，如 OpenAI 的 DALL-E 3 嵌入 ChatGPT Plus、 Adobe 最近发布的 Firefly image 2，Midjourney 也在产品和技术上不断进行尝试，继续保持用户关注度与使用。本周，Midjourney 创始人 David Holz 介绍，Midjourney 与日本游戏公司 Sizigi Stu

OPPO发布顶级旗舰Find N3，开启划时代的折叠新体验

2023年10月19日，北京—— OPPO今日正式发布全新一代顶级旗舰 Find N3，以划时代的技术创新，提供下一代折叠旗舰体验，引领折叠屏手机进入新世代。OPPO Find N3 第一次为折叠屏引入次世代传感器技术，首次让轻薄折叠拥有旗舰影像的光影与画质，定义折叠影像的新高度。Find N3以行业最高级别的国密认证安全芯片实现一系列隐私保护芯片锁，为个人及商务的机密信息，带来安全性与安全体验的双重飞跃。Find N3 还带来独有的超视野全景虚拟屏以及打破系统与设备壁垒的文件管理方式，引领移动效率的革命。在薄至5

RTX 4090也被禁售了？

游戏也不能玩了？谁也没有想到，美国针对 AI 大模型技术卡脖子的争端，竟然砍到了玩家头上。本周二，美国商务部放出最严对华出口管制规定，H800 等关键 AI 加速器成为制裁的焦点，然而消息曝出还没几个小时，人们发现各大电商平台上的高端消费级显卡 GeForce RTX 4090 也下架了。此前一系列对于 AI 芯片的限制已经让人愤怒，这次美国对消费级产品的打击直接影响到了更多人，事件瞬间登上了热搜。很多人一觉醒来就在问：发生什么事了？突如其来的消息引发了人们的讨论。游戏圈的人纷纷表示，没想到玩个游戏也能被美国制裁。

4K画质3D合成视频不再卡成幻灯片，新方法将渲染速度提高了30多倍

本文提出了一种突破性的点云表示 4K4D，能够以 4K 分辨率对动态 3D 场景进行高保真实时渲染，达到了前所未有的渲染速度和令人印象深刻的渲染质量。当 4K 画质、60 帧视频在某些 APP 上还只能开会员观看时，AI 研究者已经把 3D 动态合成视频做到了 4K 级别，而且画面相当流畅。在现实生活中，我们接触的大多数视频都是 2D 的。在观看这种视频时，我们是没有办法选择观看视角的，比如走到演员中间，或者走到空间的某个角落。VR、AR 设备的出现弥补了这一缺陷，它们提供的 3D 视频允许我们变换视角、甚至随意走

OpenAI新模型研发遇挫，稀疏性是大模型降本的钥匙吗？

OpenAI 也有失败的模型。大模型的训练与运行成本极其高昂，OpenAI 也尝试过降低成本，只可惜失败了。去年年底，当 ChatGPT 引起全球轰动时，OpenAI 的工程师开始研究一种新的人工智能模型，代号为 Arrakis。Arrakis 旨在让 OpenAI 能够以更低的成本运行聊天机器人。但据知情人士透露：2023 年年中，OpenAI 已经取消了 Arrakis 的发布，因为该模型的运行效率没有公司预期的那么高。这次失败意味着 OpenAI 失去了宝贵的时间，并需要将资源转移到开发不同的模型上。对合作

狂揽4k star，AI通过强化学习玩宝可梦，两万场后成功拿下

AI 的宝可梦之旅。是不是说起「口袋妖怪」，你就不困了？「口袋妖怪」是「宝可梦」的非官方译名。从 1996 年至今，它可以被分为数个世代，成为很多玩家心中的经典之作。游戏画风简单，但是身为策略游戏，其中包含的角色、属性、战术、体系等让这个游戏入门容易精通难。如果训练 AI 来玩宝可梦，你觉得它的实力如何？推特用户 @computerender 用强化学习训练 AI 玩起了宝可梦。他也通过视频记录了这一过程，不仅生动地展示了训练过程，还详尽地介绍了其中的方法。项目地址：：，就能观看两万场 AI 玩的《宝可梦・红》。一

资讯列表