AI资讯列表 - AI在线

智加科技多项成果亮相ITS World Congress 两款智能重卡计划量产

2023年10月16日-20日，第29届智能交通世界大会（ITS World Congress）在苏州国际博览中心成功举办。智能交通世界大会被誉为智能交通领域的“奥运会”，是智能交通领域最具影响力的综合性国际会议，也是智能交通业界规格最高、规模最大、范围最广的成果展示与技术交流平台。智加科技携自动驾驶技术多项应用成果精彩亮相在第29届智能交通世界大会。与两大头部重卡主机厂达成合作两款智能重卡计划量产智加科技宣布联合江淮汽车专为快递快运市场打造的智能重卡K7 ，将于10月底量产交付于中通快运，在双十一快递快运运营中

参数少近一半，性能逼近谷歌Minerva，又一个数学大模型开源了

大模型家族来了一个专门解决数学问题的「新成员」——Llemma。如今，在各种文本混合数据上训练出来的语言模型会显示出非常通用的语言理解和生成能力，可以作为基础模型适应各种应用。开放式对话或指令跟踪等应用要求在整个自然文本分布中实现均衡的性能，因此更倾向于通用模型。不过如果想要在某一领域（如医学、金融或科学）内最大限度地提高性能，那么特定领域的语言模型可能会以给定的计算成本提供更优越的能力，或以更低的计算成本提供给定的能力水平。普林斯顿大学、 EleutherAI 等的研究者为解决数学问题训练了一个特定领域的语言模型

如何使用ChatGPT定制各种实用小工具？我总结了6个！

ChatGPT 的能力让人难以想象，限制 ChatGPT 能力的只会是使用者的想象力。在日常使用中，我通过 ChatGPT 定制了很多实用小工具。以前需要借助其他产品完成的需求，现在通过 ChatGPT 就可以完成，而且效果很好。之前我分享了如何使用 ChatGPT 做定制化模型：一、翻译工具在以前日常工作生活中，需要翻译时，我都是通过搜索使用百度/谷歌翻译。对于句子的翻译，机器翻译往往不够精准，有一股机译的味道。而 ChatGPT 具备强大的语言能力，在翻译这一点上质量更高。如下图，当我输入英文，则 C

科学家使用外推ML方法加速发现新型催化剂

编辑 | 萝卜皮设计新型催化剂是解决许多能源和环境挑战的关键。尽管包括机器学习 (ML) 在内的数据科学方法有望加速催化剂的开发，通过机器学习方法很少发现真正新颖的催化剂，因为它最大的局限性是假设无法推断和识别特殊材料。北海道大学（Hokkaido University）的研究人员展示了一种外推机器学习方法来开发新型多元素反向水煤气变换催化剂。使用 45 个催化剂作为初始数据点，并执行闭环发现系统的44个循环（ML预测实验），研究人员对总共 300 种催化剂进行了实验测试，并鉴定出 100 多种催化剂，这些催化剂

中国科大团队开发用于原子系统对外部场响应的通用机器学习模型

编辑 | 萝卜皮机器学习的原子间相互作用势使得封闭系统的高效、准确的分子模拟成为可能。然而，可以极大地改变化学结构或反应性的外部场，很少被包含在当前的机器学习模型中。中国科学技术大学的研究人员提出了一种通用场诱导递归嵌入原子神经网络（field-induced recursively embedded atom neural network，FIREANN）模型，该模型将伪场矢量依赖特征整合到原子描述符中，以表示具有严格旋转等变性的系统-场相互作用。这种「一体式」方法将偶极矩和极化率等各种响应特性与单个模型中的场相

大厂出品！如何用 ControlNet 实现精准的画面色彩控制？

颜色控制一直是 AIGC 的难点，prompt 会污染、img2img 太随机… 今天带来利用controlnet，实现对画面颜色的有效控制。都说AIGC是抽卡，但对把它作为工具而非玩具的设计师，必须掌握如何控制它，让我们一起开始可控AI生成。更多相关干货：一、想给 AI 点颜色瞧瞧，怎么这么难大家或许已经通过各种《三分钟包会》《五分钟出道》的教程，可以手拿把掐的将一张商品图，完美植入需要的背景中。客观的说，无论从角度、投影、还是商品与背景的语义关系，以下都能算是合格的图片。但是作为视力 255³的设计师，总能

病毒式传播的短视频，也许就是这个GPT-4工具剪出来的

器之能报道编辑：大盘鸡真正实现人人能做短视频。「视频为王」的环境下，短视频可谓是正在称霸，它的传播速度甚至被称为「病毒式」传播。正是短视频传播迅速、内容简练、节奏快速，填补了快节奏生活的空白。你会不会也经常看短视频来充当自己休闲时光的活动？短视频虽然看着简单，但是制作起来也是颇为费心的。想要将内容极度精炼、做到短时间内快速吸引观众的眼球、视频节奏好，这都需要反复琢磨。Klap 的出现，或许能帮助大家更好地制作短视频。官方网站地址：是一款 AI 驱动的工具，旨在自动创建短视频内容。它所使用的 AI 技术由 Open

腾讯OCR团队斩获ICDAR大赛四项冠军

在全球文字识别（OCR）领域顶级盛会ICDAR 2023上，腾讯OCR团队基于自研算法，斩获四项冠军，这是继2017年、2019年、2021年以来，连续四届参会同时创造佳绩，共获得18项官方认证冠军，展示了腾讯OCR技术在全球的一流水平。ICDAR大会是全球文档图像分析识别领域公认的权威学术会议，每两年举办一次，赛事举办至今已经吸引了超过100多个国家的近8000支队伍参与其中。ICDAR竞赛因其极高的技术难度和强大的实用性享誉国内外，与赛后非正式刷榜不同，ICDAR官方认证的正式竞赛采用全新的数据集，并且在比赛期

OpenAI终于Open一回：DALL-E 3论文公布、上线ChatGPT，作者一半是华人

打开 ChatGPT 就能用 DALL・E 3 生成图片了，OpenAI 还罕见地发布了一些技术细节。终于，「OpenAI 又 Open 了」。在看到 OpenAI 刚刚发布的 DALL・E 3 相关论文后，一位网友感叹说。DALL・E 3 是 OpenAI 在 2023 年 9 月份发布的一个文生图模型。与上一代模型 DALL・E 2 最大的区别在于，它可以利用 ChatGPT 生成提示（prompt），然后让模型根据该提示生成图像。对于不擅长编写提示的普通人来说，这一改进大大提高了 DALL・E 3 的使用效率

在RTX 4090被限制的时代下，让大模型使用RLHF更高效的方法来了

该论文介绍了一种名为 ReMax 的新算法，专为基于人类反馈的强化学习（RLHF）而设计。ReMax 在计算效率（约减少 50% 的 GPU 内存和 2 倍的训练速度提升）和实现简易性（6 行代码）上超越了最常用的算法 PPO，且性能没有损失。论文链接：：李子牛，许天，张雨舜，俞扬，孙若愚，罗智泉机构：香港中文大学（深圳），深圳市大数据研究院，南京大学，南栖仙策开源代码：，所有图片来自于论文。背景今年，以 ChatGPT 为首的大语言模型（Large Language Models, LLMs) 在各个方面大放光彩

阿里达摩院发布遥感AI大模型，让AI进一步下沉到田间地头

10月20日，阿里达摩院发布业内首个遥感AI大模型，一个模型即可识别农田、农作物、建筑等地表万物，让AI进一步下沉到田间地头，大幅提升灾害防治、自然资源管理、农业估产等遥感应用的分析效率，该模型已在AI Earth地球科学云平台开放使用。遥感技术在城市运营、耕地保护、应急救灾等国计民生中的应用甚广，遥感AI则可以大幅提升既有数据的利用深度，输出更精细化、更准确的分析结果，如结合卫星照片与历史气象情况，“算”出某一块农田里作物的长势状况，让种地不再被动，而是更主动地“看天吃饭”。以往，由于遥感卫星的影像数据规模巨大、

智加科技与东风柳汽达成深度合作自动驾驶重卡计划2024年初量产交付

（2023年10月19日，苏州）全球领先的重卡自动驾驶技术公司智加科技与东风柳汽宣布，双方共同开发的自动驾驶重卡H7计划2024年初实现量产交付。未来，双方将携手推出安全可靠、高性价比、性能卓越的自动驾驶重卡产品，共同开拓自动驾驶重卡的市场需求，加速推进干线物流场景自动驾驶重卡的应用及商业化运营。图注：东风柳汽首席师曹越与智加科技商务副总裁刘立签约智加科技长期深耕干线物流重卡自动驾驶技术的研发落地，针对事故频发、司机短缺、运营成本居高不下等物流行业痛点，率先推出了前装量产自动驾驶重卡产品，并联合头部物流客户开展商

获1000万美元捐款，用于代码重构、上云，论文预印版平台arXiv「好起来了」

上云、代码重构一起来。对于节奏越来越快的学术研究领域而言，arXiv 是非常重要的论文预印版平台。和维基百科一样，它是个非营利性机构。当地时间本周四，康奈尔大学科技校区（Cornell Tech）宣布了 arXiv 获得巨额捐款的好消息。作为一个非营利数据库，arXiv 是所有人均可以免费访问的，长期以来一直依赖人们的捐赠。康奈尔科技校区宣布，西蒙斯基金会和美国国家科学基金会（NSF）已提供了总额超过 1000 万美元的赠款以支持 arXiv。据介绍，这笔资金将使这个拥有超过 200 万篇论文的研究存储库迁移到云端

用于化学研究的 GPT-4：什么可以做，什么不可以做？

编辑 | 紫罗GPT-4 在应对化学挑战方面表现出非凡的能力，但仍然存在明显的弱点。东京工业大学的化学家 Kan Hatakeyama-Sato 表示：「它对化学有着显著的理解，这表明它可以以类似于人类思维过程的方式预测和提出实验结果。」最近，Hatakeyama-Sato 和他的同事在《Science and Technology of Advanced Materials: Methods》杂志上发表题为《用于化学研究的 GPT-4 指示工程：什么可以/不可以做？》（「Prompt engineering of

复旦大学联合华为诺亚提出VidRD框架，实现迭代式的高质量视频生成

本文提出了一个名为 “Reuse and Diffuse” 的框架。该框架可以在 LDM 已经生成的少部分视频帧之后，产生更多的视频帧，从而实现迭代式地生成更长、更高质量以及多样化的视频内容。复旦大学联合华为诺亚方舟实验室的研究者基于图像扩散模型（LDM）提出了一种迭代式生成高质量视频的方案 ——VidRD (Reuse and Diffuse)。该方案旨在对生成视频的质量和序列长度上进行突破，实现了高质量、长序列的可控视频生成。有效减少了生成视频帧间的抖动问题，具有较高的研究和实用价值，为当前火热的AIGC社区贡

大视觉语言模型基准数据集ReForm-Eval：新瓶装旧酒，给旧有的基准数据集换个形式就能用来评估新的大视觉语言模型

概要复旦DISC实验室推出了ReForm-Eval，一个用于综合评估大视觉语言模型的基准数据集。ReForm-Eval通过对已有的、不同任务形式的多模态基准数据集进行重构，构建了一个具有统一且适用于大模型评测形式的基准数据集。所构建的ReForm-Eval具有如下特点：构建了横跨8个评估维度，并为每个维度提供足量的评测数据（平均每个维度4000余条）；具有统一的评测问题形式（包括单选题和文本生成问题）；方便易用，评测方法可靠高效，且无需依赖ChatGPT等外部服务；高效地利用了现存的数据资源，无需额外的人工标注，并

专访MIT贾皓钧&段辰儒博士：AI4S时代的化学材料发现——「AI炼金术」

作者 | MIT 贾皓钧&段辰儒博士编辑 | 凯霞大家可能从小就听说过爱迪生尝试上千种材料作为灯丝，凭着不断试错方法以及永不言弃的精神，最后研发出日用白炽灯的故事——天才靠的是百分之一的灵感和百分之九十九的汗水。然而，随着科学的进步和现代社会的发展，新型材料的研发变得愈发复杂。现在，研究者经常需要在上百万大小的材料空间同时优化数十个不同的性质，以寻找适用于电池、半导体、催化剂和合金等领域的新材料。如果说爱迪生需要 99% 的汗水，那现在研究者可能需要 99.99% 的汗水。而新型材料的研发历程就有点像人们去「沙滩」

二次元专供：Midjourney发布动漫风格图像生成APP

机器之能报道编辑：大盘鸡Midjourney 自己的应用将被提上日程。Midjourney 已经被捧上了 AIGC 的神坛，但是显然它并不满足于此。随着越来越多的高质量图片生成 AI 兴起，如 OpenAI 的 DALL-E 3 嵌入 ChatGPT Plus、 Adobe 最近发布的 Firefly image 2，Midjourney 也在产品和技术上不断进行尝试，继续保持用户关注度与使用。本周，Midjourney 创始人 David Holz 介绍，Midjourney 与日本游戏公司 Sizigi Stu

资讯列表