任务

REVOLVE：响应演化驱动的智能优化框架，破解传统AI优化瓶颈

iDreamer 致力于打造一个激发科研热情的全球中心。我们帮助教授将愿景变为现实，为学生照亮塑造未来的道路。在这里，没有资源的壁垒，没有思想的界限，只有团结一心追求卓越。

3/4/2025 11:00:00 AM

新闻助手

用「完形填空」的思维生成蛋白-分子复合物，西湖大学等发布CBGBench助力药物设计

编辑 | ScienceAI本文作者为西湖大学 Haitao Lin，Yufei Huang, 深势科技 Guojiang Zhao，Zhifeng Gao，及华盛顿大学 Odin Zhang 等；通讯作者为 Stan Z. 被 ICLR2025 接受为 spotlight paper。原文链接：：（Structure-Based Drug Design, SBDD）旨在生成能够与目标蛋白结合的潜在药物分子，并在生成式 AI 技术的推动下得到了极大加速。

2/27/2025 3:52:00 PM

ScienceAI

打破AI遗忘诅咒的学习算法，慕尼黑-南大团队打造会自主积累知识的学习框架

编辑丨&人类可以在一生中不断积累知识并发展越来越复杂的行为和技能，这种能力被称为「终身学习」。这种终身学习能力被认为是构成一般智能的基本机制，但人工智能的最新进展主要在狭窄的专业领域表现出色，对于这种终身学习能力显得有些缺乏。慕尼黑大学与南京大学的研究团队联手打造了一款机器人终身强化学习框架，它通过开发一个受贝叶斯非参数域启发的知识空间来解决这一差距。

2/17/2025 2:58:00 PM

ScienceAI

DARWIN 1.5 来啦！材料设计通用大语言模型，刷新多项实验性质预测记录

编辑丨Science AI材料发现和设计的核心目标是寻找理想的成分和结构，但传统方法，如高通量模拟和机器学习，通常依赖于复杂描述符，过于固定且难以通用，并且无法准确反映真实材料特性，因而限制了实际应用。 GreenDynamic 与来自澳大利亚新南威尔士大学（UNSW），上海人工智能实验室和香港城市大学的团队共同开发了一款名为 DARWIN 1.5 的模型。不同于传统机器学习方法，DARWIN 基于语言接口微调框架（LIFT，2022 NeurIPS, 本文共同作者），整合了 33 万科学问答和 22 个材料科学任务，为材料属性预测和发现提供了灵活统一的预训练模型，并且成功精准预测了上万种材料的性质数值。

1/27/2025 6:47:00 PM

ScienceAI

RoboMIND：国家地方共建具身智能机器人创新中心与北京大学计算机学院联合创建的具身智能数据集和Benchmark

获取论文全部内容：文章链接：：，具身智能产业迅猛发展，赋予机器人类人化的泛化能力是具身智能机器人技术的核心目标之一，实现这一目标的关键在于如何使各类机器人本体在面对多样化的环境和任务时，能够展现出卓越的性能。正如ChatGPT需要海量文本数据来训练一样，想要培养出一个能力全面的机器人，也需要大量优质的训练数据，数据集是具身智能技术发展的重要基石。与视觉或语言数据的获取相比，收集机器人训练数据远比收集文本或图像数据困难得多，需要在专门的环境中记录机器人的每个关节动作和末端执行器的信息，这个过程不仅需要昂贵的硬件设备，还需投入大量人力来确保数据质量，因而业内目前最具通用性的机器人操作策略主要依赖于在有限多样性条件下收集的数据，大规模多构型具身智能数据集和Benchmark是极为稀缺的资源。

12/27/2024 2:53:00 PM

新闻助手

轻松搭建AI版“谁是卧底”游戏，muAgent框架让知识图谱秒变编排引擎，支持复杂推理+在线协同

全新Agent框架，将知识图谱从知识获取来源直接升级为Agent编排引擎。蚂蚁集团推出muAgent，兼容现有市面各类Agent框架，同时可实现复杂推理、在线协同、人工交互、知识即用四大核心差异技术功能。这套框架目前在蚂蚁集团内多个复杂DevOps场景落地验证，同时可通过快速搭建的创新AI文本游戏“谁是卧底”游戏快速感受一下。

11/6/2024 2:46:10 PM

英伟达团队机器训练新方法：仅 5 次演示让机器生成 1000 个新 demo

人类只需要演示五次，就能让机器人学会一项复杂技能。英伟达实验室，提出了机器人训练数据缺乏问题的新解决方案 ——DexMimicGen。五次演示之后，DexMimicGen 就可以直接模仿出 1000 个新的 demo。

11/5/2024 12:56:36 PM

汪淼

克服奖励欺骗：Meta 发布全新后训练方式 CGPO 编程水平直升 5%，打破 RLHF 瓶颈

CGPO 框架通过混合评审机制和约束优化器，有效解决了 RLHF 在多任务学习中的奖励欺骗和多目标优化问题，显著提升了语言模型在多任务环境中的表现。 CGPO 的设计为未来多任务学习提供了新的优化路径，有望进一步提升大型语言模型的效能和稳定性。近年来，随着大规模语言模型（LLMs）的发展，特别是通用大模型的应用场景愈发广泛，RLHF 逐渐成为调整和优化语言模型输出的主流方法。

11/1/2024 10:31:28 PM

问舟

AI 让手机任务自动“跑”起来！我国高校最新研究，简化移动设备操作

AI 解放碳基生物双手，甚至能让你的手机自己玩自己！你没听错 —— 这其实就是移动任务自动化。在 AI 飞速发展下，这逐渐成为一个新兴的热门研究领域。

10/31/2024 2:31:43 PM

清源

智源推出全能视觉生成模型 OmniGen：支持文生图、图像编辑等

北京智源人工智能研究院（BAAI）推出了新的扩散模型架构 OmniGen，这是一种用于统一图像生成的多模态模型。 ▲ 文本生成图像，编辑生成图像的部分元素，根据生成图像的人体姿态生成重绘图像，从另一图像中提取所需对象与新图像融合官方表示，OmniGen 具有以下特点：统一性：OmniGen 天然地支持各种图像生成任务，例如文生图、图像编辑、主题驱动生成和视觉条件生成等。此外，OmniGen 可以处理经典的计算机视觉任务，将其转换为图像生成任务。

10/29/2024 4:11:56 PM

沛霖（实习）

中国科大、科大讯飞团队开发ChemEval：化学大模型多层次多维度能力评估的新基准

编辑｜ ScienceAI近日，认知智能全国重点实验室、中国科学技术大学陈恩红教授团队，科大讯飞研究院 AI for Science 团队发布了论文《ChemEval: A Comprehensive Multi-Level Chemical Evaluation for Large Language Models》，介绍了新研发的一个面向化学领域大模型能力的多层次多维度评估框架 ChemEval。论文链接: : （NLP）的领域中，大语言模型（LLMs）已经成为推动语言理解与生成能力不断进步的强大引擎。随着这些

10/5/2024 6:38:00 AM

ScienceAI

OpenAI 引领 AI 浪潮：o1 模型可处理 5 小时任务，颠覆营销思维和模式

科技媒体 The Decoder 昨日（9 月 30 日）发布博文，报道称在 Hubspot 的 Inbound 活动上，OpenAI 战略营销负责人 Dane Vahey 表示 o1 模型可以处理 5 小时的任务。营销人员需要提高 AI 技能Vahey 认为，随着营销任务变得越来越复杂，人工智能正变得越来越重要，专业人士需要以更低的获取成本和更少的资源实现相同的结果。虽然许多公司已经在营销中使用人工智能，特别是在内容创作方面，但 Vahey 认为市场营销人员应该发展更广泛的人工智能技能，这些技能包括研究、数据分析

10/1/2024 2:28:39 PM

故渊

OpenAI o1 在医学领域的初步研究，我们离 AI 医生更近了吗？

编辑 | 紫罗大语言模型 (LLM) 在各个领域和任务中都表现出了卓越的能力，突破了我们在学习和认知方面的知识界限。最新模型 OpenAI 的 o1 脱颖而出，成为第一个使用思维链 (CoT) 技术和强化学习的 LLM。虽然 o1 在一般任务中表现良好，但它在医学等专业领域的表现仍然未知。目前医学 LLM 的基准通常集中在一定范围内，例如知识、推理或安全，这使得在复杂的医学任务中对这些模型进行全面评估变得复杂。来自加州大学圣克鲁斯分校、爱丁堡大学和美国国立卫生研究院的研究人员评估了 OpenAI 的 o1 模型在医

9/27/2024 5:36:00 PM

ScienceAI

迈向「多面手」医疗大模型，上交大团队发布大规模指令微调数据、开源模型与全面基准测试

编辑 | ScienceAI近日，上海交通大学、上海 AI Lab、中国移动等机构的联合研究团队，在 arXiv 预印平台发布文章《Towards Evaluating and Building Versatile Large Language Models for Medicine》，从数据、测评、模型多个角度全面分析讨论了临床医学大语言模型应用。文中所涉及的所有数据和代码、模型均已开源。GitHub: Link: : ，大型语言模型（LLM）取得了显著的进展，并在医疗领域取得了一定成果。这些模型在医学多

9/3/2024 7:09:00 PM

ScienceAI

Meta 发布 Sapiens 视觉模型，让 AI 分析和理解图片 / 视频中人类动作

Meta Reality 实验室最新推出了名为 Sapiens 的 AI 视觉模型，适用于二维姿势预估、身体部位分割、深度估计和表面法线预测 4 种以人为中心的基本视觉任务。这些模型的参数数量各不相同，从 3 亿到 20 亿不等。它们采用视觉转换器架构，任务共享相同的编码器，而每个任务有不同的解码器头。二维姿势预估：这项任务包括检测和定位二维图像中人体的关键点。这些关键点通常与肘、膝和肩等关节相对应，有助于了解人的姿势和动作。身体部位分割：这项任务将图像分割成不同的身体部位，如头部、躯干、手臂和腿部。图像中的每个像

8/24/2024 2:36:02 PM

故渊

无一大模型及格！北大 / 通研院提出超难基准 LooGLE，专门评估长文本理解生成

在长文本理解能力这块，竟然没有一个大模型及格！北大联合北京通用人工智能研究院提出了一个新基准数据集：LooGLE，专门用于测试和评估大语言模型（LLMs）长上下文理解能力。该数据集既能够评估 LLMs 对长文本的处理和检索能力，又可以评估其对文本长程依赖的建模和理解能力。结果不评不知道，一评估发现这些模型在复杂的长依赖任务中的多信息检索、时间重排序、计算、理解推理能力表现均不乐观。比如像 Claude3-200k，GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex 这种商业模型，

8/7/2024 12:46:42 PM

汪淼

专治 AI 大模型对错误答案“过于自信”，麻省理工学院提出新型高效低耗校准方法

人们正在越来越多地使用大模型完成各种任务，不论是翻译、总结文章还是识别金融诈骗，大模型都是“无所不包”。尽管这些模型都具有“惊人”能力，但它们偶尔也会生成错误答案，并对错误答案过于自信、对正确答案信心不足，使用户对大模型是否值得信任表示怀疑。据 MIT NEWS 今日报道，麻省理工学院（MIT）和 MIT-IBM Watson AI Lab 的研究人员提出了一种专为大型语言模型量身定制的校准方法。他们的方法被称为“温度计”，其原理是在大语言模型之上构建一个较小的辅助模型来对其进行校准。图源 Pexels据悉，这种被

7/31/2024 3:02:13 PM

清源

有效评估Agent实际表现，新型在线评测框架WebCanvas来了

当 LLM Agent 踏入真实的在线网络世界时，它们的表现能否如预期般游刃有余？

7/17/2024 3:00:00 PM

机器之心

资讯热榜

这样在本地搭建DeepSeek可以直接封神：本地部署+避坑指南（升级版）基于 Spring AI + MCP + DeepSeek-R1-7B 构建企业级智能 Agent 工具调用系统 Manus开源平替！Kortix-AI正式发布开源通用AI智能体平台Suna Trae v1.3.0重磅更新，新增MCP与.rules支持引领AI开发新体验纳米AI发布MCP万能工具箱，简化AI工具集成与调用 Figma 推 AI 革命：开发智能应用制作器与网站创建工具即梦3.0海外版发布，电影级视觉与精准英文排版引领AI创作新高度 Persona Engine开源发布，AI虚拟助手与Live2D融合打造交互新体验

标签云

人工智能 OpenAI AIGC AI ChatGPT AI绘画 DeepSeek 数据机器人模型谷歌大模型 Midjourney 智能用户开源学习 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora 3D Anthropic AI for Science AI设计机器学习 GPU AI视频开发者场景华为预测百度人形机器人伟达苹果 Transformer 深度学习模态 xAI 字节跳动 Claude 大语言模型搜索驾驶文本具身智能神器推荐 Copilot LLaMA 算力视频生成安全干货合集视觉应用大型语言模型科技亚马逊特斯拉 AGI 训练 2024