任务
DARWIN 1.5 来啦!材料设计通用大语言模型,刷新多项实验性质预测记录
编辑丨Science AI材料发现和设计的核心目标是寻找理想的成分和结构,但传统方法,如高通量模拟和机器学习,通常依赖于复杂描述符,过于固定且难以通用,并且无法准确反映真实材料特性,因而限制了实际应用。 GreenDynamic 与来自澳大利亚新南威尔士大学(UNSW),上海人工智能实验室和香港城市大学的团队共同开发了一款名为 DARWIN 1.5 的模型。 不同于传统机器学习方法,DARWIN 基于语言接口微调框架(LIFT,2022 NeurIPS, 本文共同作者),整合了 33 万科学问答和 22 个材料科学任务,为材料属性预测和发现提供了灵活统一的预训练模型,并且成功精准预测了上万种材料的性质数值。
RoboMIND:国家地方共建具身智能机器人创新中心与北京大学计算机学院联合创建的具身智能数据集和Benchmark
获取论文全部内容:文章链接 : :,具身智能产业迅猛发展,赋予机器人类人化的泛化能力是具身智能机器人技术的核心目标之一,实现这一目标的关键在于如何使各类机器人本体在面对多样化的环境和任务时,能够展现出卓越的性能。 正如ChatGPT需要海量文本数据来训练一样,想要培养出一个能力全面的机器人,也需要大量优质的训练数据,数据集是具身智能技术发展的重要基石。 与视觉或语言数据的获取相比,收集机器人训练数据远比收集文本或图像数据困难得多,需要在专门的环境中记录机器人的每个关节动作和末端执行器的信息,这个过程不仅需要昂贵的硬件设备,还需投入大量人力来确保数据质量,因而业内目前最具通用性的机器人操作策略主要依赖于在有限多样性条件下收集的数据,大规模多构型具身智能数据集和Benchmark是极为稀缺的资源。
轻松搭建AI版“谁是卧底”游戏,muAgent框架让知识图谱秒变编排引擎,支持复杂推理+在线协同
全新Agent框架,将知识图谱从知识获取来源直接升级为Agent编排引擎。 蚂蚁集团推出muAgent,兼容现有市面各类Agent框架,同时可实现复杂推理、在线协同、人工交互、知识即用四大核心差异技术功能。 这套框架目前在蚂蚁集团内多个复杂DevOps场景落地验证,同时可通过快速搭建的创新AI文本游戏“谁是卧底”游戏快速感受一下。
英伟达团队机器训练新方法:仅 5 次演示让机器生成 1000 个新 demo
人类只需要演示五次,就能让机器人学会一项复杂技能。 英伟达实验室,提出了机器人训练数据缺乏问题的新解决方案 ——DexMimicGen。 五次演示之后,DexMimicGen 就可以直接模仿出 1000 个新的 demo。
克服奖励欺骗:Meta 发布全新后训练方式 CGPO 编程水平直升 5%,打破 RLHF 瓶颈
CGPO 框架通过混合评审机制和约束优化器,有效解决了 RLHF 在多任务学习中的奖励欺骗和多目标优化问题,显著提升了语言模型在多任务环境中的表现。 CGPO 的设计为未来多任务学习提供了新的优化路径,有望进一步提升大型语言模型的效能和稳定性。 近年来,随着大规模语言模型(LLMs)的发展,特别是通用大模型的应用场景愈发广泛,RLHF 逐渐成为调整和优化语言模型输出的主流方法。
AI 让手机任务自动“跑”起来!我国高校最新研究,简化移动设备操作
AI 解放碳基生物双手,甚至能让你的手机自己玩自己! 你没听错 —— 这其实就是移动任务自动化。 在 AI 飞速发展下,这逐渐成为一个新兴的热门研究领域。
智源推出全能视觉生成模型 OmniGen:支持文生图、图像编辑等
北京智源人工智能研究院(BAAI)推出了新的扩散模型架构 OmniGen,这是一种用于统一图像生成的多模态模型。 ▲ 文本生成图像,编辑生成图像的部分元素,根据生成图像的人体姿态生成重绘图像,从另一图像中提取所需对象与新图像融合官方表示,OmniGen 具有以下特点:统一性:OmniGen 天然地支持各种图像生成任务,例如文生图、图像编辑、主题驱动生成和视觉条件生成等。 此外,OmniGen 可以处理经典的计算机视觉任务,将其转换为图像生成任务。
中国科大、科大讯飞团队开发ChemEval:化学大模型多层次多维度能力评估的新基准
编辑 | ScienceAI近日,认知智能全国重点实验室、中国科学技术大学陈恩红教授团队,科大讯飞研究院 AI for Science 团队发布了论文《ChemEval: A Comprehensive Multi-Level Chemical Evaluation for Large Language Models》,介绍了新研发的一个面向化学领域大模型能力的多层次多维度评估框架 ChemEval。论文链接: : (NLP)的领域中,大语言模型(LLMs)已经成为推动语言理解与生成能力不断进步的强大引擎。随着这些
OpenAI 引领 AI 浪潮:o1 模型可处理 5 小时任务,颠覆营销思维和模式
科技媒体 The Decoder 昨日(9 月 30 日)发布博文,报道称在 Hubspot 的 Inbound 活动上,OpenAI 战略营销负责人 Dane Vahey 表示 o1 模型可以处理 5 小时的任务。营销人员需要提高 AI 技能Vahey 认为,随着营销任务变得越来越复杂,人工智能正变得越来越重要,专业人士需要以更低的获取成本和更少的资源实现相同的结果。虽然许多公司已经在营销中使用人工智能,特别是在内容创作方面,但 Vahey 认为市场营销人员应该发展更广泛的人工智能技能,这些技能包括研究、数据分析
OpenAI o1 在医学领域的初步研究,我们离 AI 医生更近了吗?
编辑 | 紫罗大语言模型 (LLM) 在各个领域和任务中都表现出了卓越的能力,突破了我们在学习和认知方面的知识界限。最新模型 OpenAI 的 o1 脱颖而出,成为第一个使用思维链 (CoT) 技术和强化学习的 LLM。虽然 o1 在一般任务中表现良好,但它在医学等专业领域的表现仍然未知。目前医学 LLM 的基准通常集中在一定范围内,例如知识、推理或安全,这使得在复杂的医学任务中对这些模型进行全面评估变得复杂。来自加州大学圣克鲁斯分校、爱丁堡大学和美国国立卫生研究院的研究人员评估了 OpenAI 的 o1 模型在医
迈向「多面手」医疗大模型,上交大团队发布大规模指令微调数据、开源模型与全面基准测试
编辑 | ScienceAI近日,上海交通大学、上海 AI Lab、中国移动等机构的联合研究团队,在 arXiv 预印平台发布文章《Towards Evaluating and Building Versatile Large Language Models for Medicine》,从数据、测评、模型多个角度全面分析讨论了临床医学大语言模型应用。文中所涉及的所有数据和代码、模型均已开源。GitHub: Link: : ,大型语言模型(LLM)取得了显著的进展,并在医疗领域取得了一定成果。这些模型在医学多
Meta 发布 Sapiens 视觉模型,让 AI 分析和理解图片 / 视频中人类动作
Meta Reality 实验室最新推出了名为 Sapiens 的 AI 视觉模型,适用于二维姿势预估、身体部位分割、深度估计和表面法线预测 4 种以人为中心的基本视觉任务。这些模型的参数数量各不相同,从 3 亿到 20 亿不等。它们采用视觉转换器架构,任务共享相同的编码器,而每个任务有不同的解码器头。二维姿势预估:这项任务包括检测和定位二维图像中人体的关键点。这些关键点通常与肘、膝和肩等关节相对应,有助于了解人的姿势和动作。身体部位分割:这项任务将图像分割成不同的身体部位,如头部、躯干、手臂和腿部。图像中的每个像
无一大模型及格!北大 / 通研院提出超难基准 LooGLE,专门评估长文本理解生成
在长文本理解能力这块,竟然没有一个大模型及格!北大联合北京通用人工智能研究院提出了一个新基准数据集:LooGLE,专门用于测试和评估大语言模型(LLMs)长上下文理解能力。该数据集既能够评估 LLMs 对长文本的处理和检索能力,又可以评估其对文本长程依赖的建模和理解能力。结果不评不知道,一评估发现这些模型在复杂的长依赖任务中的多信息检索、时间重排序、计算、理解推理能力表现均不乐观。比如像 Claude3-200k,GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex 这种商业模型,
专治 AI 大模型对错误答案“过于自信”,麻省理工学院提出新型高效低耗校准方法
人们正在越来越多地使用大模型完成各种任务,不论是翻译、总结文章还是识别金融诈骗,大模型都是“无所不包”。尽管这些模型都具有“惊人”能力,但它们偶尔也会生成错误答案,并对错误答案过于自信、对正确答案信心不足,使用户对大模型是否值得信任表示怀疑。据 MIT NEWS 今日报道,麻省理工学院(MIT)和 MIT-IBM Watson AI Lab 的研究人员提出了一种专为大型语言模型量身定制的校准方法。他们的方法被称为“温度计”,其原理是在大语言模型之上构建一个较小的辅助模型来对其进行校准。图源 Pexels据悉,这种被
有效评估Agent实际表现,新型在线评测框架WebCanvas来了
当 LLM Agent 踏入真实的在线网络世界时,它们的表现能否如预期般游刃有余?
击败25个分子设计算法,佐治亚理工、多伦多大学、康奈尔提出大语言模型MOLLEO
作者 | 佐治亚理工学院王浩瑞编辑 | ScienceAI分子发现作为优化问题,因其优化目标可能不可微分而带来显著的计算挑战。进化算法(EAs)常用于优化分子发现中的黑箱目标,通过随机突变和交叉来遍历化学空间,但这会导致大量昂贵的目标评估。在这项工作中,佐治亚理工学院、多伦多大学和康奈尔大学研究者合作提出了分子语言增强进化优化(MOLLEO),通过将拥有化学知识的预训练大语言模型(LLMs)整合到进化算法中,显著改善了进化算法的分子优化能力。该研究以《Efficient Evolutionary Search Ov
人为破坏也能修正,中国首个视觉扩散架构人形机器人生成式模型发布
IT之家从天府发布官方公众号获悉,成都人形机器人创新中心发布了中国首个基于视觉扩散架构的人形机器人任务生成式模型 R-DDPRM。▲ 任务中断时的任务断点快速全局推理与接续执行能力该模型具有同时确定拿起物体的最佳抓持位姿、移动物体最佳路线、能耗最少最佳等多要素全局规划思维能力。能够在人为破坏任务进程时迅速进行决策修正和调整执行方式,接续完成任务,该模型的泛化能力能让人形机器人自主流畅完成从整理房间到复杂外科手术等各种复杂任务。成都人形机器人创新中心是中西部地区首个人形机器人创新中心,位于成都科创生态岛,是四川省人工
GPT-4o 差点没及格!首个多任务长视频评测基准,它有亿点难
难度大升级的多任务长视频理解评测基准 MLVU 来了!由智源联合北邮、北大和浙大等多所高校推出。究竟有多难呢?最终排名第一的 GPT-4o 单选正确率还不足 65%。而且研究发现,大部分模型的性能都会随着视频时长增加显著下降。研究进一步证明,提升上下文窗口,提升图像理解能力,以及使用更强大的 LLM Backbone 对长视频理解的性能具有显著的提升作用。目前相关论文及数据集已公开,具体细节下面一起看看吧~MLVU 的构建过程当前流行的 Video Benchmark 主要针对短视频设计,大部分视频的长度都在 1