任务

轻松搭建AI版“谁是卧底”游戏，muAgent框架让知识图谱秒变编排引擎，支持复杂推理+在线协同
全新Agent框架，将知识图谱从知识获取来源直接升级为Agent编排引擎。蚂蚁集团推出muAgent，兼容现有市面各类Agent框架，同时可实现复杂推理、在线协同、人工交互、知识即用四大核心差异技术功能。这套框架目前在蚂蚁集团内多个复杂DevOps场景落地验证，同时可通过快速搭建的创新AI文本游戏“谁是卧底”游戏快速感受一下。
理论
- 969
- 0
admin11月6日
英伟达团队机器训练新方法：仅 5 次演示让机器生成 1000 个新 demo
人类只需要演示五次，就能让机器人学会一项复杂技能。英伟达实验室，提出了机器人训练数据缺乏问题的新解决方案 ——DexMimicGen。五次演示之后，DexMimicGen 就可以直接模仿出 1000 个新的 demo。
应用
- 9
- 0
汪淼11月5日
克服奖励欺骗：Meta 发布全新后训练方式 CGPO 编程水平直升 5%，打破 RLHF 瓶颈
CGPO 框架通过混合评审机制和约束优化器，有效解决了 RLHF 在多任务学习中的奖励欺骗和多目标优化问题，显著提升了语言模型在多任务环境中的表现。 CGPO 的设计为未来多任务学习提供了新的优化路径，有望进一步提升大型语言模型的效能和稳定性。近年来，随着大规模语言模型（LLMs）的发展，特别是通用大模型的应用场景愈发广泛，RLHF 逐渐成为调整和优化语言模型输出的主流方法。
应用
- 4
- 0
问舟11月1日
AI 让手机任务自动“跑”起来！我国高校最新研究，简化移动设备操作
AI 解放碳基生物双手，甚至能让你的手机自己玩自己！你没听错 —— 这其实就是移动任务自动化。在 AI 飞速发展下，这逐渐成为一个新兴的热门研究领域。
应用
- 16
- 0
清源10月31日
中国科大、科大讯飞团队开发ChemEval：化学大模型多层次多维度能力评估的新基准
编辑｜ ScienceAI近日，认知智能全国重点实验室、中国科学技术大学陈恩红教授团队，科大讯飞研究院 AI for Science 团队发布了论文《ChemEval: A Comprehensive Multi-Level Chemical Evaluation for Large Language Models》，介绍了新研发的一个面向化学领域大模型能力的多层次多维度评估框架 ChemEva…
理论
- 11
- 0
ScienceAI10月5日
OpenAI 引领 AI 浪潮：o1 模型可处理 5 小时任务，颠覆营销思维和模式
科技媒体 The Decoder 昨日（9 月 30 日）发布博文，报道称在 Hubspot 的 Inbound 活动上，OpenAI 战略营销负责人 Dane Vahey 表示 o1 模型可以处理 5 小时的任务。营销人员需要提高 AI 技能Vahey 认为，随着营销任务变得越来越复杂，人工智能正变得越来越重要，专业人士需要以更低的获取成本和更少的资源实现相同的结果。虽然许多公司已经在营销中使用…
应用
- 6
- 0
故渊10月1日
OpenAI o1 在医学领域的初步研究，我们离 AI 医生更近了吗？
编辑 | 紫罗大语言模型 (LLM) 在各个领域和任务中都表现出了卓越的能力，突破了我们在学习和认知方面的知识界限。最新模型 OpenAI 的 o1 脱颖而出，成为第一个使用思维链 (CoT) 技术和强化学习的 LLM。虽然 o1 在一般任务中表现良好，但它在医学等专业领域的表现仍然未知。目前医学 LLM 的基准通常集中在一定范围内，例如知识、推理或安全，这使得在复杂的医学任务中对这些模型进行全面…
理论
- 12
- 0
ScienceAI9月27日
迈向「多面手」医疗大模型，上交大团队发布大规模指令微调数据、开源模型与全面基准测试
编辑 | ScienceAI近日，上海交通大学、上海 AI Lab、中国移动等机构的联合研究团队，在 arXiv 预印平台发布文章《Towards Evaluating and Building Versatile Large Language Models for Medicine》，从数据、测评、模型多个角度全面分析讨论了临床医学大语言模型应用。文中所涉及的所有数据和代码、模型均已开源。Git…
理论
- 28
- 0
ScienceAI9月3日
Meta 发布 Sapiens 视觉模型，让 AI 分析和理解图片 / 视频中人类动作
Meta Reality 实验室最新推出了名为 Sapiens 的 AI 视觉模型，适用于二维姿势预估、身体部位分割、深度估计和表面法线预测 4 种以人为中心的基本视觉任务。这些模型的参数数量各不相同，从 3 亿到 20 亿不等。它们采用视觉转换器架构，任务共享相同的编码器，而每个任务有不同的解码器头。二维姿势预估：这项任务包括检测和定位二维图像中人体的关键点。这些关键点通常与肘、膝和肩等关节相对…
应用
- 41
- 0
故渊8月24日
无一大模型及格！北大 / 通研院提出超难基准 LooGLE，专门评估长文本理解生成
在长文本理解能力这块，竟然没有一个大模型及格！北大联合北京通用人工智能研究院提出了一个新基准数据集：LooGLE，专门用于测试和评估大语言模型（LLMs）长上下文理解能力。该数据集既能够评估 LLMs 对长文本的处理和检索能力，又可以评估其对文本长程依赖的建模和理解能力。结果不评不知道，一评估发现这些模型在复杂的长依赖任务中的多信息检索、时间重排序、计算、理解推理能力表现均不乐观。比如像 Clau…
应用
- 18
- 0
汪淼8月7日
专治 AI 大模型对错误答案“过于自信”，麻省理工学院提出新型高效低耗校准方法
人们正在越来越多地使用大模型完成各种任务，不论是翻译、总结文章还是识别金融诈骗，大模型都是“无所不包”。尽管这些模型都具有“惊人”能力，但它们偶尔也会生成错误答案，并对错误答案过于自信、对正确答案信心不足，使用户对大模型是否值得信任表示怀疑。据 MIT NEWS 今日报道，麻省理工学院（MIT）和 MIT-IBM Watson AI Lab 的研究人员提出了一种专为大型语言模型量身定制的校准方法。…
应用
- 8
- 0
清源7月31日
有效评估Agent实际表现，新型在线评测框架WebCanvas来了
当 LLM Agent 踏入真实的在线网络世界时，它们的表现能否如预期般游刃有余？
理论
- 10
- 0
机器之心7月17日