策略

LLM幻觉，竟因知识「以大欺小」！华人团队祭出对数线性定律与CoDA策略

大语言模型（LLMs）已经彻底改变了AI，但「幻觉」问题如影随从，堪称LLM癌症。 LLM会一本正经、义正辞严的捏造事实，「脸不红，心不跳」地说谎。「幻觉」被普遍认为与训练数据相关。

4/8/2025 2:22:00 AM

新智元

RAG技术落地的两个问题及应对策略

什么是RAG？ RAG的全称是检索增强生成（Retrieval-Augmented Generation，简称RAG），它结合了检索和和生成技术，通过整合检索系统和生成模型的优势，来提升模型生成文本的质量和上下文相关性。这种技术主要是为了解决生成式模型在面对需要具体、实时或领域专业知识时可能产生的准确性不足和上下文不敏感的问题。

11/11/2024 2:23:11 PM

fxcc

夺冠！卓世AI斩获全球顶会AAMAS 2024 CE 竞赛冠军

近日，在全球瞩目的AAMAS 2024 Computational Economics Competition（计算经济学挑战赛）上，卓世科技人工智能前沿实验室团队“Zhuoshi Technology AI Cutting-edge Laboratory”一举夺得两个核心赛道的冠军和亚军，展现出其在计算经济学和人工智能领域的强大竞争力。冠军证书亚军证书AAMAS 2024 是第23届国际自主智能体和多智能体系统会议（International Conference on Autonomous Agents and

6/11/2024 2:41:00 PM

新闻助手

斯坦福团队新作：喊话就能指导机器人，任务成功率暴增，网友：特斯拉搞快点

斯坦福的 ALOHA 家务机器人团队，发布了最新研究成果 ——项目名为 Yell At Your Robot（简称 YAY），有了它，机器人的“翻车”动作，只要喊句话就能纠正了！而且机器人可以随着人类的喊话动态提升动作水平、即时调整策略，并根据反馈持续自我改进。比如在这个场景中，机器人没能完成系统设定的“把海绵放入袋子”的任务。这时研究者直接朝它喊话，“用海绵把袋子撑得再开一些”，之后就一下子成功了。而且，这些纠正的指令还会被系统记录下来，成为训练数据，用于进一步提高机器人的后续表现。有网友看了说，既然已经能朝着机

4/8/2024 11:51:42 PM

清源

从框架到经典方法，全面了解分布式深度强化学习DDRL

本文在回顾分布式深度强化学习 DDRL 基本框架的基础上，重点介绍了 IMPALA 框架系列方法。AlphaGo 是一个在人机博弈中赢得众多职业围棋手的 agent 机器人。随着 AlphaGo 的突破，深度强化学习（Deep Reinforcement Learning，DRL）成为一种公认的解决连续决策问题的有效技术。人们开发了大量算法来解决介于 DRL 与现实世界应用之间的挑战性问题，如探索与开发困境、数据低效、多 agent 合作与竞争等。在所有这些挑战中，由于 DRL 的试错学习机制需要大量交互数据，数据

2/15/2024 4:17:00 PM

机器之心

Creator 面对面 | 自监督学习范式未来能够在强化学习中发挥关键的作用

我们都知道自监督学习在 CV 和 NLP 领域都有比较广泛的应用，比如大模型 BERT、GPT-3 等训练，其实最核心的技术就是基于自监督学习的技术。那么在 CV 和 NLP 领域都取得成功的自监督学习，是否可以被借鉴或是利用到强化学习领域呢？

7/25/2022 5:42:00 PM

SOTA模型

通过奖励随机化发现多智能体游戏中多样性策略行为，清华、UC伯克利等研究者提出全新算法RPG

在这篇论文中，研究者提出了一个在 reward-space 进行探索的新算法 RPG（Reward-Randomized Policy Gradient），并且在存在多个纳什均衡 (Nash Equilibrium, NE) 的挑战性的多智能任务中进行了实验验证，实验结果表明，RPG 的表现显著优于经典的 policy/action-space 探索的算法，并且发现了很多有趣的、人类可以理解的智能体行为策略。除此之外，论文进一步提出了 RPG 算法的扩展：利用 RR 得到的多样性策略池训练一个新的具备自适应能力的策

3/11/2021 2:46:00 PM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发本地部署DeepSeek+DiFy平台构建智能体应用击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！谷歌 Gemini AI 新功能 Circle Screen 曝光：圈选截屏特定区域，实现精准搜索

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练