北京交通大学

北交开源 o1 代码版：强化学习 + 蒙特卡洛树搜索，放出源代码、精选数据集以及衍生模型

北交开源 o1 代码版：强化学习 + 蒙特卡洛树搜索，放出源代码、精选数据集以及衍生模型

团队认为编码是一个需要 System-2 思维方式的典型任务，涉及谨慎、逻辑、一步步的问题解决过程。而他们的策略是将强化学习（RL）与蒙特卡洛树搜索（MCTS）相结合，让模型能够不断生成推理数据，提升其 System-2 能力。

12/9/2024 12:34:55 PM

汪淼

1

资讯热榜

Manus开源平替！Kortix-AI正式发布开源通用AI智能体平台Suna AI视频资讯早读！7个产品更新+8个案例精选纳米AI发布MCP万能工具箱，简化AI工具集成与调用即梦3.0海外版发布，电影级视觉与精准英文排版引领AI创作新高度腾讯混元3D AI引擎2.5即将揭晓，3D生成技术再升级 DeepWiki：AI驱动的GitHub代码库百科全书正式亮相 OpenAI发布gpt-image-1 API，4o图像生成能力正式开放白板+代码编辑器组合工具pad.ws：开发者可在同一界面画图编程，实现边画边写代码

标签云

人工智能 OpenAI AIGC AI ChatGPT AI绘画 DeepSeek 数据机器人模型谷歌大模型 Midjourney 智能开源用户学习 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion Gemini 马斯克算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Anthropic Sora 3D AI for Science AI设计机器学习 GPU AI视频开发者场景华为预测人形机器人百度伟达苹果 Transformer 深度学习 xAI 模态字节跳动大语言模型 Claude 搜索驾驶文本具身智能神器推荐 Copilot LLaMA 算力安全视觉视频生成干货合集应用大型语言模型科技亚马逊训练特斯拉 AGI DeepMind