验证

7B级形式化推理与验证小模型，媲美满血版DeepSeek-R1，全面开源！

研究团队构成：香港科技大学、中国科学院软件研究所、西安电子科技大学和重庆大学。团队核心成员：香港科技大学的研究助理教授曹嘉伦，主要研究领域包括 AI&SE、人工智能测试、形式化验证等；中国科学院软件研究所副研究员陆垚杰，主要研究领域包括大语言模型及其应用。随着 DeepSeek-R1 的流行与 AI4Math 研究的深入，大模型在辅助形式化证明写作方面的需求日益增长。

3/8/2025 3:46:00 PM

机器之心

科学发现速度提高10倍？统计原则+智能体，斯坦福&哈佛提出自动化假设验证框架POPPER

编辑丨coisini假设验证在科学发现、决策制定和信息获取中具有基础作用。无论是在生物学、经济学还是政策制定中，研究者往往依赖于检验假设来指导其结论。传统上，这一过程涉及设计实验、收集数据并分析结果以确定假设的有效性。

2/25/2025 2:26:00 PM

ScienceAI

AI“攻克”CAPTCHA 网站验证系统

互联网时代，网站如何判断访问者是人类用户还是机器人？其中一个被广泛部署的解决方案，就是 CAPTCHA 验证系统。不过在迈入 AI 时代后，CAPTCHA 验证系统的识别和防御能力被大打折扣。用户在访问某些网站时，可能就会遇到 CAPTCHA 验证系统，要求用户从 9 张图片中，筛选汽车、自行车、桥梁或红绿灯等，来证明是人类访问者。根据苏黎世联邦理工学院（ETH Zurich）的最新研究，AI 现在可以成功击败这些谜题。这款人工智能解谜软件建立在一个被广泛使用的人工智能图片处理模型之上，该模型被称为“You Onl

9/24/2024 10:21:12 AM

故渊

谷歌 DeepMind 展示 GenRM 技术：微调 LLMs 作为奖励模型，提升生成式 AI 推理能力

谷歌 DeepMind 团队于 8 月 27 日在 arxiv 上发表论文，介绍展示了 GenRM 生成式验证器，创造性提出奖励模型，从而提升生成式 AI 推理能力。AI 行业内，目前提高大语言模型（LLMs）的主流做法就是 Best-of-N 模式，即由 LLM 生成的 N 个候选解决方案由验证器进行排序，并选出最佳方案。这种基于 LLM 的验证器通常被训练成判别分类器来为解决方案打分，但它们无法利用预训练 LLMs 的文本生成能力。DeepMind 团队为了克服这个局限性，尝试使用下一个 token 预测目标来

9/3/2024 7:06:26 AM

故渊

Meta FAIR 和 Samaya AI 团队利用 AI 提高维基百科的可验证性

编辑 | 白菜叶可验证性是维基百科的核心内容政策：声明需要有引用的支持。维护和提高维基百科参考文献的质量是一项重要的挑战，迫切需要更好的工具来帮助人类完成这项工作。在这里，Samaya AI 和 Meta FAIR 的研究人员表明，可以借助由信息检索系统和语言模型提供支持的人工智能 (AI) 来解决改进参考的过程。这种基于神经网络的系统（这里称之为 SIDE）可以识别不太可能支持其主张的维基百科引文，然后从网络上推荐更好的引文。该团队在现有的维基百科参考资料上训练这个模型，因此从数千名维基百科编辑的贡献和综合智慧中

10/24/2023 11:25:00 AM

ScienceAI

如何防止我的模型过拟合？这篇文章给出了6大必备方法

正如巴菲特所言：「近似的正确好过精确的错误。」

1/20/2021 3:01:00 PM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ Haisnap横空出世，小白用户也能轻松打造AI应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 本地部署DeepSeek+DiFy平台构建智能体应用韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练