评估

智能体模拟《西部世界》一样的社会，复旦大学等出了篇系统综述
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。
理论
- 975
- 0
机器之心12月6日
上交大o1复现新突破：蒸馏超越原版，警示AI研发”捷径陷阱”
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。
工程
- 970
- 0
机器之心11月22日
中国科大、科大讯飞团队开发ChemEval：化学大模型多层次多维度能力评估的新基准
编辑｜ ScienceAI近日，认知智能全国重点实验室、中国科学技术大学陈恩红教授团队，科大讯飞研究院 AI for Science 团队发布了论文《ChemEval: A Comprehensive Multi-Level Chemical Evaluation for Large Language Models》，介绍了新研发的一个面向化学领域大模型能力的多层次多维度评估框架 ChemEva…
理论
- 11
- 0
ScienceAI10月5日
OpenAI 发布 MMMLU 数据集：更广、更深评估 AI 模型，支持简体中文
科技媒体 marktechpost 昨日（9 月 23 日）发布博文，报道称 OpenAI 在 Hugging Face 上发布了多语言大规模多任务语言理解（MMMLU）数据集。背景随着语言模型日益强大，评估其在不同语言、认知和文化背景下的能力已成为当务之急。OpenAI 决定推出 MMMLU 数据集，通过提供强大的多语言和多任务数据集，来评估大型语言模型（LLMs）在各种任务中的性能，从而应对这…
应用
- 6
- 0
故渊9月24日
IDC 首次发布移动端 AI 大模型应用报告：百度文心一言发展较全面、抖音豆包用户活跃度表现出色
市场调查机构 IDC 昨日（9 月 2 日）首次发布了移动端大模型应用市场竞争力分析研究报告，评估了市场上 8 款热门 Chatbot 聊天机器人模型，并分析、洞察了相关 AI 模型的性能和特征。AI在线附上本次评估的 8 款 Chatbot App 如下（按照公司拼音首字母顺序排列）：kimi 智能助手豆包海螺 AI天工通义文心一言讯飞星火智谱清言评估方案该评估模型初版主要聚焦于利用现有 App…
应用
- 48
- 0
故渊9月3日
OpenAI 推出 SWE-bench Verified 基准，更准确评估 AI 模型代码生成表现
感谢OpenAI 公司于 8 月 13 日发布新闻稿，宣布推出 SWE-bench Verified 代码生成评估基准，解决了此前的局限性问题，能够更准确地评估人工智能模型在软件工程任务中的表现。SWE-benchAI在线注：SWE-Bench 是一个用于评估 LLM 解决 GitHub 上真实软件问题能力的基准测试数据集。它收集了来自 12 个流行的 Python 仓库的 2294 个 Issu…
应用
- 18
- 0
故渊8月15日
OpenAI 发布 GPT-4o 模型卡：概述 AI 安全和风险缓解措施
OpenAI 公司于 8 月 8 日发布报告，概述了 GPT-4o 模型的系统卡（System Card），介绍了包括外部红队（模拟敌人攻击）、准备框架（Preparedness Framework）在内的诸多细节。OpenAI 表示 GPT-4o 模型的核心就是准备框架（Preparedness Framework），这是一种评估和降低人工智能系统相关风险的系统方法。AI在线从报道中获悉，该框架…
应用
- 14
- 0
故渊8月10日
Meta 推出“自学评估器”：无需人工注释改善评估，性能超 GPT-4 等常用 AI 大语言模型评审
Meta 公司为了缓解自然语言处理（NLP）技术依赖人类注释评估 AI 模型的问题，最新推出了“自学评估器”（Self-Taught Evaluator），利用合成数据训练 AI。NPU 技术挑战NPU 技术的发展，推动大型语言模型（LLMs）高精度地执行复杂的语言相关任务，实现更自然的人机交互。不过当前 NPU 技术面临的一个重要挑战，就是评估模型严重依赖人工注释。人工生成的数据对于训练和验证模…
应用
- 14
- 0
故渊8月7日
研究：AI 测谎能力比人类更强，但会对社会交往造成影响
德国维尔茨堡大学当地时间 12 日公布的最新研究显示，在假新闻、政治家的可疑言论和被操纵的视频日益泛滥的时代，人工智能在测谎方面的表现比人类更佳。图源 Pixabay来自维尔茨堡、杜伊斯堡、柏林和图卢兹的研究人员探讨了 AI 在检测谎言方面的有效性及其对人类行为的影响。这项研究的主要发现可以总结如下：在基于文本的谎言检测中，AI 的准确性优于人类。没有 AI 的支持，人们不愿指责他人撒谎。在 AI…
应用
- 23
- 0
清源7月15日
超越现有宗旨57.3%，邢波教授、胡志挺教授团队提出分裂NLG评估框架
长期以来，评估机器生成的文本比较困难。近日，CMU邢波（Eric Xing）教授和UCSD胡志挺（Zhiting Hu）教授的团队提出用一种运算符，分裂各类生成义务的评估方式，为未来各种新义务、新要求提供了更加分裂的指导。实验表明，基于分裂框架安排的评估宗旨，在多个义务上超过了现有宗旨与野生评分的类似度，现在通过PyPI和GitHub可以直接调用。
AI
- 11
- 0
机器之心22年1月28日