评价

代码大模型平安标准正式定稿：百度阿里小米 vivo 等参与，华夏信通院启动首轮评价
近年来，代码大模型已成为企业研发人员辅助编程必备助手，能够生成、翻译、补全代码，帮助定位和修复错误。然而，代码大模型背后隐藏的危急挑战还有待讨论。华夏信息通讯研究院（以下简称“华夏信通院”）依托华夏人工智能产业发展联盟（AIIA），联合业内近 30 家单位共同编制了《代码大模型平安危急提防才智要求及评价方法》标准（简称“标准”），聚焦代码大模型的平安才智，从基础功能出发，评价代码大模型的基础才智和…
AI
- 8
- 0
汪淼6月20日
CoT提出者Jason Wei：大模型评价基准的「七宗罪」
Jason Wei 是思惟链提出者，并和 Yi Tay、Jeff Dean 等人合著了关于大模型涌现能力的论文。目前他正在 OpenAI 进行工作。在 CV 规模，研究者一直把李飞飞等人创造的 ImageNet 奉为模型在下游视觉任务中能力的试金石。在大模型时代，我们该如何评价 LLM 性能？现阶段，研究者已经提出了诸如 MMLU、GSM8K 等一些评价基准，不断有 LLM 在其上刷新得分。但这些…
理论
- 6
- 0
机器之心5月27日
每年节省 2000 多万美元，美国得州率先利用 AI 阅卷给门生评分
感谢得克萨斯州成为美国首个公开采用人为智能阅卷评分的州。得州近日宣布学术准备评价（STAAR）测验中笔试部分将使用“自动评分引擎”给门生打分。IT之家注：STAAR 是在每学年结束时，美国得州针对 3 至 12 年级公立学校门生，评价其能力的测验。STAAR 测验基于得州课程标准，涵盖包括阅读，写作，数学，科学和社会学在内的核心科目。美国得州于 2023 年开始推进 STAAR 测验改革，修订后的…
AI
- 7
- 0
故渊4月11日
大模型增速远超摩尔定律！MIT 最新钻研：人类快要喂不饱 AI 了
【新智元导读】近日，来自 MIT （麻省理工学院）的钻研职员发表了关于大模型才智增速的钻研，结果表明，LLM 的才智大约每 8 个月就会翻一倍，速率远超摩尔定律！硬件马上就要跟不上啦！我们人类可能要养不起 AI 了！近日，来自 MIT FutureTech 的钻研职员发表了一项关于大模型才智增长速率的钻研，结果表明：LLM 的才智大约每 8 个月就会翻一倍，速率远超摩尔定律！论文地址：的才智提升…
AI
- 7
- 0
清源3月18日