SuperBench
谁才是最强的?清华给海内外知名大模型做了场综合能力评测
在 2023 年的 “百模大战” 中,众多实践者推出了各类模型,这些模型有的是原创的,有的是针对开源模型进行微调的;有些是通用的,有些则是行业特定的。如何能合理地评价这些模型的能力,成为关键问题。尽管国内外存在多个模型能力评测榜单,但它们的质量参差不齐,排名差异显著,这主要是因为评测数据和测试方法尚不成熟和科学,而好的评测方法应当具备开放性、动态性、科学性和权威性。为提供客观、科学的评测标准,清华大学基础模型研究中心联合中关村实验室研制了 SuperBench 大模型综合能力评测框架,旨在推动大模型技术、应用和生态
4/19/2024 12:02:00 PM
机器之心
- 1
资讯热榜
标签云
人工智能
AIGC
OpenAI
AI绘画
ChatGPT
数据
机器人
谷歌
智能
Midjourney
大模型
学习
DeepSeek
GPT
用户
AI
AI创作
微软
图像
开源
Meta
技术
论文
Stable Diffusion
算法
生成式
蛋白质
马斯克
芯片
Gemini
计算
神经网络
代码
AI设计
Sora
研究
腾讯
3D
开发者
GPU
场景
模型
伟达
英伟达
预测
机器学习
华为
模态
Transformer
文本
驾驶
神器推荐
深度学习
AI视频
AI for Science
苹果
LLaMA
搜索
干货合集
百度
视频生成
算力
2024
Copilot
科技
应用
Anthropic
特斯拉
AI应用场景
安全
具身智能
写作
机器
字节跳动
AGI
视觉
API
DeepMind
架构
语音