-
CAIL 2024 | 中国法律智能技术评测正式开启,诚邀您参与!
评测简介近年来,随着以裁判文书为代表的司法大数据不断公开,以及自然语言处理技术的不断突破,如何将人工智能技术应用在司法领域,辅助司法工作者提升案件处理的效率和公正性,逐渐成为法律智能研究的热点。中国法律智能技术评测CAIL(Challenge of AI in Law)旨在为研究者提供交叉学科的学术交流平台,推动自然语言处理、智能信息检索等人工智能技术在法律领域的应用,共同促进中国法律智能技术的创…- 4
- 0
-
中国移动、电子标准院及 16 家重点央企发布《通用大模型评测标准》
感谢AI在线从中国移动官方获悉,在今天召开的 2024 中国移动全球合作伙伴大会期间,中国移动联合电子标准院及 16 家重点央企共同开展大模型评测体系建设工作,并发布《通用大模型评测标准》。据介绍,该标准是大模型评测体系建设的重要成果,为产业界遴选优质大模型提供重要参考依据。第一阶段将围绕通用领域和 4 个重点行业领域,从评测标准制定、评测基地建设、评测试点应用等方面开展工作。- 9
- 0
-
贾佳亚团队联手剑桥清华等共推评测新范式 一秒侦破大模型“高分低能”
颠覆过往大模型评测标准,最新、最全、最权威的测评数据集MR-Ben来了!这是继今年4月发布堪称GPT-4 DALL- E-3的王炸产品超强视觉语言模型Mini-Gemini后,港中文贾佳亚团队再次提出的极具代表性的作品。在MR-Ben的“监督”下,大模型不仅要像学生那样会答题,还要像老师那样会阅卷,真实的推理能力无所遁形。MR-Ben细致地评测了不少国内外一线的开源和闭源模型,如GPT4-Turb…- 5
- 0
-
-
智源更新大模型排行榜:豆包大模型“主观评测”排名国产第一
6月中旬,智源研究院旗下的 FlagEval 大模型评测平台发布最新榜单:在有标准答案的“主观评测”中,GPT-4 以76.11分在闭源大模型中排名第一;Doubao-Pro(豆包大模型)以75.96分排名第二,同时也是得分最高的国产大模型;其后依次是 ERNIE 4.0、Baichuan3、Moonshot-v1。在封闭问答等“主观评测”中,Doubao-Pro 同样排名第二,得分超过 GPT-…- 121
- 0
-
豆包大模型披露评测结果,较上一代“云雀”提拔19%
近日,豆包大模型在火山引擎原动力大会上正式发布。以超低价格掀起大模型降价潮的同时,豆包的模型才能也引发行业关注。在火山引擎的一份产品资料中,豆包模型团队颁布了一期内部尝试结果:在 MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上,Doubao-pro-4k 的总分为76.8分,比拟上一代模型云雀Skylark2 的64.5分提拔了19%,也优于同期尝试的其他国产模型。…- 37
- 0
-
最新华文大模型测评:百川智能 Baichuan 3 国际第一
感谢IT之家从百川大模型官方公众号获悉,今日国际大模型评测机构 SuperCLUE 发布了《华文大模型基准测评 2024 年度 4 月陈述》,陈述选取国际外具有代表性的 32 个大模型 4 月份的版本,通过多维度综合性测评,对国际外大模型发展现状进行观察与思考。陈述显示,百川智能的 Baichuan 3 在国际大模型中排名第一,智谱 GLM-4、通义千问 2.1、文心一言 4.0、Moonshot…- 30
- 0
-
国内首个网络保险平安大模型评测平台SecBench发布
2024年1月19日,业界首个网络保险平安大模型评测平台SecBench正式发布,该平台由腾讯朱雀实验室和腾讯保险平安科恩实验室,联合腾讯混元大模型、清华大学江勇教授/夏树涛教授团队、香港理工大学罗夏朴教授研究团队、上海人工智能实验室OpenCompass团队共同建造,主要解决开源大模型在网络保险平安运用中保险平安威力的评价难题,旨在为大模型在保险平安范围的落地运用选择基座模型提供参考,加速大模型…- 4
- 0
-
DevOps-Eval:蚂蚁集团联合北京大学发布首个面向DevOps规模的大语言模型评测基准!
1. 背景大语言模型在各类NLP下游任务上取得了显著进展。然而在DevOps规模,由于缺乏专门用于大型语言模型的评测基准,在有效评估和比较该规模大语言模型的能力方面存在严重不足。为弥补这一不足,蚂蚁集团联合北京大学发布了首个面向DevOps规模的大模型评测基准DevOps-Eval,以帮助开发者跟踪DevOps规模大模型的进展,并了解各个DevOps规模大模型的优势与不足。DevOps-Eval根…- 6
- 0
-
❯
个人中心
今日签到
搜索
扫码打开当前页
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!