面壁智能发布 Eurux-8x22B 开源大模型:代码性能逾越 Llama3-70B

感谢面壁智能发布开源大模型 Eurux-8x22B,包括 Eurux-8x22B-NCA 与 Eurux-8x22B-KTO,主打推理能力。民间尝试中,Eurux-8x22B 在 LeetCode(180 道 LeetCode 编程真题)与 TheoremQA (IT之家注:美国大学水准的 STEM 题目)尝试上逾越了 Llama3-70B,在 LeetCode 尝试上逾越闭源的 GPT-3.5-Turbo。▲ 民间尝试结果据介绍,Eurux-8x22B 模型激活参数 39B,支持 64k 上下文,是由 Mixtr

感谢面壁智能发布开源大模型 Eurux-8x22B,包括 Eurux-8x22B-NCA 与 Eurux-8x22B-KTO,主打推理能力。

民间尝试中,Eurux-8x22B 在 LeetCode(180 道 LeetCode 编程真题)与 TheoremQA (IT之家注:美国大学水准的 STEM 题目)尝试上逾越了 Llama3-70B,在 LeetCode 尝试上逾越闭源的 GPT-3.5-Turbo。

面壁智能发布 Eurux-8x22B 开源大模型:代码性能逾越 Llama3-70B

▲ 民间尝试结果

据介绍,Eurux-8x22B 模型激活参数 39B,支持 64k 上下文,是由 Mixtral-8x22B 模型对齐而来,在 UltraInteract 对齐数据集上训练而成。

面壁智能发布 Eurux-8x22B 开源大模型:代码性能逾越 Llama3-70B

▲ 民间尝试数据

UltraInteract 是专门设计用于提升大模型推理能力的大规模、高质量的对齐数据集,包含了覆盖数学、代码和逻辑推理问题的 12 个开源数据集的 86K 条指令和 220K 偏好对,共有五十万条左右数据。

面壁智能发布 Eurux-8x22B 开源大模型:代码性能逾越 Llama3-70B

面壁智能发布 Eurux-8x22B 开源大模型:代码性能逾越 Llama3-70B

给TA打赏
共{{data.count}}人
人已打赏
AI

AI 入侵华尔街,高盛、摩根大通:66% 低级阐明师有被庖代风险

2024-5-3 22:34:44

AI

AI 赛道火爆背后,大厂工程师吐槽:公司为求快而牺牲准确性等

2024-5-4 16:46:20

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索