性能

李飞飞谢赛宁新作「空间推理」:多模态大模型性能突破关键所在

李飞飞谢赛宁再发新成果:直接把o1式思考拉至下一个level——多模态大语言模型的空间思维! 这项研究系统评估了多模态大模型的视觉空间智能,结果发现:当前,即使是最先进的多模态大模型,在空间认知方面与人类相比仍有显著差距,测试中约71%的错误都源于空间推理方面的缺陷,即空间推理能力是当前主要瓶颈。 图片更为有趣的是,在这种情况下,思维链、思维树等常用的语言提示技术直接失灵了——不仅没有提升模型在空间任务上的表现,反而会使性能下降。

明确了:文本数据中加点代码,训练出的大模型更强、更通用

代码知识原来这么重要。如今说起大语言模型(LLM),写代码能力恐怕是「君子六艺」必不可少的一项。在预训练数据集中包含代码,即使对于并非专门为代码设计的大模型来说,也已是必不可少的事。虽然从业者们普遍认为代码数据在通用 LLM 的性能中起着至关重要的作用,但分析代码对非代码任务的精确影响的工作却非常有限。在最近由 Cohere 等机构提交的一项工作中,研究者系统地研究了代码数据对通用大模型性能的影响。论文链接:「预训练中使用的代码数据对代码生成以外的各种下游任务有何影响」。作者对范围广泛的自然语言推理任务、世界知识任

1230 亿参数,Mistral 发布 Large 2 旗舰 AI 模型:支持 80 多种编程语言,增强代码生成、数学和推理能力

AI 竞赛日益激烈,Meta 公司昨日推出开源 Llama 3.1 模型之后,法国人工智能初创公司 Mistral 也加入了竞争行列,推出了新一代旗舰模型 Mistral Large 2。模型简介该模型共有 1230 亿个参数,在代码生成、数学和推理方面比其前身功能更强大,并提供更强大的多语言支持和高级函数调用功能。Mistral Large 2 拥有 128k 的上下文窗口,支持包括中文在内的数十种语言以及 80 多种编码语言。该模型在 MMLU 上的准确度达到了 84.0%,并在代码生成、推理和多语言支持方面有

90/270 亿参数,谷歌发布 Gemma 2 开源 AI 模型:性能力压同级、单 A100 / H100 GPU 可运行

感谢谷歌公司昨日发布新闻稿,面向全球研究人员和开发人员发布 Gemma 2 大语言模型,共有 90 亿参数(9B)和 270 亿参数(27B)两种大小。Gemma 2 大语言模型相比较第一代,推理性能更高、效率更高,并在安全性方面取得了重大进步。谷歌在新闻稿中表示,Gemma 2-27B 模型的性能媲美两倍规模的主流模型,而且只需要一片英伟达 H100 ensor Core GPU 或 TPU 主机就能实现这种性能,从而大大降低了部署成本。Gemma 2-9B 模型优于 Llama 3 8B 和其他类似规模的开源模

比原始材料强8倍,清华、武汉理工团队用AI筛选高熵电介质材料

编辑 | 萝卜皮电介质材料能够储存和释放电荷,广泛应用于电容器、电子和电力系统中。它们因其高功率密度和快速响应特性,被用于混合动力电动汽车、便携式电子设备和脉冲电力系统等领域,但其能量密度仍需进一步提高。高熵策略已成为提高储能性能的有效方法,然而,在高维组成空间中发现新的高熵系统对于传统的试错实验来说是一个巨大的挑战。武汉理工大学、清华大学、宾夕法尼亚州立大学的研究团队基于相场模拟和有限的实验数据,提出了一种生成学习方法,用于加速在超过 10^11 种组合的无限探索空间中发现高熵介电材料(HED)。该工作为设计高熵

苹果推出 300 亿参数 MM1 多模态 AI 大模型,可识别图像推理自然语言

感谢苹果公司旗下研究团队近日在 ArXiv 中公布了一篇名为《MM1:Methods, Analysis & Insights from Multimodal LLM Pre-training》的论文,其中介绍了一款 “MM1”多模态大模型,该模型提供 30 亿、70 亿、300 亿三种参数规模,拥有图像识别和自然语言推理能力。IT之家注意到,苹果研究团队相关论文主要是利用 MM1 模型做实验,通过控制各种变量,找出影响模型效果的关键因素。研究表明,图像分辨率和图像标记数量对模型性能影响较大,视觉语言连接器对模型的

Llama2推理RTX3090胜过4090,延迟吞吐量占优,但被A800远远甩开

这是为数不多深入比较使用消费级 GPU(RTX 3090、4090)和服务器显卡(A800)进行大模型预训练、微调和推理的论文。大型语言模型 (LLM) 在学界和业界都取得了巨大的进展。但训练和部署 LLM 非常昂贵,需要大量的计算资源和内存,因此研究人员开发了许多用于加速 LLM 预训练、微调和推理的开源框架和方法。然而,不同硬件和软件堆栈的运行时性能可能存在很大差异,这使得选择最佳配置变得困难。最近,一篇题为《Dissecting the Runtime Performance of the Training,

Arm新一代架构发布:CPU能效提升40%,GPU性能提升15%

对于全球 Arm 生态来说,每年不变的常数就是 Arm 新发布的「公版」架构,其设计一直在引领移动和云端计算的发展。

全新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC,这次英特尔诚意满满

2021 年英特尔架构日上,英特尔发布一系列重大技术架构的改变和创新:两款全新的 x86 内核架构(能效核与性能核)、代号为 Alder Lake 的首个性能混合架构、英特尔硬件线程调度器、专为数据中心设计的下一代英特尔至强可扩展处理器 Sapphire Rapids 以及基础设施处理器(IPU)等内容。

报名通道开启!CVPR 2021 NAS国际竞赛邀全球开发者迎接挑战

CVPR作为计算机视觉领域和模式识别领域的世界级学术顶会,不仅是展示前沿科技成果的学术会议,也是探索学术应用的一大平台。今年,百度联合澳大利亚悉尼科技大学和美国北卡罗来纳大学举办CVPR 2021 NAS workshop,同时于3月1日正式启动CVPR 2021 NAS国际竞赛,面向全球开发者开放报名通道。人脸识别、语音识别、机器翻译……每一项人工智能应用的背后都离不开AI技术算法模型,而神经网络结构对最终模型的效果起着至关重要的作用。为降低传统神经网络结构对人工经验和背景知识的依赖,近年来神经网络结构搜索(NA
  • 1