al

JetBrains AI Assistant 编程助手正式在国内发布,基于阿里通义大模型

在本周举行的 2024 云栖大会上,JetBrains 正式发布了基于阿里云通义大模型的 JetBrains Al Assistant。JetBrains 官方介绍称,JetBrains Al Assistant 与多款 JetBrains 产品深度集成,是专为中国开发者量身定制的“提效神器”。JetBrains Al Assistant 支持全链路优化开发,可在特定 IDE 工具窗口中作为内联操作使用,也可以通过内置聊天使用,不会中断开发工作流。此外,JetBrains 承诺所用模型绝不会在开发者的代码库上训练,

破解自注意力推理缺陷的奥秘,蚂蚁自研新一代Transformer或实现无损外推

随着大语言模型的快速发展,其长度外推能力(length extrapolating)正日益受到研究者的关注。尽管这在 Transformer 诞生之初,被视为天然具备的能力,但随着相关研究的深入,现实远非如此。传统的 Transformer 架构在训练长度之外无一例外表现出糟糕的推理性能。研究人员逐渐意识到这一缺陷可能与位置编码(position encoding)有关,由此展开了绝对位置编码到相对位置编码的过渡,并产生了一系列相关的优化工作,其中较为代表性的,例如:旋转位置编码(RoPE)(Su et al.,

用深度学习解决旅行推销员问题,研究者走到哪一步了?

最近,针对旅行推销员等组合优化问题开发神经网络驱动的求解器引起了学术界的极大兴趣。这篇博文介绍了一个神经组合优化步骤,将几个最近提出的模型架构和学习范式统一到一个框架中。透过这一系列步骤,作者分析了深度学习在路由问题方面的最新进展,并提供了新的方向来启发今后的研究,以创造实际的价值。

9亿训练集、通用CV任务,微软打造Florence模型打破分类、检索等多项SOTA

来自微软的研究者另辟蹊径,提出了一种新的计算机视觉基础模型 Florence。在广泛的视觉和视觉 - 语言基准测试中,Florence 显著优于之前的大规模预训练方法,实现了新的 SOTA 结果。
  • 1