AI资讯列表 - AI在线

当今最复杂的椭圆曲线找到了！29个独立有理点打破18年记录

又是计算机帮了忙。对现代密码学稍有了解的人都必定听过椭圆曲线的赫赫威名，但椭圆曲线本身依然还存在很多悬而未决的问题。今天，量子杂志作者 Joseph Howlett 介绍了这方面的一项打破 18 年记录的新突破：找到了一条迄今为止有理点模式最复杂的椭圆曲线。

完全开源的代码大模型OpenCoder来了，跻身性能第一梯队

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

o1不是唯一路径！MIT新研究：在测试时训练，模型推理能力最高升至5.8倍

o1不是通向大模型推理的唯一路径！ MIT的新研究发现，在测试时对大模型进行训练，可以让推理水平大幅提升。在挑战超难的ARC任务时，准确率最高可提升至原来的5.83倍。

CCS 2024 | 如何严格衡量机器学习算法的隐私泄露？ ETH有了新发现

李彦宏：不是要一个“超级应用”，是要打造数百万“超级有用”的应用

“过去24个月，AI行业的最大变化是什么？是大模型基本消除了幻觉。 ”11月12日，百度创始人李彦宏在百度世界2024大会上，发表了主题为《应用来了》的演讲，发布两大赋能应用的AI技术：检索增强的文生图技术（iRAG）和无代码工具“秒哒”。

NeurIPS 2024线下论文分享会启动，机器之心邀你共赴学术盛会

大模型的火爆，已经将各大 AI 顶会带到了新的高度。 NeurIPS 是当前全球最负盛名的 AI 学术会议之一，近年来受到的关注度也不断攀升。根据官方公布的数据，NeurIPS 2023 大会收到的论文投稿有 13321 篇，有超过 1 万名优秀的 AI 研究人员聚集于新奥尔良的大会现场，盛况空前。

即插即用ChatTracker：多模态大模型重塑目标跟踪

写在前面 & 笔者的个人理解视觉对象跟踪旨在基于初始边界框在视频序列中定位目标对象。最近，视觉语言（VL）跟踪器已经提出利用额外的自然语言描述来增强各种应用中的通用性。然而，VL跟踪器在跟踪性能方面仍然不如最先进的视觉跟踪器（SoTA）。

通用场景拉满了！GenXD：生成任何3D&4D场景（新加坡国立&微软最新）

写在前面&笔者的个人理解近年来，利用扩散和自回归建模生成2D视觉内容已经取得了显著成功，并已在实际应用中进行广泛使用。除了 2D 生成之外，3D 内容生成也至关重要，可应用于视频游戏、视觉效果和可穿戴混合现实设备。然而，由于 3D 建模的复杂性和 3D 数据的局限性，3D 内容生成仍然远远不能令人满意，并且正在引起学术界和工业界越来越多的关注。

如何简单理解视觉语言模型以及它们的架构、训练过程？

关于视觉语言模型（VLMs），以及它们的架构、训练过程和如何通过VLM改进图像搜索和文本处理的多模态神经网络。可以参考这篇文章：（VLMs），它们是未来的复合AI系统。文章详细描述了VLMs的基本原理、训练过程以及如何开发一个多模态神经网络，用于图像搜索。

o1/Claude集体翻车！陶哲轩等60+顶尖数学家合力提出新数学基准，大模型正确率通通不足2%

让大模型集体吃瘪，数学题正确率通通不到2%！获大神卡帕西力荐，大模型新数学基准来势汹汹——一出手，曾在国际数学奥赛中拿下83%解题率的o1模型就败下阵来，并且Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Pro等全都未攻破2%这一防线。所以，新挑战者到底啥来头？

克服机器学习转换器的局限性——从位置嵌入到RoPE和ALiBi方法

译者 | 朱先忠审校 | 重楼引言近年来开发出的机器学习模型的指数级进步与转换器架构的出现密切相关。以前，人工智能科学家必须先为手头的每项任务选择架构，然后再进行超参数优化以获得最佳性能。限制科学家们潜力的另一个挑战是难以处理数据的长期依赖性，难以解决梯度消失、长序列上下文丢失以及因局部约束而无法捕获全局上下文的问题。

浙大开源“最懂Excel的GPT”！首次将结构化数据作为独立模态训练，刷榜提升40百分点

大模型理解复杂表格，能力再次飞升了！不仅能在不规则表格中精准找到相关信息，还能直接进行计算。比如提问：如果2022年出口总额的人民币计价比实际数值少了10%，请计算新的出口总额并与实际数据比较。

11月11日，国家地方共建具身智能机器人创新中心召开天工开源计划发布会，对外公布创新中心成立一年以来取得的建设成就，并就已有技术成果面向行业陆续开源开放，推动具身智能加快落地。创新中心旨在打造具身智能机器人生态圈，涵盖关键技术及产品开源开放、产学研协同技术攻关、行业标准体系制定、具身智能机器人应用示范合作落地、具身智能机器人俱乐部及面向全球征集人形机器人参加马拉松比赛等多项内容，实现具身智能机器人生态的闭环。创新中心总经理熊友军表示，自10月正式升级为国地共建具身智能机器人创新中心后，作为引领具身智能技术突破与产业协同的关键平台，创新中心将专注于解决发展具身智能机器人关键共性技术问题，持续迭代推出全球领先的标志性创新产品，创建繁荣的具身智能产业生态体系。

大模型应用系列：从Ranking到Reranking

每个搜索引擎背后都隐藏着一个至关重要却往往被忽视的组成部分——Reranking（重新排名）。那么，什么是Rerank呢？简而言之，这一过程旨在优化并调整搜索结果的顺序，使之更加精准地匹配用户的查询需求。

改进蛋白突变稳定性预测，清华龚海鹏团队AI蛋白工程模型登Nature子刊

编辑 | KX准确预测蛋白质突变效应在蛋白质工程和设计中至关重要。近日，清华大学龚海鹏团队提出了一套基于几何学习的模型套件——GeoStab-suite，其中包含 GeoFitness、GeoDDG 和 GeoDTm 三个模型，分别用于预测蛋白质突变后的适应度得分、ΔΔG 和 ΔTm。 GeoFitness 采用专门的损失函数，允许使用深度突变扫描数据库中的大量多标记适应度数据对统一模型进行监督训练。

一文揭开 NVIDIA CUDA 神秘面纱

Hello folks，我是 Luga，今天我们继续来聊一下人工智能生态相关技术 - 用于加速构建 AI 核心算力的 GPU 编程框架 - CUDA 。 CUDA，作为现代图形处理器（GPU）的计算单元，在高性能计算领域扮演着日益重要的角色。通过将复杂的计算任务分解为数千个线程并行执行，CUDA 显著提升了计算速度，为人工智能、科学计算、高性能计算等领域带来了革命性的变革。

探讨营销技术的六个AI用例

随着营销越来越依赖数据，AI在营销技术(martech)行业中发挥着变革性作用。从自动化日常任务到深入洞察客户行为，AI驱动的工具正在帮助营销人员在营销活动中实现更高的效率和精准度。无论是优化广告支出、个性化客户体验还是增强预测分析，AI工具都在重塑企业与受众互动的方式。

多模态大模型技术方向和应用场景

多模态大模型（Multimodal Large Language Models，MLLM）是一种结合了大型语言模型（LLM）和大型视觉模型（LVM）的深度学习模型，它们能够处理和理解多种类型的数据，如文本、图像和音频，从而在跨模态任务中展现出卓越的性能。核心特点对于多模态输入-文本输出的典型 MLLM，其架构一般包括编码器、连接器以及 LLM。如要支持更多模态的输出(如图片、音频、视频)，一般需要额外接入生成器，如下图所示:MLLM 架构图模态编码器负责将原始的信息(如图片)编码成特征，连接器则进一步将特征处理成LLM 易于理解的形式，即视觉 Token。

资讯列表