AI资讯列表 - AI在线

张璇、周光敏团队在随机退役条件下基于生成式学习的电池健康状态评估与可持续回收研究中取得新进展

编辑丨ScienceAI随着电动汽车市场的快速发展，动力电池需求量激增，但其设计寿命有限，退役潮已经到来。如何高效、经济、环保地处理这些退役电池，成为亟待解决的挑战。梯次利用和回收利用被视为关键途径，而准确评估退役电池健康状态（SOH）则是实现这一目标的基础。

AI for Science 是科学的未来，NVIDIA 正加速它的到来

ScienceAI原创作者：萝卜皮近年来人工智能（AI）等新兴技术的突破，正在逐渐改变科学研究的模式。今年诺贝尔物理奖与化学奖均颁发给了 AI 以及计算相关领域的科学家，足见科学界对「AI for Science」这一研究新范式的肯定。尽管如此，AI 科研领域所面临的困难依旧严峻。

图森未来发布图生视频开源大模型“Ruyi”：RTX 4090 就能运行，可生成 5 秒内容

图森未来今日发布“Ruyi”图生视频大模型，并将 Ruyi-Mini-7B 版本开源，用户可以从 huggingface 上下载使用。

从RPA到智能体：智能自动化迎来革命性飞跃

在过去的一年里，自动化竞赛愈演愈烈，智能体已成为提升企业效率的终极变革者。虽然GenAI工具在过去三年里取得了显著进步，成为企业工作流程中的宝贵助手，但现在焦点正转向能够自主思考、行动和协作的智能体。对于准备迎接下一波智能自动化浪潮的企业而言，了解从聊天机器人到检索增强生成(RAG)应用再到自主多智能体的飞跃至关重要。

清华本科生获NeurIPS Math-AI 杰出论文奖：REBASE算法让小模型实现推理大突破

刚刚由清华大学本科生伍垟圳为一作的论文《推理Scaling Laws：面向语言模型问题求解的计算最优推理实证分析》在顶级AI学术会议NeurIPS 2024 Math-AI上荣获杰出论文奖（Outstanding Paper Award）。这项研究不仅刷新了人们对推理阶段计算优化的理解，还为如何在有限计算资源下实现更高效的大语言模型（LLM）推理提供了全新的思路论文亮点：推理阶段的计算优化新突破1. 小模型也能打败大模型：重新定义推理阶段的效率论文系统性地研究了不同模型大小和推理策略在固定计算预算下的表现，发现小模型（如Llemma-7B）在结合高级推理算法后，能够实现比大模型（如Llemma-34B）更优的成本性能平衡。

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

BLT 在许多基准测试中超越了基于 token 的架构。最近几天，来自 Meta 、芝加哥大学等机构的合著论文《 Byte Latent Transformer: Patches Scale Better Than Tokens 》火了，在 Hacker News 上受到广泛讨论。有人表示，非常期待这项研究取得成功，这样就可以和 tokenizer 拜拜了！

谷歌最强文生图 AI 模型 Imagen 3 再进化：多样艺术风格、构图更平衡

谷歌公司昨日（12 月 16 日）发布博文，在发布 Veo 2 视频生成模型之外，还增强了 Imagen 3 文生图 AI 模型，为用户带来更多花样的艺术风格。

谷歌版Sora升级4K高清！一句话控制镜头运动，跑分叫板可灵海螺

OpenAI直播划水的一天，谷歌版Sora迎来了它的2.0——Veo 2，根据文本或图像生成更为高质量的视频。从官方介绍中看，此次主要有三个方面的升级。比如分辨率能达到4K。

Nature再发招聘调查：学术界和工业界大不同，帮你避坑从简历到面试的N个细节

从今年6月开始，Nature与伦敦研究咨询公司Thinks Insights & Strategy合作推出了一系列文章，讲述今年对全球科学领域招聘经理开展调查后得出的结果。通过各种途径的宣传，这项调查共找到了来自77个国家的学术界、工业界和其他部门的1134名自荐受访者，包括实验室的PI、招聘负责人和资深成员。完整的调查数据集：，周五下午，你的LinkedIn或邮箱中发来一份工作推荐，一切条件似乎都完美匹配：研究重点恰好是自己的专业领域，工作城市对你和家人都很适合，实验室组有资金。

谷歌发布 AI 图像生成新工具 Whisk，支持上传多张图片以图生图

谷歌今日发布了一款名为 Whisk 的全新 AI 图像生成工具，该工具允许用户使用其他图像作为提示来生成图像，而不需要冗长的文本提示。用户只需提供图像，即可指定 AI 生成图像的主题、场景和风格。

视频一键拆分PS层！DeepMind新模型效果碾压同级，物体、背景完美分离，还能脑补

视频数据中通常会包含动态世界中的复杂信号，比如相机运动、关节移动、复杂的场景效果以及物体之间的交互。如果能自动化地把视频分解成一组语义上有意义的、半透明的层，分离前景对象和背景的话，类似PS中的图片，就可以极大提升视频的编辑效率和直观性。现有方法在推断对象及其效果之间复杂的时空相关性时，只能处理静态背景或带有精确相机和深度估计数据的视频，并且无法补全被遮挡区域，极大限制了可应用范围。

消息称智谱 AI 获得 30 亿元融资，2024 年商业化收入翻倍

AI 独角兽“智谱”近期完成新一轮融资，金额为 30 亿元。新投资方包括多家战投及国资，君联资本等老股东继续跟投。（智能涌现）

Kimi版o1实装上线，这里是我们的一手测试↑

Kimi新模型来袭，且发布即上线可用！就在数学模型k0-math刚发布后没几天，视觉思考模型k1就来了，多项思考推理测试超越Open AI o1。官方表示，基于强化学习，k1原生支持端到端图像理解和思维链技术。

Copilot 实体按键成“鸡肋”，微软建议企业用户重映射该键功能

微软曾力图将新一代 Windows PC 打造成“Copilot+ PC”和“AI PC”，并为此在所有认证为“Copilot+ PC”的新款 Windows 11 AI PC 键盘上增加了一个实体 Copilot 键。然而，这项仓促的决定如今正让微软感到后悔，他们不得不建议部分用户重新映射该按键的功能。

ChatGPT搜索与Her打通了！搜索免费开放，居然还剧透明日直播主题

ChatGPT今天带来的是搜索功能方面的一些迭代升级（更像谷歌了）。主要有三点，私以为最大亮点是第二：根据用户反馈，优化搜索体验，移动端搜索更快，并能搜索出多模态信息；结合前几日发布的Her功能，可以在实时通话的时候进行语音搜索；免费，接下来逐步向所有ChatGPT用户开放。官方信息显示，ChatGPT Search背后是微调后的GPT-4o模型，使用新颖的合成数据生成技术进行post-trained（包括从OpenAI o1-preview中提炼输出合成数据）。

华为诺亚解析：推荐系统的技术演进及大模型应用实践

一、推荐系统问题和背景首先来简要介绍一下个性化推荐系统。实际上，我们每个人每天都在与众多推荐系统进行交互。例如，购买衣物、阅读新闻或聆听音乐时，我们打开的每一个应用程序或网页，其展示的内容即为推荐系统所呈现。

本地构建Llama 3.2-Vision多模态LLM聊天应用实战

译者 | 朱先忠审校 | 重楼本文将以实战案例探讨如何在类似聊天的模式下从本地构建Llama3.2-Vision模型，并在Colab笔记本上探索其多模态技能。简介视觉功能与大型语言模型（LLM）的集成正在通过多模态LLM（MLLM）彻底改变计算机视觉领域。这些模型结合了文本和视觉输入，在图像理解和推理方面表现出令人印象深刻的能力。

OpenAI 为 ChatGPT 增加实时搜索功能，逐步向所有用户免费开放

用户可以获得快速、及时的答案，并附有相关网络来源的链接。ChatGPT 会根据用户的要求进行搜索，或通过点击网络搜索图标手动进行搜索。