AI资讯列表 - AI在线

AI博士如何做出有影响力的研究？斯隆奖得主弟子亲身讲述经验

写论文？那只是其中的一小步。在研究生期间，很多人经常会迷茫于如何构建自身的研究。我们应该如何开展研究，才能在已经相当拥挤的人工智能领域有所作为？太多人认为，长期的项目、适当的代码发布和深思熟虑的基准测试无法产生足够的激励作用 —— 有时候这可能是你快速而内疚地完成的事情，然后又要回去做「真正的」研究。最近，斯坦福大学 NLP 组在读博士 Omar Khattab 发布了一篇博文，讨论了顶级 AI 学者们有关做有影响力研究的思考。让我们看看他是怎么说的：科研的影响力有多种形式，我将只关注通过开源工作（例如模型、系统、

Sebastian Raschka最新博客：从头开始，用Llama 2构建Llama 3.2

十天前的 Meta Connect 2024 大会上，开源领域迎来了可在边缘和移动设备上的运行的轻量级模型 Llama 3.2 1B 和 3B。两个版本都是纯文本模型，但也具备多语言文本生成和工具调用能力。Meta 表示，这些模型可让开发者构建个性化的、在设备本地上运行的通用应用 —— 这类应用将具备很强的隐私性，因为数据无需离开设备。近日，机器学习研究员 Sebastian Raschka 光速发布长篇教程《Converting Llama 2 to Llama 3.2 From Scratch》。博文链接：《

安卓版谷歌 Gemini Live 将支持 40 多种语言，提供 AI 语音聊天功能

谷歌公司于 10 月 1 日在 X 平台发布推文，宣布 Gemini 应用现面向所有安卓用户开放 Gemini Live 功能。谷歌官方称，Gemini Live 将支持 40 多种语言，首先推出法语、德语、葡萄牙语、印地语和西班牙语，之后还会推出更多语言。谷歌 Gemini Live 将支持在同一设备上使用最多两种语言进行对话，用户如要使用 Gemini Live，设置中的第一语言必须是以下受支持的语言之一：德语（比利时）德语（德国）德语（瑞士）德语（奥地利）英语（澳大利亚）英语（印度）英语（英国）英语（美国）西

Python程序到计算图一键转化，详解清华开源深度学习编译器MagPy

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]张晨，清华大学计算机系高性能所博士生，导师为翟季冬老师，主要研究方向为面向人工智能和量子计算的高性能异构计算系统。在OSDI、SC、ATC、ICS会议上发表一作论文，并获得 ICS21 最

告别CUDA无需Triton！Mirage零门槛生成PyTorch算子，人均GPU编程大师？

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]近日，来自 CMU 的 Catalyst Group 团队发布了一款 PyTorch 算子编译器 Mirage，用户无需编写任何 CUDA 和 Triton 代码就可以自动生成 GPU 内

西班牙马德里动物园为大熊猫配备“AI 保育员”：能用英语、西语答疑，还能不断学习

感谢据央视新闻今日报道，西班牙马德里动物园为两只大熊猫“金喜”“茱萸”配备了一个“AI 保育员”—— 伊雷尼娅，其由网络安全、大数据等方面专家组成的团队创建，以虚拟人类的形象出现在马德里动物园大熊猫馆旁的大屏幕上。AI在线获悉，功能方面，伊雷尼娅能够为游客们提供实时信息并展开互动，且可以以“熊猫养育领域专家”的身份，用英语、西班牙语来回答游客的问题，展示视频和图片。值得一提的是，AI 使伊雷尼娅具有不断学习的能力，其知识库未来还将持续扩大，涵盖园内其余动物，有望使用更多种语言回答问题。马德里动物园营销总监塞尔吉奥・

最新 AI 生图模型 Flux1.1 隐藏玩法，添加单反相机文件名获得超写实图像

聊天机器人帮你“深入了解”约会对象，Grindr 将推出“AI 僚机”功能

据《华尔街日报》北京时间今天报道，约会平台 Grindr 宣布推出专为用户设计的 AI 助手，预计在 2027 年前后完全上线，届时可为 1400 万名用户提供服务。该 AI 助手可用于跟踪用户与心仪对象的对话，并为其提供适合的长期伴侣、为约会地点提供建议。未来，该助手还将具备更多“AI 智能体”的功能，譬如预定餐厅、与另一个“AI 智能体”进行约会。具体来看，当两名用户匹配之后，用户各自的 AI 助手可以互相交流，以便在实际约会前对彼此有更深入的了解。Grindr 的首席执行官乔治・阿利森表示，机器人之间的对话不

软银 CEO 孙正义：将重视开发可读取大量学习数据的高性能大型 AI

据共同社报道，软银集团董事长兼 CEO 孙正义于 3 日在公司活动中发表演讲，就生成式 AI 提出了“在竞争中，只有最优秀的才有价值”的观点。孙正义表示，将重视开发能够读取大量学习数据的高性能大型 AI。软银将 AI 作为业务战略的核心，通过旗下的“软银愿景基金”等向相关企业投资。他还提到了日本本土企业正在研发的轻量型生成式 AI（可用于抑制数据和电力消费量），将其评价为“美丽日本式的努力，但仅是小成功”。孙正义提到了 OpenAI 于 9 月发布的最新模型（AI在线注：OpenAI 首款具备“推理”能力的模型 o

Meta又给OpenAI一记重击，视频生成Movie Gen震撼登场，甚至可以配音、编辑

视频生成领域真是越来越卷且越来越迈向实用性！在 OpenAI Sora 难产的时候，Meta 首次公开展示了自家的「用于媒体的突破性生成式 AI 研究」：Meta Movie Gen。Meta 在相应博客中使用了「premiere」一词，也就是初次展示，因此手痒的用户可能还得再等上一段时间。Meta 表示：「无论是希望在好莱坞大展身手的电影制作人，还是爱好为观众制作视频的创作者，我们相信每个人都应该有机会使用有助于提高创造力的工具。」根据 Meta 的描述，Movie Gen 的功能包括：文本生成视频和音频、编辑已

Claude AI 被曝正研发新功能，突破 20 万 tokens 文件处理上限

科技媒体 testingcatalog 今天（10 月 5 日）发布博文，报道称 Anthropic 公司扩展了 Claude 功能，支持用户处理上下文窗口超过 20 万 tokens 的文件。AI在线注，Claude 当前在处理用户上传、超出限制的文件后，会跳出以下错误，显示当前文件的字符数量超过了 Claude 能处理的上限。不过 Anthropic 正在研发新的功能，通过分块提取内容与其进行交互，从而支持用户上传超过处理上限的文件。图源：testingcatalog这项改进意味着 Claude 扩展了处理文件

号称击败Claude 3.5 Sonnet，媲美GPT-4o，开源多模态模型Molmo挑战Scaling law

Molmo，开源多模态模型正在发力！虽然大家一直在期待谷歌、OpenAI 等等拥有无限资金储备和顶尖人才的大厂做出新的 Sota 模型。不过，一家默默耕耘的创业公司 Ai2 发布了一款多模态人工智能模型 Molmo。在下面展示的视频中，我们可以看到 Molmo 就像钢铁侠的「贾维斯」一样万能。想卖自行车，咨询一下 Molmo 的建议，仅靠一张照片，Molmo 就能把自行车的颜色、品牌和二手售价搞清楚，并且帮你写出一句顺口的广告语。它也可以从虚拟世界帮你解决现实世界的问题，说一句：「Molmo，帮我买杯星巴克的南瓜拿

ECCV 2024 | 像ChatGPT一样，聊聊天就能实现三维场景编辑

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]论文《Chat Edit 3D: Interactive 3D Scene Editing via Text Prompts》的作者包括来自北京航空航天大学博士生方双康、北京航空航天大学副

氛围感拉满：微软新专利探索 Copilot AI 应用，匹配视频等生成音乐

科技媒体 Windows Report 昨日（10 月 4 日）发布博文，报道称微软公司获得了一项新的专利，构想 Copilot 在未来能辅助用户创建和视频、文本、PowerPoint 等匹配的音乐或者背景音乐。AI在线注：微软该专利名为《Artificial intelligence model for composing audio scores》，主要探讨了基于输入内容，来创建音乐的方法。该专利主要概述了以下步骤：收集数据：收集大量的训练数据，这些数据包括许多包含视频和音频组件的视听数据集。分析提取：分析数据

谷歌最便宜 AI 模型 Gemini 1.5 Flash 8B 将商用：腰斩击穿价 0.15 美元买百万 tokens 输出

科技媒体 NeoWin 昨日（10 月 4 日）发布博文，报道称谷歌公司即将商用 Gemini 1.5 Flash 8B 模型，成为谷歌公司最便宜的 AI 模型。AI在线曾于今年 8 月报道，谷歌公司推出 3 款 Gemini 实验性模型，其中 Gemini 1.5 Flash 8B 是 Gemini 1.5 Flash 的更小尺寸模型，拥有 80 亿参数，专为多模态任务而设计，包括大容量任务和长文本摘要任务。相比较原版 Gemini 1.5 Flash，Gemini 1.5 Flash 8B 延迟更低，特别适合聊

更简单、更清晰，解析核酸、蛋白、细胞等结构，AI实现快速分子模式挖掘

编辑 | 白菜叶低温电子断层扫描技术可以以纳米级分辨率对细胞三维结构进行常规可视化。当与单粒子断层扫描技术相结合时，可以获得原生环境中常见大分子的近原子分辨率结构。低温电子断层扫描/单粒子断层扫描（CET/SPT）面临的两个突出挑战是蛋白质的自动识别和定位，这两项任务受到细胞内分子拥挤、低温电子断层扫描断层图像特有的成像失真以及断层扫描数据集的庞大规模的阻碍。目前的方法存在准确度低、需要大量且耗时的手动标记或仅限于检测特定类型的蛋白质的问题。杜克大学（Duke University）的研究人员提出了 MiLoPYP

Science 发文，高通量蛋白质组学和人工智能的革命

编译 | 紫罗最近，研究人员能够从少量血液样本中测量数千种血浆蛋白，这为广泛的数据提供了新的维度，可以增进我们对人类健康的了解。例如，SomaLogic 公司已经开发出测量 10,000 多种蛋白质的方法，而赛默飞世尔的 Olink 检测方法可以从少至 2 μl 的样本中检测 5400 多种蛋白质。当这些丰富的数据与来自大型患者群体的其他信息层（例如英国生物库从 50 万名参与者那里获得的基因、健康和生活方式信息）相结合时，我们就会对疾病的根源、衰老过程以及预测个人健康轨迹的潜在能力产生新的见解。十多年来，科学家已

中国科大、科大讯飞团队开发ChemEval：化学大模型多层次多维度能力评估的新基准

编辑｜ ScienceAI近日，认知智能全国重点实验室、中国科学技术大学陈恩红教授团队，科大讯飞研究院 AI for Science 团队发布了论文《ChemEval: A Comprehensive Multi-Level Chemical Evaluation for Large Language Models》，介绍了新研发的一个面向化学领域大模型能力的多层次多维度评估框架 ChemEval。论文链接: : （NLP）的领域中，大语言模型（LLMs）已经成为推动语言理解与生成能力不断进步的强大引擎。随着这些

资讯列表