AI资讯列表 - AI在线

古早费曼论文手写公式也能转LaTeX，还能看懂梗图，马斯克Grok新功能上线就火了

Grok 大模型终于能看懂图像了。设想一下，如果我们能够将所有 LaTeX 时代之前的文本资料输入到先进的大型语言模型（LLM）中，并从中获得格式规范的 LaTeX 文档库，这无疑将极大地推动科学文献的数字化进程和标准化工作。对于科研工作者而言，这不仅仅是技术层面的飞跃，它更标志着知识管理和信息传播方式的一次重大变革。

新扩散模型OmniGen一统图像生成，架构还高度简化、易用

大型语言模型（LLM）的出现统一了语言生成任务，并彻底改变了人机交互。然而，在图像生成领域，能够在单一框架内处理各种任务的统一模型在很大程度上仍未得到探索。近日，智源推出了新的扩散模型架构 OmniGen，一种新的用于统一图像生成的多模态模型。

强化学习训练一两个小时，100%自主完成任务：机器人ChatGPT时刻真来了？

把平均成功率从 50% 拉到了 100%。最近，AI 的进步有目共睹，现在这些进步已经开始传递到机器人领域。强大的 AI 技术也能帮助机器人更好地理解其所处的物理世界并采取更合理的行动。

权威AI开源标准1.0版发布：Llama也不算开源

大模型开源的口号，不是随便说说的。该来的终于来了。本周，人工智能领域迎来了对于「开源」的官方定义。

超越YOLOv10/11、RT-DETRv2/3！中科大D-FINE重新定义边界框回归任务

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

国庆期间被 AI 雷军“骂了 7 天”，雷军本人呼吁网友不要再玩

感谢在今年国庆假期期间，一些网友利用 AI 技术克隆雷军的声音，借此吐槽不文明行为或表达对他人的不满，有网友戏称“被 AI 雷军追着骂了整个假期”。对此，雷军本人今日发布视频回应称，的确让自己挺困扰，也挺不舒服。雷军表示希望大家不要再玩了，觉得这个事情不太好，不过他还是觉得 AI 是很好的技术，也非常实用。

10 月 28 日，新浪新闻・2024 探索大会在北京召开，邀请专家学者、行业领袖，以及数字技术领域的探索者和从业者们，就新质生产力赋能产业、企业数字化转型、数字生态构建等热点话题展开深入探讨。华为云 Marketing 部部长董理斌发表题为 “解难题做难事，AI 重塑千行万业” 的主题演讲，分享华为云在 AI for Science 领域的最新进展，以及盘古大模型、昇腾 AI 云服务等创新技术。华为云 Marketing 部部长董理斌发表主题演讲人工智能正在改变我们进行科学研究的方式，增强人类探索以前难以解决的问题的能力。

微软开源 OmniParser 纯视觉 GUI 智能体：让 GPT-4V 秒懂屏幕截图，可操控手机 / 电脑

科技媒体 marktechpost 于 10 月 24 日发布博文，报道称微软公司宣布开源 OmniParser，是一款解析和识别屏幕上可交互图标的 AI 工具。项目背景传统的自动化方法通常依赖于解析 HTML 或视图层次结构，从而限制了其在非网络环境中的适用性。而包括 GPT-4V 在内的现有的视觉语言模型（VLMs），并不擅长解读复杂 GUI 元素，导致动作定位不准确。

消息称 Meta 正开发自家 AI 搜索引擎：追赶 OpenAI，降低对微软、谷歌的依赖

感谢科技媒体 The Information 昨日（10 月 28 日）发布博文，报道称 Meta 公司一方面为减少对微软、谷歌的依赖，另一方面追赶 OpenAI 在 AI 领域的发展，正开发一款 AI 搜索引擎。 AI在线援引该媒体报道，内置于 Instagram 和 Facebook 的 Meta AI 机器人目前调用谷歌公司的 Google 和微软 Bing 搜索引擎，来回答用户关于近期新闻和事件的问题。而消息称 Meta 公司早在 8 个月前就组建了专门的团队，通过网络爬虫收集了大数量网页数据，并建立了一个信息数据库。

谷歌扩展 AI 总结搜索结果功能至全球 100 多个市场，覆盖 10 亿月活用户

感谢谷歌公司昨日（10 月 28 日）发布博文，宣布在全球 100 多个国家和地区扩展 AI Overviews in Search 功能，覆盖全球 10 亿月活跃用户。 AI在线注：谷歌公司于今年 5 月在美国启动 AI Overviews in Search 功能，并于今年 8 月扩展到部分美国以外的市场，该功能主要用于 AI 总结搜索结果，让用户找到更契合的搜索结果。谷歌在博文中表示，将于本周开始将会在全球 100 多个国家和地区推出 AI Overviews 功能，覆盖全球 10 亿月活跃用户。

2024 科大讯飞全球 1024 开发者节：AI 文娱论坛“重构内容与表达”完满落幕

10 月 24 日，2024 科大讯飞全球 1024 开发者节 AI 文娱论坛在合肥圆满举办。论坛以“重构内容与表达”为主题，旨在探讨 AI 时代下文娱产业的最新趋势，见证讯飞 AI 文娱业务的重大发布，与合作伙伴共同推动文娱行业的繁荣发展。科大讯飞副总裁 & 研究院院长刘聪、科大讯飞消费者事业群副总裁严亚路出席大会，讯飞输入法业务部总经理程坤、数字娱乐业务部总经理 & 讯飞音乐主理人郭嘉、数字娱乐业务部副总经理 & 讯飞音乐首席科学家江源分别作主题演讲。

一张显卡“看懂”一部电影：智源联合高校开源 Video-XL，打破长视频理解极限

长视频理解是多模态大模型的核心能力之一，也是迈向通用人工智能（AGI）的关键一步。然而，现有的多模态大模型在处理 10 分钟以上的超长视频时，仍然面临性能差和效率低的双重挑战。对此，智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等多所高校，推出了小时级的超长视频理解大模型 Video-XL。

科学实验室走向全自动化，机器人融合AI，加速科学发现，Science子刊观点

编辑 | KX「机器人有可望将我们日常的科学实验室变成加速科学发现的自动化工厂。」实验室即将迎来一场全面而彻底的变革。自动化机器人和 AI 技术可以使科学实验更快、更安全、更准确、可重复性更高，从而使科学家能够在更短的时间内开发新分子、材料和化学系统。

先让不懂代码的来测？通义这个新产品，代码刚写完，预览就出来了

这才是未来 AI 该有的样子？奇怪了。一款 AI 代码工具刚发布，限量测试却要求「不懂代码」的人优先。

谷歌AI播客刚火，Meta就开源了平替，效果一言难尽

随着谷歌和 Meta 相继推出基于大语言模型的 AI 播客功能，将极大地丰富人类用户与 AI 智能体互动的体验。上个月，谷歌宣布对旗下 AI 笔记应用 NotebookLM 进行一系列更新，允许用户生成 YouTube 视频和音频文件的摘要，甚至可以创建可共享的 AI 生成音频讨论。加上此前支持的谷歌文档、PDF、文本文件、谷歌幻灯片和网页，NotebookLM 的用例和覆盖范围进一步扩大。

世界模型新突破！极佳科技提出DriveDreamer4D，首次利用世界模型增强4D驾驶场景重建效果

近日，极佳科技联合中国科学院自动化研究所、理想汽车、北京大学、慕尼黑工业大学等单位提出DriveDreamer4D，是首个利用世界模型增强 4D 驾驶场景重建效果的工作。 DriveDreamer4D 可以大幅提升多种自动驾驶 4D 重建算法的效果，在 user study 实验中获得了超过 80% 的偏好投票，为走向空间智能和 4D 世界模型迈出了坚实的一步。论文链接：：：。

整合长期记忆，AI实现自我进化，探索大模型这一可能性

地球上最早的生命证据至少可以追溯到 35 亿年前，而直到大约 25 万到 40 万年前，智人才出现地球上。在这漫长的岁月中，生物不断地兴盛又覆灭，但整体趋势总是越来越复杂，其中最复杂的生物组件莫过于我们智人的大脑。这样的复杂性是我们的意识和智慧的来源。

资讯列表