AI资讯列表 - AI在线

MotionClone：无需训练，一键克隆视频运动

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]无需训练或微调，在提示词指定的新场景中克隆参考视频的运动，无论是全局的相机运动还是局部的肢体运动都可以一键搞定。论文：：： MotionClone 的新框架，给定任意的参考视频，能够在不进

谷歌 DeepMind 被曝抄袭开源成果，论文还中了顶流会议

大模型圈再曝抄袭大瓜，这回，“被告”还是大名鼎鼎的谷歌 DeepMind。“原告”直接怒喷：他们就是把我们的技术报告洗了一遍！具体是这么个事儿：谷歌 DeepMind 一篇中了顶流新生代会议 CoLM 2024 的论文被挂了，瓜主直指其抄袭了一年前就挂在 arXiv 上的一项研究。开源的那种。两篇论文探讨的都是一种规范模型文本生成结构的方法。抓马的是，谷歌 DeepMind 这篇论文中确实明晃晃写着引用了“原告”的论文。然鹅，即便是标明了引用，“原告”的两位论文作者 Brandon T. Willard（布兰登）和

直击真实的甲方AGI需求，人工智能赋能产业融通发展论坛顺利召开

7月6日，「2024 WAIC 人工智能赋能产业融通发展论坛」在世博展览馆隆重举行。本次论坛主要议题为探讨人工智能赋能新型工业化、促进产业融通发展的相关问题，包括领导致辞、签约仪式、主题演讲、央国企人工智能场景需求发布和圆桌论坛等多个环节。众多来自央国企机构和人工智能领域的企业参与，包括中国电子信息产业发展研究院、中国移动研究院、中国石化胜利油田、国家电网客服中心、中电昱创、南方电网数字电网集团、达摩院、百度智能云、创新奇智等。出席嘉宾围绕人工智能在不同领域的应用实践、大模型的发展与应用、智能化运维、人工智能赋能产

非法阻止员工披露AI安全风险，OpenAI严厉「封口协议」再遭举报

OpenAI 在人工智能领域的领头羊地位家喻户晓。其产品聊天机器人 ChatGPT 系列、文生图 DALL・E 系列、文生视频 Sora 等都被誉为生产力提升的超强助手据透露，OpenAI 内部正在一个代号为「草莓（Strawberry）」的项目中开发一种新的人工智能模型。该项目的细节此前从未被报道过，而 OpenAI 正努力证明其提供的各类模型能够提供高级推理能力。不过 OpenAI 现在似乎正陷在另一场风波当中。据《华盛顿邮报》报道，一位举报人向美国证券交易委员会（SCE，Securities and Exch

Meta开发System 2蒸馏技术，Llama 2对话模型任务准确率接近100%

研究者表示，如果 Sytem 2 蒸馏可以成为未来持续学习 AI 系统的重要特征，则可以进一步提升 System 2 表现不那么好的推理任务的性能。谈到大语言模型（LLM）的策略，一般来说有两种，一种是即时的 System 1（快速反应），另一种是 System 2（慢速思考）。其中 System 2 推理倾向于深思熟虑的思维，生成中间思维允许模型（或人类）进行推理和规划，以便成功完成任务或响应指令。在 System 2 推理中，需要付出努力的心理活动，尤其是在 System 1（更自动化思维）可能出错的情况下。因

7B最强长视频模型！ LongVA视频理解超千帧，霸榜多个榜单

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本文主要作者来自 LMMs-Lab 团队与新加坡南洋理工大学。共同一作中，张培源是南洋理工大学研究助理，张恺宸是南洋理工大学四年级本科生，李博为南洋理工大学三年级博士生，指导教师为 MML

大厂掀起视频生成「军备竞赛」，AI 真能干掉好莱坞？

AI 视频圈正杀得你死我活。前脚快手高调发布可灵，后脚 Luma 不甘示弱，推出最新视频模型 Dream Machine，紧接着 Runway 横插一脚，祭出 Gen-3 这个大杀器。在微妙的 FOMO 气氛带动下，更多玩家秉持着「累死自己，卷死同行」的宗旨，一头扎进这个赛道 ——阿里巴巴达摩院押注「寻光视频创作平台」、字节即梦 AI 探索「生成式影剧」、美图 MOKI 盯上 AI 短片创作、Haiper AI 则聚焦创意表达 ……7 月 5 日的上海，火热，像极了 AI 视频圈的焦灼。这一天，上海世博展览馆 H3

OpenAI Lilian Weng万字长文解读LLM幻觉：从理解到克服

Lilian Weng 出品，必是精品。人会有幻觉，大型语言模型也会有幻觉。近日，OpenAI 安全系统团队负责人 Lilian Weng 更新了博客，介绍了近年来在理解、检测和克服 LLM 幻觉方面的诸多研究成果。Lilian Weng，中文名翁丽莲，是 OpenAI 安全系统团队负责人。她 2018 年加入 OpenAI，参与了 GPT-4 项目的预训练、强化学习 & 对齐、模型安全等方面的工作。她的博客深入、细致，具有前瞻性，被很多 AI 研究者视为重要的参考资料（其他博客见文末扩展阅读）。大型语言模型的幻觉

Gemini 1.5 Pro装进机器人，参观一遍公司就能礼宾、带路

长上下文大模型帮助机器人理解世界。最近，谷歌 DeepMind 突然开始炫起了机器人。这个机器人可以轻松听从人类指令、进行视觉导览，用常识推理在三维空间中寻找路径。它使用的是最近谷歌发布的大模型 Gemini 1.5 Pro。在使用传统 AI 模型时，机器人常因上下文长度限制而难以回忆起环境细节，但 Gemini 1.5 Pro 的百万级 token 上下文长度为机器人提供了强大的环境记忆能力。在真实的办公室场景中，工程师引导机器人游览特定区域，并标出了需要回忆的关键地点，例如「刘易斯的办公桌」或「临时办公桌区域」

豆包大模型团队发布全新Detail Image Caption评估基准，提升VLM Caption评测可靠性

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]当前的视觉语言模型（VLM）主要通过 QA 问答形式进行性能评测，而缺乏对模型基础理解能力的评测，例如 detail image caption 性能的可靠评测手段。针对这一问题，中科院、

端侧设备AI代理优化框架问世，领域内准确率可达97%

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]文章由NEXA AI团队联合MIT-IBM Watson AI Lab一起开发。一作Wei Chen（陈伟）是NEXA AI联合创始人，CEO兼首席科学家，斯坦福大学博士，拥有丰富的人工智

中国农业大学发布“神农大模型 2.0”：覆盖育种、种植、养殖、农业遥感及气象

第八届智慧农业创新发展国际会议于 7 月 13 日在北京举办，中国农业大学在会议上发布了“神农大模型 2.0”。AI在线注意到，相比 1.0 版本，“神农大模型 2.0”在图像、声音、视频、文件等多模态交互及智能化推理方面获得提升，使大模型能够覆盖育种、种植、养殖、农业遥感及气象等多个农业应用场景。“神农大模型 2.0”含有四个专门化的农业专业大模型：“神农・固芯”育种大模型：结合多源高维数据推理分析，优化育种流程，减少盲目性与随机性，为种子筛选与适应性评估提供科学依据，保障粮食安全“神农・筑基”种植大模型：涵盖水

万能模型 ControlNet Union ！10+控制效果一键生成！

大家好，这里是和你们一起探索 AI 的花生~ Controlnet 可以说是目前最重要的一款 AI 绘画控制插件，可以帮我们实现轮廓、深度、动作姿势、颜色等多种控制效果。由于每种控制条件都需要调用不同的控制模型，加上 SD1.5 和 SDXL 的生态并不互通，大家肯定都至少安装了十几种模型文件，给磁盘空间带来了很大的压力。最近一款名为 ControlNet 的模型却改变了这个状况，它将十多种控制功能合为一体，只需要安装一个模型，就能和多种不同的预处理器搭配使用，今天就来看看它的具体用法。相关推荐：一、Con

我是如何用AI获取600W+人气，成为优设合伙人的？

消失了一段时间，我又回来啦！大家好，我是言川，也就是那个风趣幽默，只讲干货的川子，不过我还是喜欢你们叫我川哥。这次，我想给大家分享，我过去 1 年半在 AI 创业路上的经验和复盘，也会给大家分享我对 AI 的观点，希望能帮大家更深入的了解和应用 AI 技术。一、18 个月，我收获百万人气其实看到这个时间数字（18 个月），并不值得吹嘘，互联网上大把博主 1 个月百万人气的。我这 18 个月，才区区 600W 人气... 但我想表达的是，自从 2023 年 AI 爆发开始，也不过区区 2 年不到的时间。而我作为

投资巨头高盛质疑 AI 投资回报：巨额投入能否换来光明未来？

全球知名投行高盛 (Goldman Sachs) 近期对人工智能 (AI) 投资的回报率提出了质疑。尽管各大企业和投资者正斥资数十亿美元用于人工智能研发，但高盛担忧如此巨额的投入能否真正带来丰厚回报。图源 Pexels目前，我们使用的 LLM 大型语言模型（例如 GPT-4o）训练成本就高达数亿美元，下一代模型的训练成本更是预计将飙升至 10 亿美元。风投巨头红杉资本 (Sequoia Capital) 经过测算后表示，整个 AI 行业每年都需要产生 6000 亿美元（AI在线备注：当前约 4.36 万亿元人民币）

哈工深聂礼强：多模态大模型是具身智能发展的关键动力丨具身智能十人谈

作者丨陈鹭伊编辑丨岑峰具身智能的“智能”如何体现？具身智能，简而言之，是指将智能系统与物理实体相结合，使其能够感知环境、进行决策并执行动作的一门技术。其关键词是“具身”，即不仅仅是抽象的算法和数据，而是要通过物理形态与世界进行交互。

快看：正在研发二次元垂类大模型，智能问答及 IP 角色互动应用已启动内测

快看搜索研发团队资深算法工程师田贵成于 7 月 11 日的 Zilliz“User Tech”活动中透露，快看漫画目前在尝试基于开源大模型进行微调，训练快看在二次元领域的垂直大模型。AI在线从快看方面获悉，快看宣称其内部有非常丰富的 RAG （Retrieval-Augmented Generation，检索增强生成）应用场景，目前在 AI 智能问答和 IP 角色互动两个场景已取得实质性进展，相关 AI 产品也正在内测，用户未来也将很快能体验到新产品的功能。据介绍，IP 角色互动背后的实现方案系角色扮演大模型

模型训练成本“平民化”，前特斯拉 AI 总监 24 小时仅用 672 美元“重现”GPT-2

GPT-2 是 OpenAI 于 2019 年推出的模型，其训练费用一度为每小时 256 美元，那么 5 年过后的 GPT-4 时代，软硬件和数据的进步，是否意味着训练同一模型所需的时间和成本会随之减少呢？答案是肯定的。据 Tom's Hardware 今日报道，前特斯拉 AI 总监、OpenAI 联合创始人、项目开发者 Andrej Karpathy 使用 llm.c“重现”了 GPT-2，其成本降到了每小时仅 28 美元（AI在线备注：当前约 204 元人民币），在短短 5 年内降低了近 90%。图源 Pixa