AI资讯列表 - AI在线

微软 AI 部门 CEO：网上几乎所有内容都可免费用于 AI 训练，但也有灰色地带

随着生成式 AI 逐渐受到各界关注，部分争议问题也开始浮出水面。这其中最大的争议之一就是 AI 公司训练模型是否使用了受版权保护的内容，而也有部分作家、出版商或媒体公司等针对包括微软在内的生成式 AI 公司提起了一系列诉讼。微软 AI 部门新任命的首席执行官穆斯塔法・苏莱曼（Mustafa Suleyman）当地时间周四接受 CNBC 采访时，谈到了生成式 AI 从网络获取数据的问题。他的回复是：对于已经在网上公开的内容，自 90 年代以来，这些内容的社会契约就是“合理使用”，任何人都可以复制、重新创作、再现这些内

AIGC实战案例！京东汽车如何用AI快速完成视觉设计？

最近大厂都开始用AIGC提高出图效率了，还没有思路的同学，不妨看看这篇文章。

双向赋能：AI与数据库的修行之道

在这个数据为王的时代，数据是人工智能的三大支柱之一，其重要性不言而喻。最近，OpenAI 收购了数据库初创公司 Rockset，迅速引起了业内外的广泛关注。OpenAI 早已在算法和计算能力方面遥遥领先，通过这次战略性的收购，OpenAI 将在其产品中融合 Rockset 的先进数据索引和查询技术，帮助 OpenAI 将数据转化为 “可操作智能”。现代数据库与人工智能（AI）的融合，正如同一场席卷全球的技术革命，深刻地重塑着技术与产业的格局。一方面，数据库技术的技术迭代需要更好地支持人工智能应用工作负责，比如向量数

Bengio团队提出多模态新基准，直指Claude 3.5和GPT-4o弱点

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本文作者张天宇，就读于加拿大Mila人工智能研究所，师从图灵奖得主Yoshua Bengio教授。博士期间的主要工作聚焦于多模态、GFlowNet、多智能体强化学习、AI于气候变化的应用。

击败Gemini-1.5-Pro、GPT-4V，从容大模型多模态能力跻身全球前三

近日，云从科技从容大模型在综合评测权威平台 OpenCompass 的多模态评测领域中取得重大进展。最新评测结果显示，云从科技的从容大模型在该体系中的平均得分为 65.5，这一成绩使得从容大模型跻身全球前三，超越了谷歌的 Gemini-1.5-Pro 和 GPT-4v，仅次于 GPT-4o（69.9）和 Claude3.5-Sonnet（67.9）。而在国内市场，从容大模型的成绩也超过了 InternVL-Chat（61.7）和 GLM-4V（60.8），排名首位。

谷歌「诚意之作」，开源9B、27B版Gemma2，主打高效、经济！

性能翻倍的Gemma 2，让同量级的Llama3怎么玩？AI赛道上，科技巨头们激烈角逐。前脚有GPT-4o问世，后脚就出现了Claude 3.5 Sonnet。如此激烈的争斗中，谷歌虽然发力较晚，但在短时间内就能有显著的能力跟进，可见其技术发展与创新的潜力。除了Gemini模型外，Gemma这一系列轻量级的SOTA开放模型似乎与我们距离更近。它基于Gemini模型相同的研究和技术构建，旨在让每个人都拥有构建AI的工具。谷歌持续扩展Gemma家族，包括CodeGemma、RecurrentGemma和PaliGem

300多篇相关研究，复旦、南洋理工最新多模态图像编辑综述论文

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]该文章的第一作者帅欣成，目前在复旦大学FVL实验室攻读博士学位，本科毕业于上海交通大学。他的主要研究方向包括图像和视频编辑以及多模态学习。前言本文提出了解决一般性编辑任务的统一框架！近期，

论坛预告｜WAIC 2024腾讯论坛，邀你共话AI，智创未来

主题：智创未来地点：上海世博中心红厅时间：7月５日14:00-17:007月5日，由腾讯华东总部主办，腾讯优图实验室、腾讯云智能、腾讯研究院、腾讯新闻共同协办的 2024 世界人工智能大会腾讯论坛将在上海世博中心红厅举办。今年腾讯论坛以“智创未来”为主题，邀请来自学术界及产业界的嘉宾共同探讨AI领域前沿思想，探索人工智能发展新机遇。相信智慧的碰撞能激发技术的革新，深度的探讨能预见更智慧更美好的未来。为您正式揭晓腾讯论坛嘉宾阵容蒋杰

论坛预告｜“智启文创，激发无限新质生产力” ——“AI+文创”发展论坛前瞻

论坛主题：智启文创，激发无限新质生产力论坛时间：7月6日 9:30-11:40论坛地点：上海世博中心515会议室近年来，随着人工智能技术的迅猛发展，各行各业在新技术的加持下，迸发出了新的动力。在“AI 文创”新质生产力的培育与发展中，上海积极落实数字中国建设部署，为数字文创和元宇宙新赛道顶层设计和战略布局、打造文创产业创新发展“核爆点”提供了新的机遇。为弘扬中华文化，推动文创产业创新发展，搭建国内外文创领域的交流平台，本次“AI 文创发展论坛”应运而生。论坛邀请全球专家、学者、文创产业精英及行业领军人物齐聚一堂，共

字节大模型团队Depth Anything V2模型入选苹果最新CoreML模型

近日，苹果公司在HuggingFace上发布了20个新的Core ML模型和4个数据集，字节大模型团队的单目深度估计模型 Depth Anything V2入选其中。CoreML是苹果公司的机器学习框架，将机器学习模型集成到iOS，MacOS等设备上高效运行，可在无需互联网连接的情况下执行复杂的AI任务，从而增强用户隐私并减少延迟。苹果开发者可以利用这些模型更容易地构建智能、安全的AI应用。Depth Anything V2为字节大模型团队开发的单目深度估计模型。相比上一代版本，V2版在细节处理上更精细，鲁棒性更强

专访 OmniH2O 项目发起人何泰然：探索人形机器人遥操作通向具身智能的可行之路

作者丨饶舒玮编辑丨岑峰“既要又要”是何泰然的野心，也是决心。在谈到人形机器人遥操作的可行路径时，何泰然表示他既可以实现机器人的全身控制，还可以用强化学习来实现这一点。在他所探索的这条路上，不必因为技术瓶颈或短期目标而妥协，可以“既要又要”。

百度智能代码助手“文心快码”发布：支持 100+ 主流编程语言及多种 IDE

在今日举行的百度 WAVE SUMMIT 深度学习开发者大会上，百度推出了旗下智能代码助手 —— 文心快码（Baidu Comate）。文心快码（Baidu Comate）基于文心大模型，结合百度积累多年的编程现场大数据和外部优秀开源数据，拥有代码智能、场景丰富、创造价值、广泛应用等多重产品优势，可实现“帮你想、帮你写、帮你改”的场景应用形态。百度表示，该公司内部上万工程师中，目前已经有 80% 的人都开始使用文心快码，代码采用率达 44%。据介绍，文心快码有三大方面的优势：更懂研发知识，开发速度快；更懂研发全流程

中国AGI能否重演移动互联网的故事？

轰轰烈烈的大模型浪潮，似乎正在进入一个煎熬期。6 月中旬，微软发布了一个出人意料的消息，他们将于 7 月份停止其推出仅三个月的 Copilot GPTs 服务。Copilot GPTs 可以理解为针对各种需求创建的智能助手，比如杂货 Copilot GPT 可以根据你发给它的膳食计划开列采购清单。这一服务和 OpenAI 的 GPT Store 非常相似。而且，后者同样未能成为市场宠儿：数字解决方案公司 CTOL.Digital 的一份报告估计，GPT Store 的流量不到正常 ChatGPT UI 的 2%。要

国产大模型新高度！讯飞星火4.0发布：整体超越GPT-4 Turbo，8个国际权威测试集测评第一

国内大模型的能力，又来到了一个新高度！6月27日，科大讯飞正式对外发布讯飞星火大模型V4.0，以及在医疗、教育、商业等多个领域的人工智能应用。随着新版本的发布，讯飞星火V4.0七大核心能力全面升级，在8个国际主流测试集中排名第一，整体超越GPT-4 Turbo，领先国内大模型。刘庆峰称，当前，星火APP下载量已经达到了1.31亿，涌现出一批用户喜爱的应用助手。在星火大模型的加持下，部分场景下的智能硬件销量同比增长70% ，月均使用时次数超过4000万。另外，星火V4.0大模型是基于全国首个国产万卡算力集群「飞星一号

史上首个实时AI视频生成技术：DiT通用，速度提升10.6倍

DiT 都能用，生成视频无质量损失，也不需要训练。实时 AI 视频生成来了！本周三，新加坡国立大学尤洋团队提出了业内第一种可以实时输出的，基于 DiT 的视频生成方法。该技术名为 Pyramid Attention Broadcast （PAB）。通过减少冗余注意力计算，PAB 实现了高达 21.6 FPS 的帧率和 10.6 倍的加速，同时不会牺牲包括 Open-Sora、Open-Sora-Plan 和 Latte 在内的流行基于 DiT 的视频生成模型的质量。值得注意的是，作为一种不需要训练的方法，PAB 可

ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本文作者李宏康，美国伦斯勒理工大学电气、计算机与系统工程系在读博士生，本科毕业于中国科学技术大学。研究方向包括深度学习理论，大语言模型理论，统计机器学习等等。目前已在 ICLR/ICML/

将图像自动文本化，图像描述质量更高、更准确了

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]皮仁杰：香港科技大学博士三年级学生，师从张潼教授和周晓方教授。于 2024 年获得苹果奖学金。目前主要研究方向是多模态大语言模型和数据为中心的 AI。张鉴殊：武汉大学本科三年级学生，目前在

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

就像动物有了眼睛，谢赛宁 Yann LeCun 团队的 Cambrian-1 能让 AI 获得强大的视觉表征学习能力。古往今来，许多哲学家都探究过这个问题：理解语言的含义是否需要以感官为基础？尽管哲学家们看法不一，但有一点却不言而喻：坚实有效的感官定基（grounding）至少能带来助益。比如科学家们普遍相信，寒武纪大爆发期间视觉的出现是早期动物演化的关键一步；这不仅能帮助动物更好地找寻食物和躲避捕食者，而且还有助于动物自身的进化。事实上，人类（以及几乎所有动物）的大多数知识都是通过与物理交互的感官体验获取的，比如