资讯列表

微软 AI 部门 CEO:网上几乎所有内容都可免费用于 AI 训练,但也有灰色地带

随着生成式 AI 逐渐受到各界关注,部分争议问题也开始浮出水面。这其中最大的争议之一就是 AI 公司训练模型是否使用了受版权保护的内容,而也有部分作家、出版商或媒体公司等针对包括微软在内的生成式 AI 公司提起了一系列诉讼。微软 AI 部门新任命的首席执行官穆斯塔法・苏莱曼(Mustafa Suleyman)当地时间周四接受 CNBC 采访时,谈到了生成式 AI 从网络获取数据的问题。他的回复是:对于已经在网上公开的内容,自 90 年代以来,这些内容的社会契约就是“合理使用”,任何人都可以复制、重新创作、再现这些内

AIGC实战案例!京东汽车如何用AI快速完成视觉设计?

最近大厂都开始用AIGC提高出图效率了,还没有思路的同学,不妨看看这篇文章。

双向赋能:AI与数据库的修行之道

在这个数据为王的时代,数据是人工智能的三大支柱之一,其重要性不言而喻。最近,OpenAI 收购了数据库初创公司 Rockset,迅速引起了业内外的广泛关注。OpenAI 早已在算法和计算能力方面遥遥领先,通过这次战略性的收购,OpenAI 将在其产品中融合 Rockset 的先进数据索引和查询技术,帮助 OpenAI 将数据转化为 “可操作智能”。现代数据库与人工智能(AI)的融合,正如同一场席卷全球的技术革命,深刻地重塑着技术与产业的格局。一方面,数据库技术的技术迭代需要更好地支持人工智能应用工作负责,比如向量数

Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]本文作者张天宇,就读于加拿大Mila人工智能研究所,师从图灵奖得主Yoshua Bengio教授。博士期间的主要工作聚焦于多模态、GFlowNet、多智能体强化学习、AI于气候变化的应用。

击败Gemini-1.5-Pro、GPT-4V,从容大模型多模态能力跻身全球前三

近日,云从科技从容大模型在综合评测权威平台 OpenCompass 的多模态评测领域中取得重大进展。最新评测结果显示,云从科技的从容大模型在该体系中的平均得分为 65.5,这一成绩使得从容大模型跻身全球前三,超越了谷歌的 Gemini-1.5-Pro 和 GPT-4v,仅次于 GPT-4o(69.9)和 Claude3.5-Sonnet(67.9)。而在国内市场,从容大模型的成绩也超过了 InternVL-Chat(61.7)和 GLM-4V(60.8),排名首位。                         

谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济!

性能翻倍的Gemma 2, 让同量级的Llama3怎么玩?AI赛道上,科技巨头们激烈角逐。前脚有GPT-4o问世,后脚就出现了Claude 3.5 Sonnet。如此激烈的争斗中,谷歌虽然发力较晚,但在短时间内就能有显著的能力跟进,可见其技术发展与创新的潜力。除了Gemini模型外,Gemma这一系列轻量级的SOTA开放模型似乎与我们距离更近。它基于Gemini模型相同的研究和技术构建,旨在让每个人都拥有构建AI的工具。谷歌持续扩展Gemma家族,包括CodeGemma、RecurrentGemma和PaliGem

300多篇相关研究,复旦、南洋理工最新多模态图像编辑综述论文

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]该文章的第一作者帅欣成,目前在复旦大学FVL实验室攻读博士学位,本科毕业于上海交通大学。他的主要研究方向包括图像和视频编辑以及多模态学习。前言本文提出了解决一般性编辑任务的统一框架!近期,

论坛预告|WAIC 2024腾讯论坛,邀你共话AI,智创未来

主题:智创未来地点:上海世博中心红厅时间:7月5日14:00-17:007月5日,由腾讯华东总部主办,腾讯优图实验室、腾讯云智能、腾讯研究院、腾讯新闻共同协办的 2024 世界人工智能大会腾讯论坛将在上海世博中心红厅举办。今年腾讯论坛以“智创未来”为主题,邀请来自学术界及产业界的嘉宾共同探讨AI领域前沿思想,探索人工智能发展新机遇。相信智慧的碰撞能激发技术的革新,深度的探讨能预见更智慧更美好的未来。为您正式揭晓腾讯论坛嘉宾阵容                                         蒋杰 

论坛预告|“智启文创,激发无限新质生产力” ——“AI+文创”发展论坛前瞻

论坛主题:智启文创,激发无限新质生产力论坛时间:7月6日 9:30-11:40论坛地点:上海世博中心515会议室近年来,随着人工智能技术的迅猛发展,各行各业在新技术的加持下,迸发出了新的动力。在“AI 文创”新质生产力的培育与发展中,上海积极落实数字中国建设部署,为数字文创和元宇宙新赛道顶层设计和战略布局、打造文创产业创新发展“核爆点”提供了新的机遇。为弘扬中华文化,推动文创产业创新发展,搭建国内外文创领域的交流平台,本次“AI 文创发展论坛”应运而生。论坛邀请全球专家、学者、文创产业精英及行业领军人物齐聚一堂,共

字节大模型团队Depth Anything V2模型入选苹果最新CoreML模型

近日,苹果公司在HuggingFace上发布了20个新的Core ML模型和4个数据集,字节大模型团队的单目深度估计模型 Depth Anything V2入选其中。CoreML是苹果公司的机器学习框架,将机器学习模型集成到iOS,MacOS等设备上高效运行,可在无需互联网连接的情况下执行复杂的AI任务,从而增强用户隐私并减少延迟。苹果开发者可以利用这些模型更容易地构建智能、安全的AI应用。Depth Anything V2为字节大模型团队开发的单目深度估计模型。相比上一代版本,V2版在细节处理上更精细,鲁棒性更强

专访 OmniH2O 项目发起人何泰然:探索人形机器人遥操作通向具身智能的可行之路

作者丨饶舒玮编辑丨岑峰“既要又要”是何泰然的野心,也是决心。 在谈到人形机器人遥操作的可行路径时,何泰然表示他既可以实现机器人的全身控制,还可以用强化学习来实现这一点。 在他所探索的这条路上,不必因为技术瓶颈或短期目标而妥协,可以“既要又要”。

百度智能代码助手“文心快码”发布:支持 100+ 主流编程语言及多种 IDE

在今日举行的百度 WAVE SUMMIT 深度学习开发者大会上,百度推出了旗下智能代码助手 —— 文心快码(Baidu Comate)。文心快码(Baidu Comate)基于文心大模型,结合百度积累多年的编程现场大数据和外部优秀开源数据,拥有代码智能、场景丰富、创造价值、广泛应用等多重产品优势,可实现“帮你想、帮你写、帮你改”的场景应用形态。百度表示,该公司内部上万工程师中,目前已经有 80% 的人都开始使用文心快码,代码采用率达 44%。据介绍,文心快码有三大方面的优势:更懂研发知识,开发速度快;更懂研发全流程

中国AGI能否重演移动互联网的故事?

轰轰烈烈的大模型浪潮,似乎正在进入一个煎熬期。6 月中旬,微软发布了一个出人意料的消息,他们将于 7 月份停止其推出仅三个月的 Copilot GPTs 服务。Copilot GPTs 可以理解为针对各种需求创建的智能助手,比如杂货 Copilot GPT 可以根据你发给它的膳食计划开列采购清单。这一服务和 OpenAI 的 GPT Store 非常相似。而且,后者同样未能成为市场宠儿:数字解决方案公司 CTOL.Digital 的一份报告估计,GPT Store 的流量不到正常 ChatGPT UI 的 2%。要

国产大模型新高度!讯飞星火4.0发布:整体超越GPT-4 Turbo,8个国际权威测试集测评第一

国内大模型的能力,又来到了一个新高度!6月27日,科大讯飞正式对外发布讯飞星火大模型V4.0,以及在医疗、教育、商业等多个领域的人工智能应用。随着新版本的发布,讯飞星火V4.0七大核心能力全面升级,在8个国际主流测试集中排名第一,整体超越GPT-4 Turbo,领先国内大模型。刘庆峰称,当前,星火APP下载量已经达到了1.31亿,涌现出一批用户喜爱的应用助手。在星火大模型的加持下,部分场景下的智能硬件销量同比增长70% ,月均使用时次数超过4000万。另外,星火V4.0大模型是基于全国首个国产万卡算力集群「飞星一号

史上首个实时AI视频生成技术:DiT通用,速度提升10.6倍

DiT 都能用,生成视频无质量损失,也不需要训练。实时 AI 视频生成来了!本周三,新加坡国立大学尤洋团队提出了业内第一种可以实时输出的,基于 DiT 的视频生成方法。该技术名为 Pyramid Attention Broadcast (PAB)。通过减少冗余注意力计算,PAB 实现了高达 21.6 FPS 的帧率和 10.6 倍的加速,同时不会牺牲包括 Open-Sora、Open-Sora-Plan 和 Latte 在内的流行基于 DiT 的视频生成模型的质量。值得注意的是,作为一种不需要训练的方法,PAB 可

ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]本文作者李宏康,美国伦斯勒理工大学电气、计算机与系统工程系在读博士生,本科毕业于中国科学技术大学。研究方向包括深度学习理论,大语言模型理论,统计机器学习等等。目前已在 ICLR/ICML/

将图像自动文本化,图像描述质量更高、更准确了

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]皮仁杰:香港科技大学博士三年级学生,师从张潼教授和周晓方教授。于 2024 年获得苹果奖学金。目前主要研究方向是多模态大语言模型和数据为中心的 AI。张鉴殊:武汉大学本科三年级学生,目前在

寒武纪1号诞生:谢赛宁Yann LeCun团队发布最强开源多模态LLM

就像动物有了眼睛,谢赛宁 Yann LeCun 团队的 Cambrian-1 能让 AI 获得强大的视觉表征学习能力。古往今来,许多哲学家都探究过这个问题:理解语言的含义是否需要以感官为基础?尽管哲学家们看法不一,但有一点却不言而喻:坚实有效的感官定基(grounding)至少能带来助益。比如科学家们普遍相信,寒武纪大爆发期间视觉的出现是早期动物演化的关键一步;这不仅能帮助动物更好地找寻食物和躲避捕食者,而且还有助于动物自身的进化。事实上,人类(以及几乎所有动物)的大多数知识都是通过与物理交互的感官体验获取的,比如