资讯列表

AI在用 | 一款AI视频换脸神器,让安吉丽娜·朱莉秒变「女版」马斯克

机器之能报道编辑:山茶花 以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式,但绝大部分人依然不知道该如何使用。因此,我们推出了「AI在用」专栏,通过直观、有趣且简洁的人工智能使用案例,来具体介绍AI使用方法,并激发大家思考。   我们也欢迎读者投稿亲自实践的创新型用例。(一大早的选题会上)A:今天的选题是 Faceswap,一款 AI 换脸工具。B:有啥创新性使用场景?A:诈骗…… 呃,电影制作……不得不说,AI 进化得越来越颠了!Faceswap 官网放出了不少演示,个顶个地以假乱真。它不

集聚场景驱动力,激发AI生产力——WAIC 2024“人工智能+”应用场景持续广泛征集

今年的政府工作报告提出,大力推进现代化产业体系建设,加快发展新质生产力。同时要深化大数据、人工智能等研发应用,开展“人工智能 ”行动。近年来,上海市委、市政府不断创新政策举措,探索应用场景,深入推进城市转型、产业升级,为新一代人工智能发展开辟了广阔天地。世界人工智能大会(WAIC)作为行业标杆性盛会,每年都集聚了全球人工智能领域最具影响力的科学家、企业家、政界人士、高校组织、投资人及初创团队,已然成为全球人工智能领域学术与行业交流、展览展示、合作洽谈的重要平台和窗口。2024世界人工智能大会将于7月初在上海举办,大

国产端侧小模型超越 GPT-4V,「多模态」能力飞升

在刚刚过去的机器人学术顶会 ICRA 2024 上,「具身智能」成为热议,其中围绕具身智能的一个普遍疑问是:若将 AI 大模型应用到消费级机器人领域,首先是模型适配终端,还是终端适配模型? 过去一年,由于 6B、7B 等小模型的成果井喷,以及 MoE 训练技术的越发成熟,将模型跑在手机、学习机、平板电脑、机器人甚至汽车等等终端应用上的想象力开始变大,无论算法层还是硬件层都「蠢蠢欲动」。 诚然,这已经成为一个明朗的行业方向,但在系统整合上却要面临不同话语体系之间的博弈。

大模型进入「实用」时代!腾讯助力「销冠」量产,5 分钟创建智能助手

今年年初,英伟达 CEO 黄仁勋因为劝人「别再学习计算机」被送上热搜。但其实,他的原话是「过去,几乎每个人都会告诉你,学习计算机至关重要,每个人都应该学会编程。但事实恰恰相反,我们的工作是创造计算技术,让大家都不需要编程,编程语言就是人类语言。」编程,是为了不再编程,这一愿景由来已久,而且在大模型出现之后逐渐成为可能。但在现阶段,直接把一个大模型丢给某个人或某个企业去用效果仍然不好。比如,你不能指望一个不会写 Prompt 的人利用大模型去构建一整个网站,也不能指望一个没有配置 AI 人才的公司把某个大模型变成公司

Karpathy称赞,从零实现LLaMa3项目爆火,半天1.5k star

项目中代码很多很全,值得细读。一个月前,Meta 发布了开源大模型 llama3 系列,在多个关键基准测试中优于业界 SOTA 模型,并在代码生成任务上全面领先。此后,开发者们便开始了本地部署和实现,比如 llama3 的中文实现、llama3 的纯 NumPy 实现等。十几个小时前,有位名为「Nishant Aklecha」的开发者发布了一个从零开始实现 llama3 的存储库,包括跨多个头的注意力矩阵乘法、位置编码和每个层在内都有非常详细的解释。该项目得到了大神 Karpathy 的称赞,他表示项目看起来不错,

首个GPU高级语言,大规模并行就像写Python,已获8500 Star

最多可支持 10000 个并发线程。经过近 10 年的不懈努力,对计算机科学核心的深入研究,人们终于实现了一个梦想:在 GPU 上运行高级语言。上周末,一种名为 Bend 的编程语言在开源社区引发了热烈的讨论,GitHub 的 Star 量已经超过了 8500。GitHub:,它仍处于研究阶段,但提出的思路已经让人们感到非常惊讶。使用 Bend,你可以为多核 CPU/GPU 编写并行代码,而无需成为具有 10 年经验的 C/CUDA 专家,感觉就像 Python 一样!                     

数据更多更好还是质量更高更好?这项研究能帮你做出选择

当计算预算低时,重复使用高质量数据更好;当不差钱时,使用大量数据更有利。对基础模型进行 scaling 是指使用更多数据、计算和参数进行预训练,简单来说就是「规模扩展」。虽然直接扩展模型规模看起来简单粗暴,但也确实为机器学习社区带来了不少表现卓越的模型。之前不少研究都认可扩大神经模型规模的做法,所谓量变引起质变,这种观点也被称为神经扩展律(neural scaling laws)。近段时间,又有不少人认为「数据」才是那些当前最佳的闭源模型的关键,不管是 LLM、VLM 还是扩散模型。随着数据质量的重要性得到认可,已

让大模型理解手机屏幕,苹果多模态Ferret-UI用自然语言操控手机

此次,苹果提出的多模态大语言模型(MLLM) Ferret-UI ,专门针对移动用户界面(UI)屏幕的理解进行了优化,其具备引用、定位和推理能力。移动应用已经成为我们日常生活的一大重要组成部分。使用移动应用时,我们通常是用眼睛看,用手执行对应操作。如果能将这个感知和交互过程自动化,用户也许能获得更加轻松的使用体验。此外,这还能助益手机辅助功能、多步 UI 导航、应用测试、可用性研究等。为了在用户界面内实现感知和交互的无缝自动化,就需要一个复杂的系统,其需要具备一系列关键能力。这样一个系统不仅要能完全理解屏幕内容,还

OpenAI CEO下场回应「封口协议」,争议还是到了股权利益上,奥特曼:我的锅

自从 Ilya 和 超级对齐负责人 Jan 离职后,OpenAI 内部还是心散了,后续也有越来越多的人离职,同时也引发了更多的矛盾。昨天,争议的焦点来到了一份严格的「封口协议」。OpenAI 前员工 Kelsey Piper 爆料,任何员工的入职文件说明中都包含一项:「在离开公司的六十天内,你必须签署一份包含『一般豁免』的离职文件。如果你没有在 60 天内完成,你的股权获益将被取消。」这份引发风浪的文件截图,让 OpenAI CEO 迅速下场回应:「我们从未收回任何人的既得权益,如果人们不签署分离协议(或不同意不贬

在对齐 AI 时,为什么在线方法总是优于离线方法?

在线和离线对齐算法的性能差距根源何在?DeepMind实证剖析出炉在 AI 对齐问题上,在线方法似乎总是优于离线方法,但为什么会这样呢?近日,Google DeepMind 一篇论文试图通过基于假设验证的实证研究给出解答。论文标题:Understanding the performance gap between online and offline alignment algorithms论文地址:(RLHF)随着大型语言模型(LLM)发展而日渐成为一种用于 AI 对齐的常用框架。不过近段时间,直接偏好优化(DP

替代MLP的KAN,被开源项目扩展到卷积了

本月初,来自 MIT 等机构的研究者提出了一种非常有潜力的 MLP 替代方法 ——KAN。KAN 在准确性和可解释性方面表现优于 MLP,而且它能以非常少的参数量胜过以更大参数量运行的 MLP。比如,作者表示,他们用 KAN 以更小的网络和更高的自动化程度重现了 DeepMind 的结果。具体来说,DeepMind 的 MLP 有大约 300000 个参数,而 KAN 只有大约 200 个参数。KAN 与 MLP 一样具有强大的数学基础,MLP 基于通用逼近定理,而 KAN 基于 Kolmogorov-Arnold

消息称苹果首席运营官威廉姆斯访问台积电,探讨 AI 芯片开发

台媒《经济日报》消息,苹果公司首席运营官杰夫・威廉姆斯(Jeff Williams)低调拜访台积电,台积电总裁魏哲家亲自接待。双方主要讨论了苹果自研 AI 芯片的开发,以及台积电使用先进制程技术生产芯片等事宜。苹果需要更多半导体先进技术支持,此前苹果已包下台积电 3 纳米首批产能,若后续预定 2 纳米乃至更先进制程的首批产能,台积电营收将继续增加,今年有机会创新高,预计可达 6000 亿元新台币(IT之家备注:当前约 1350 亿元人民币)。苹果首席财务官卢卡・梅斯特里(Luca Maestri)在财报会议上表示,

AI在用|与书对话!微信读书上线「AI问书」,你问书答

机器之能报道编辑:Cardinal以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式,但绝大部分人依然不知道该如何使用。因此,我们推出了「AI在用」专栏,通过直观、有趣且简洁的人工智能使用案例,来具体介绍AI使用方法,并激发大家思考。   我们也欢迎读者投稿亲自实践的创新型用例。微信读书(App)给自己上了一个大分:「AI 问书」!阅读中有看不懂的地方?没关系,标记出来,AI 立马解释给你听。古人说,书中自有颜如玉,现在美人能和你对话了。打开微信读书,选本书试试。比如金宇澄的《繁花》,前言里就

用好这 3 款 3D 建模工具,让你的 AI 出图质量轻松提升200%

大家好,这里是和你们一起探索 AI 的花生~ 前段时间 Adobe 推出了一个新的在线 3D 建模工具 Project Neo,旨在通过便捷的 3D 元素搭建,来提升 2D 插画、特别是等距插画的创作效率。虽然新工具上线不过半个月,但是相关社区内已经涌现了很多优秀的设计作品。Projext Neo 制作的内容可以导出为 JPEG、SVG 和透明底 PNG 三种格式,方便用户导入 Adobe Ps 或 Ai 中进行进一步编辑处理。 Project Neo 网站直达: :Project Neo 的界面与 Ps 类似,因

大厂实战案例!如何做好电商AI数字人直播的体验设计?

电商 AI 数字人直播解决方案是什么? 随着以 ChatGPT、文心一言为代表的大语言模型相继涌现,AI 电商也带来新的购物体验和新的经营模式。 「电商 AI 数字人直播解决方案-慧播星」依托自研 StyleSync 技术/音频自恢复预训练技术/文心一言/自研 PicGen 技术等,实现 AI 复刻/定制优质主播、稳定 7*24 小时在线开播。低成本搭建多元直播场景,专家级商品讲解、实时互动问答、丰富的互动形态精准传达信息,既让消费者获得全新的购物体验,也赋能中小商家零门槛、零成本一键创建商品售卖直播间、助推 GM

Meta 首发「变色龙」挑战 GPT-4o,34B 参数引领多模态革命!10 万亿 token 训练刷新 SOTA

【新智元导读】GPT-4o 发布不到一周,首个敢于挑战王者的新模型诞生!最近,Meta 团队发布了「混合模态」Chameleon,可以在单一神经网络无缝处理文本和图像。10 万亿 token 训练的 34B 参数模型性能接近 GPT-4V,刷新 SOTA。GPT-4o 的横空出世,再次创立了一个多模态模型发展的新范式!为什么这么说?OpenAI 将其称为「首个『原生』多模态」模型,意味着 GPT-4o 与以往所有的模型,都不尽相同。传统的多模态基础模型,通常为每种模态采用特定的「编码器」或「解码器」,将不同的模态分

育碧 CEO:将使用 AI 技术开发更有活力、更丰富的游戏

育碧公司首席执行官 Yves Guillemot 近期在财报问答会中确认,公司计划将使用 AI 技术开发更有活力、更丰富的游戏。他表示,AI 可能会被用于公司部分工作的“自动化”。目前,育碧有两个小组正在研究生成式 AI—— 一个小组负责市场营销、销售、IT、法律等工作,另一组人马则专注于提高游戏质量、让游戏更有“生命力”的工作。“我对我们游戏中的生成式 AI 充满期待,希望它能让我们的游戏更加有趣,人们能够真正获得个性化的体验。”育碧也在其最新财报中强调,公司将继续投资生成式 AI 等新技术领域,因为这些技术可为

自己声音被拿来训练 AI,美国两位配音演员对初创公司 Lovo 提起诉讼

感谢据《纽约时报》报道,美国两名配音演员 Paul Skye Lehrman 和 Linnea Sage 近日声称,AI 初创公司 Lovo 在未经自己许可的情况下,“复制”了他们的声音,并对该公司提起诉讼。事情的起因,是去年夏季两人在驾车时听到一个播客节目,其内容是“AI 的兴起”,并谈到了 AI 对作家、演员和其他娱乐界从业者的生活将构成威胁。而在这期节目中,主持人“采访”了一个名叫 Poe 的聊天机器人,他的音色听上去就像 Paul 的原声。图源 PixabayPaul 表示,当时的情景就像主持人在采访“自己