资讯列表
i人小助手:Meta推出多模态对话图,帮你轻松识别社交状态
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]本文通讯作者为佐治亚理工学院计算机系博士生 Wenqi Jia(秋季起将转入伊利诺伊香槟分校),导师为 James M. Rehg 及 Danfei Xu。她的主要研究方向聚焦于第一人称视
从LLM中完全消除矩阵乘法,效果出奇得好,10亿参数跑在FPGA上接近大脑功耗
让语言模型「轻装上阵」。一直以来,矩阵乘法(MatMul)稳居神经网络操作的主导地位,其中很大原因归结为 GPU 专门针对 MatMul 操作进行了优化。这种优化使得 AlexNet 在 ILSVRC2012 挑战赛中一举胜出,成为深度学习崛起的历史性标志。在这当中,有个值得注意的点是,AlexNet 利用 GPU 来提高训练速度,超越了 CPU 的能力,至此,GPU 的加入使得深度学习仿佛赢得了「硬件彩票」。尽管 MatMul 在深度学习中很流行,但不得不承认的是它占据了计算开销的主要部分,主要表现为 MatMu
大模型的高考数学成绩单:及格已经非常好了
让考生头皮发麻的高考数学,可难倒了顶尖 AI 大模型。一年一度的高考即将落幕,衷心希望各位考生都超常发挥,考出满意的好成绩!!和往年一样,除了让 AI 大模型写写高考作文,我们也选取了六家国内头部大模型公司的产品与考生们一同参与一场客观且公平(让众多考生头皮发麻)的高考数学考试(新课标 Ⅰ 卷),其中包括 GPT-4o、GLM-4、文心一言 4.0、豆包、百小应(百川 4)以及通义千问 2.5。先来瞧一瞧这份「大模型成绩单」:令人惊讶的是,在这次模拟考试中,大模型(产品)的表现并未达到预期,甚至出现了几乎全部不及格
AI降噪耳机,可在嘈杂人群中单独通话,看一眼锁定目标
千万种声音里,只听到你。最近几年来,很多人都在使用降噪耳机。这种设备能让人在吵闹的环境中享受安静,安心地听音乐或工作。通常,降噪耳机会通过内置的芯片算法对外界噪音信号进行计算,然后由喇叭发出反向声波进行抵消的方式创造安静环境。不过安静归安静,大多数情况下人们还是需要交流的,这就带来了不小的挑战。人们曾提出过各种解决方案,比如苹果最新款的 AirPods Pro 就会自动调整,如果耳机感知到人在说话就会停止降噪,但用户是无法控制听谁说话,或何时关掉降噪的。近日,华盛顿大学的一个团队开发了一种 AI 系统,让戴着耳机的
可信度超越GPT-4V,清华&面壁揭秘「小钢炮」模型背后的高效对齐技术
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]本文主要作者来自 MiniCPM-V 团队,其中第一作者余天予是清华大学 2021 级硕士研究生,他的主要研究方向是通用多模态基础大模型构建及其对齐方法。近期,由清华大学自然语言处理实验室
深度解析!Midjourney 三大常用参数 --s/c/w 的区别与使用技巧
大家好,这里是和你们一起探索 AI 的花生~
之前为大家推荐了很多期 midjourney 提示词,然后有小伙伴问我推荐的提示词后跟着的参数,比如 --s 250、--c 6 等,是随便添加的还是有意识地用它们控制出图效果;如果是有意识的,又是如何确定使用哪一项参数和具体数值的。那今天就专门开一篇文章,为大家详细介绍一下 Midjourney 的三大常用参数 stylize、chaos 和 werid 的区别以及使用技巧 (本文中仅讨论仅限于目前最新的 v6 版本) 。
相关推荐:一、--Stylize 风格化
S
两句话,让 LLM 逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷
感谢IT之家网友 刺客 的线索投递!在基准测试上频频屠榜的大模型们,竟然被一道简单的逻辑推理题打得全军覆没?最近,研究机构 LAION 的几位作者共同发表了一篇文章,以「爱丽丝梦游仙境」为启发涉及了一系列简单的推理问题,揭示了 LLM 基准测试的盲区。一道简单的逻辑问题,竟让几乎所有的 LLM 全军覆没?对于人类来说,这个名为「爱丽丝梦游仙境」(AIW)的测试并不算很难 ——「爱丽丝有 N 个兄弟,她还有 M 个姐妹。爱丽丝的兄弟有多少个姐妹?」只需稍加思考,答案显而易见:M 1。(爱丽丝拥有的姐妹数量,再加上爱丽
“AI 预测宝宝长相是不是智商税”上热搜,专家:娱乐性大于准确性
今天下午,一条 #AI 预测宝宝长相是不是智商税#的话题登上了微博热搜,目前位于榜单第 10 位。据极目新闻报道,在电商平台上,利用四维彩超图生成一张宝宝照片最低只需 6.8 元,等待半小时就能出片,最火的商家已接了上万单。在某微信小程序,用户也可自行上传四维彩超图,免费生成预测照片。对此,人工智能领域专业人士郭涛表示,通过一些算法和数据确实可以对图像进行处理和推测,但胎儿在母体发育以及出生后的成长会受到多种因素影响,AI 很难准确预测出最终模样。中国企业资本联盟副理事长柏文喜表示:“不少宝爸宝妈对未出生宝宝怀着好
语音克隆技术引发担忧,OpenAI 再次解释其文本转语音工具
OpenAI 在几个月内第二次就其文本转语音工具进行解释,并再次强调该工具目前并未大范围开放,且未来也可能不会。图源 Pexels“无论我们最终是否会大规模部署这项技术,让世界各地的人们理解这项技术的发展方向都非常重要,”OpenAI 公司周五在其网站上发布的一份声明中表示,“这就是为什么我们想要解释模型的运作方式、我们如何将其用于研究和教育,以及我们如何围绕该技术实施安全措施的原因。”据IT之家了解,去年年底,OpenAI 与一小部分外部用户分享了其“语音引擎”。该引擎利用文本输入和 15 秒的人声音频剪辑,即可
OpenAI 旧金山办公室被指神秘兮兮,便衣保安引周边商户不安
位于旧金山的 OpenAI 人工智能公司因其办公室的安保措施引起周边商户的不安。据《旧金山标准报》报道,该公司办公室里到处都是便衣保安,他们对来自邻居的询问守口如瓶,这种神秘兮兮的气氛让周边商户感到不安。《旧金山标准报》的摄影记者最近注意到,OpenAI 办公楼外有可疑人员站岗,身着黑色棒球帽、太阳镜,并隐蔽地佩戴着耳机,看起来像是便衣保安。附近 In-Symmetry Spa 美容院的老板坎达斯・科姆斯 (Candace Combs) 称,她曾询问过这些可疑人员的工作单位和所在的公司,但他们都拒绝透露任何信息。据
广东:到 2025 年全省 AI 核心产业规模将超过 3000 亿元
广东省人民政府办公厅在 6 月 6 日发布《广东省关于人工智能赋能千行百业的若干措施》文件,主要围绕 2025/2027 年广东省内 AI 发展进行规划。IT之家从文件中获悉,广东省计划到 2025 年全省算力规模达到 40EFLOPS,AI 核心产业规模超过 3000 亿元;到 2027 年,全省 AI 产业底座进一步夯实,算力规模超过 60EFLOPS,全国领先的算法体系和算力网络体系基本形成。具体看来,文件中提到广东省将建立 AI 芯片生态体系,打造智能感知产业体系。在 2027 年初步建成“AI 芯片生态体
AIGCRank:2024年5月国内AI网站流量排行榜
AI在线 发布:2024年5月全球和国内AI网站流量排行榜、5月全球AI网站增长率排行榜。
榜单数据来自公开平台,AIGCRank 没有对数据做任何修改,排名公平公正,极具行业参考价值。你可放心转载、分享榜单,获取榜单原始数据请在公众号后台回复「AI」。
AIGCRank:2024年5月全球AI网站流量排行榜
AI在线 发布:2024年5月全球和国内AI网站流量排行榜、5月全球AI网站增长率排行榜。
榜单数据来自公开平台,AIGCRank 没有对数据做任何修改,排名公平公正,极具行业参考价值。你可放心转载、分享榜单,获取榜单原始数据请在公众号后台回复「AI」。
AIGCRank:2024年5月全球AI网站增长排行榜
AI在线 发布:2024年5月全球和国内AI网站流量排行榜、5月全球AI网站增长率排行榜。
榜单数据来自公开平台,AIGCRank 没有对数据做任何修改,排名公平公正,极具行业参考价值。你可放心转载、分享榜单,获取榜单原始数据请在公众号后台回复「AI」。
成功率达 53%,研究显示 GPT-4 可自主利用“零日”漏洞攻破网站
据 NewAtlas 报道,研究人员利用自主协作的 GPT-4 机器人小组成功入侵了一半以上的测试网站,这些机器人可以自主协调行动并根据需要生成新的“帮手”。更令人吃惊的是,他们利用的是以前未知的、现实世界中从未公开的“零日”漏洞(zero-day vulnerabilities)。图源 Pexels早在几个月前,同一批研究人员就发表了一篇论文,声称他们能够使用 GPT-4 自动利用“N day”漏洞,即业界已知但尚未修复的漏洞。实验中,GPT-4 仅凭已知的常见漏洞和披露列表 (CVE),就能自主利用其中 87%
原作者带队,LSTM卷土重来之Vision-LSTM出世
与 DeiT 等使用 ViT 和 Vision-Mamba (Vim) 方法的模型相比,ViL 的性能更胜一筹。AI 领域的研究者应该还记得,在 Transformer 诞生后的三年,谷歌将这一自然语言处理届的重要研究扩展到了视觉领域,也就是 Vision Transformer。后来,ViT 被广泛用作计算机视觉中的通用骨干。这种跨界,对于前不久发布的 xLSTM 来说同样可以实现。最近,享誉数十年的 LSTM 被扩展到一个可扩展且性能良好的架构 ——xLSTM,通过指数门控和可并行化的矩阵内存结构克服了长期存在
329篇图像、视频生成论文,今年CVPR最火的研究主题是这些
图像与视频合成、3D 视觉、人体行为识别、视觉与语言推理等研究方向论文最多,属于最热门的方向,体现当前学界对视觉生成、三维感知、人机交互等方向的高度重视。另外,多模态学习、以人为本的设计和自适应机器人可能构成人形机器人的未来。一年一度的计算机视觉和模式识别会议(CVPR)一直是 CV 界前沿研究的灯塔。CVPR 2024 录用结果显示,今年共有 2719 篇论文被接收,录用率 23.6%。那么大模型时代,今年的研究主题有哪些变化?最近,乔治亚理工学院计算机学院(College of Computing, Georg
支持合成一分钟高清视频,华科等提出人类跳舞视频生成新框架UniAnimate
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]人类跳舞视频生成是一项引人注目且具有挑战性的可控视频合成任务,旨在根据输入的参考图像和目标姿势序列生成高质量逼真的连续视频。随着视频生成技术的快速发展,特别是生成模型的迭代演化,跳舞视频生