AI资讯列表 - AI在线

通用文档理解新SOTA，多模态大模型TextMonkey来了

最近，华中科技大学和金山的研究人员在多模态大模型 Monkey [1]（Li et al., CVPR2024）工作的基础上提出 TextMonkey。在多个场景文本和文档的测试基准中，TextMonkey 处于国际领先地位，有潜力带来办公自动化、智慧教育、智慧金融等行业应用领域的技术变革。论文链接：：是一个专注于文本相关任务（包括文档问答和场景文本问答）的多模态大模型（LMM）。相比于 Monkey，TextMonkey 在多个方面进行改进：通过采用零初始化的 Shifted Window Attention，

32K上下文，Mistral 7B v0.2 基模型突然开源了

刚刚，Mistral AI 的模型又更新了。这次开源一如既往地「突然」，是在一个叫做 Cerebral Valley 的黑客松活动上公布的。PPT 一翻页，全场都举起了手机拍照：这次开源的 Mistral 7B v0.2 Base Model ，是 Mistral-7B-Instruct-v0.2 背后的原始预训练模型，后者属于该公司的「Mistral Tiny」系列。此次更新主要包括三个方面：将 8K 上下文提到了 32K；Rope Theta = 1e6；取消滑动窗口。下载链接：：场外观众迅速跟进。有人评价说：

CNN、Transformer、Uniformer之外，我们终于有了更高效的视频理解技术

视频理解因大量时空冗余和复杂时空依赖，同时克服两个问题难度巨大，CNN 和 Transformer 及 Uniformer 都难以胜任，Mamba 是个好思路，让我们看看本文是如何创造视频理解的 VideoMamba。视频理解的核心目标在于对时空表示的把握，这存在两个巨大挑战：短视频片段存在大量时空冗余和复杂的时空依赖关系。尽管曾经占主导地位的三维卷积神经网络 (CNN) 和视频 Transformer 通过利用局部卷积或长距离注意力有效地应对其中之一的挑战，但它们在同时解决这两个挑战方面存在不足。UniForme

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D，向具身智能更进一步

物体姿态估计在许多现实世界应用中起到至关重要的作用，例如具身智能、机器人灵巧操作和增强现实等。在这一领域中，最先受到关注的任务是实例级别 6D 姿态估计，其需要关于目标物体的带标注数据进行模型训练，使深度模型具有物体特定性，无法迁移应用到新物体上。后来研究热点逐步转向类别级别 6D 姿态估计，用于处理未见过的物体，但要求该物体属于已知的感兴趣类别。而零样本 6D 姿态估计是一种更具泛化性的任务设置，给定任意物体的 CAD 模型，旨在场景中检测出该目标物体，并估计其 6D 姿态。尽管其具有重要意义，这种零样本的任务设

突发！Stability AI的CEO，跑路了

2024 年才第一季度，生成式 AI 明星公司就倒了俩：Inflection 和 Stability AI。生成式 AI 的明星创业公司 Stability AI，现在是风雨飘摇的状态。周六上午，Stability AI 突然发布一项公告，宣布公司 CEO Emad Mostaque 辞职。公告全文内容如下：今天早些时候，Emad Mostaque 辞去了 Stability AI 首席执行官的职务以及公司董事会的职务，以追求去中心化人工智能。董事会已任命首席运营官 Shan Shan Wong 和首席技术官 Ch

成为网红，马斯克Neuralink脑机接口植入者上线表演意念发帖

他的故事给很多人带来了希望。「推特封了我的号，因为他们认为我是机器人，现在马斯克帮我解封了，因为我就是一个机器人。」这是有史以来第一次，「人类以外的智慧生物」在社交网络上用意念发了推：他是 Noland Arbaugh，一名因潜水事故导致肩部以下瘫痪已八年的 29 岁美国男子，本周刚刚公开亮相。利用马斯克旗下脑机接口公司 Neuralink 的技术，他现在已经能做到下国际象棋、通宵玩《文明 6》等等很多事。Noland 现在已是一个「半机械人」了。科技改变了他的生活。实验细节首次公开Noland 近期参观了 Neu

OpenAI进军好莱坞：电影制作用Sora指日可待

OpenAI 的野心可不仅限于在 TikTok 上发短视屏。自从 OpenAI 推出自动生成视频的 Sora 以后，很多人预测好莱坞可能要被 AI 代替了。现在，这家公司可能真的要走上这条路了。彭博社本周五报道，有知情人士透露，OpenAI 计划下周在洛杉矶与好莱坞电影公司、媒体高管和人才机构举行会议，以在娱乐行业建立合作伙伴关系，并鼓励电影制作人将其新的人工智能视频生成器整合到他们的工作中。一些不愿透露姓名的人士表示，即将举行的会议是 OpenAI 最近几周新一轮外展活动的组成部分。2 月底，OpenAI 安排在

电比油低，荣耀出击！比亚迪海豹荣耀版上市，官方指导价17.98万元-24.98万元

3月25日，比亚迪海豹荣耀版正式上市，官方指导价格为17.98万元-24.98万元。作为比亚迪e平台 3.0技术的集大成之作，海豹荣耀版以更具诚意的售价，进一步强化了产品价值，成为纯电中级细分市场的标杆级车型，彰显比亚迪全面践行“电比油低”、推动新能源车迭代合资燃油车的决心。即日起至3月31日，订购海豹荣耀版的用户可享包括金融补贴、维修保养、车机流量等在内的多重超值好礼。“闭眼买，放心开”，以更低门槛引领高价值出行比亚迪海豹荣耀版延续了海豹车型的优秀产品力：CTB电池车身一体化技术、iTAC智能扭矩控制技术、后驱/

复刻Sora的通用视频生成能力，开源多智能体框架Mora来了

何恺明的目标是：探索面向复杂世界的智能。Sora 是首个引起社会广泛关注的大规模通用视频生成模型。自 OpenAI 在 2024 年 2 月推出以来，没有其他视频生成模型能够在性能或支持广泛视频生成任务的能力上与 Sora 匹敌。此外，完全公开的视频生成模型寥寥无几，大多数都是闭源的。为了弥补这一差距，来自理海大学、微软研究院的研究者提出了一种多智能体框架 Mora，该框架整合了几种先进的视觉 AI 智能体，以复制 Sora 所展示的通用视频生成能力。特别是，Mora 能够利用多个视觉智能体，在各种任务中成功模仿

AnimateDiff-Lightning 来了！让文生视频生成速度提升 8 倍！

大家好，这里是和你们一起探索 AI 的花生~ 之前为大家介绍了字节的 SDXL-Lightning 模型，能在几秒内生成一张 1024*1024px 的图像。最近字节又推出了一款新的文生成视频模型 AnimateDiff-Lightning，也是在几秒钟内生成一段 3s 的视频，比原本的 AnimateDiff 模型快了 6-8 倍，有效提升了 AI 视频生成的效率。今天就为大家介绍一下 AnimateDiff-Lightning 的相关内容。相关推荐：一、AnimateDiff-Lightning 简介项目主

超全整理！8个好用的图像放大神器推荐

欢迎浏览“这个基础不基础”系列，本系列不定期更新~ 给到的图像素材尺寸太小，图像不清晰怎么办？立即发疯？找对接算账！不急，本文会推荐一些好用的方法，帮大家解决工作中的素材问题~ 本期首先介绍 AI 图像放大的一些工具图片，效果展示（分辨率：355x355→1420x1420）一、Upscayl 免费开源的 AI 图像放大工具推荐：☆☆☆ Upscayl 是一个免费且开源的 AI 图像放大工具，支持 Linux、macOS 和 Windows 操作系统，并且遵循 Linux 优先的原则。使用先进的 AI 算法放

“AI 教父”杰弗里・辛顿：超越人类智慧的 AI 可用语言操纵我们

感谢人工智能领域的开创者之一，被誉为“AI 教父”的杰弗里・辛顿（Geoffrey Hinton）近日接受日本经济新闻采访，讲述了 AI 与人类的未来。IT之家注：去年 5 月，杰弗里・辛顿宣布离开他工作了十年的谷歌公司，原因是他对人工智能技术的发展越来越担忧。谈到当初从谷歌离职的原因时，辛顿称希望自己离职后能够“自由地传播”自己相信的东西。去年 4 月，他曾与自己的上司 —— 首席科学家杰夫・迪恩（Jeff Dean）交谈，自己提出了 AI 有可能带来事关人类生存危机的看法。迪恩试图挽留辛顿，并提议留在谷歌研究

消息称苹果研究人员正探索免唤醒词呼叫 Siri，用 AI 聆听取代

感谢据《麻省理工科技评论》报道，当地时间周五（22）日发表的一篇论文显示，苹果公司的研究人员正在探索利用人工智能来检测用户何时在与 iPhone 等设备交谈的可能性，从而消除像“Siri”这样的触发短语的技术需求。在这项上传到 Arxiv 且未经同行评审的研究中，研究人员使用智能手机捕获的语音以及来自背景噪音的声学数据，训练了一个大型语言模型，以寻找“可能表明用户需要设备辅助”的模式。论文中称，该模型部分基于 OpenAI 的 GPT-2 构建，因为它相对轻量级，可以在智能手机等设备上运行。论文还描述了用于训练模型

乐坛 ChatGPT？作曲编曲工具 Suno V3 亮相：可免费创作多种风格歌曲还能唱

一家 AI 初创公司 Suno 近日发布了首款能够生成“广播级”歌曲的工具，能够在数秒之内创作出两分钟的完整歌曲，所有用户均可免费访问。IT之家附链接：，就是在用户给出指定歌词之后能够生成不同曲风、流派的歌曲，甚至可以指定 AI 歌手的音色。官方还表示，V4 已经在开发中，“我们正在夜以继日地开发一些令人兴奋的新功能”。该平台宣称，Suno 专为创作原创音乐而设计，模型无法识别其他艺术家的作品，Suno 不是为了制作更多的 Fake Drakes（AI 生成的德雷克“演唱”作品《Heart On My Sleeve

OpenAI 前高管评“AI 复活亲人”：需分清人类与机器的界限

感谢2024 年全球开发者先锋大会于 3 月 23 日-24 日期间在上海徐汇滨江举行。据澎湃新闻报道，OpenAI 前全球商业化负责人 Zack Kass 上台演讲，谈到了时下热门的通用人工智能（AGI）、AI 对人类生活的影响等一系列话题。Zack Kass 认为，AI 技术发展可分为应用增强（功能日渐强大，如 ChatGPT 的出现）、AI 自动化阶段（未来两年内实现，AI 可自动执行任务）、AI 赋能操作系统（例如人们可通过戴眼镜来操作电器）三阶段，到 2030 年，AGI 时代即将到来。同时，他也呼吁要警

口袋 AI 设备 Rabbit R1 月底向首批美国买家发货：无需配对手机，堪称万能应用控制器

曾在今年 CES 大展期间引起轰动的口袋 AI 设备 ——Rabbit R1 将要发货了。Rabbit 官方周六宣布，正在按计划于 3 月 31 日复活节当天将首批美国用户订购的产品运出工厂。由于订单需通过海关，预计发货时间超过 3 周，首批订单将于 4 月 24 日左右到达当地客户手中。“我们迫不及待，想要让您亲身体验 R1！”IT之家附事件背景：初创公司 Rabbit 推出的口袋 AI 设备 Rabbit R1，自 CES 2024 亮相后就引发热潮，首批 1 万台竟在短短一天内就被抢购一空，其售价为 199

女子早癌病变被漏诊，AI 医生在 X 光中发现！谷歌最新 AI 听咳嗽就能检测新冠 / 结核

【新智元导读】被人类医生遗漏的癌症早期迹象，被 AI 及时发现了！这名英国女子现已康复。同时，AI 算法在美国一家诊所近 1/4 的眼科检查中，发现了患者的视网膜病变。AI 帮助人类诊病的未来，真的不远了。最近，越来越多的研究让我们意识到：AI 帮人类诊断疾病，真的有希望了！AI 在 11 名女性的乳腺 X 光检查中，成功地发现了被人类医生遗漏的乳腺癌早期迹象。其中一名被 AI 救下的女性，已经做完手术开始康复了。▲ AI 工具 Mia 在乳腺 X 光检查扫描中，圈出了两个关键区域而谷歌的研究团队，最近刚刚开发了一

Kimi 连续宕机打醒巨头：阿里百度 360 连夜出手长文本，大模型商业化厮杀开始了

一夜之间，国产大模型打起了长文本大战，各大厂近日排队官宣跟进长文本能力：百度文心一言下个月版本升级，开放 200 万-500 万长度360 智脑正在内测 500 万字，一完成就要入驻 360AI 浏览器阿里通义千问则一出手就是 1000 万字，且不用等，当场就开始。内卷启动，大卷特卷。要知道，长文本能力的跟进，意味着是要更大力烧钱了…… 而厂商们做这一决定，似乎毫不犹豫。为啥如此呢？这一切，还得从最近火到宕机的 Kimi 说起。爆火 Kimi，五次扩容仍然宕机Kimi，全称 Kimi Chat，来自月之暗面 (Mo