AI资讯列表 - AI在线

努比亚 Z60 Ultra 摄影师版手机支持双向通话 AI 实时翻译

努比亚官方今日公布了旗下 Z60 Ultra 摄影师版手机的 AI 翻译功能。据官方介绍，该功能拥有两大亮点，支持 AI 双向通话实时翻译和 AI 面对面智慧翻译。目前，官方没有进一步描述 AI 翻译功能的展现形式，尚不清楚该功能是采用类似“同声传译”的形式还是“字幕翻译”形式。此外，努比亚官方还公布 Z60 Ultra 摄影师版手机的其他 AI 功能，如：融合 AI 影像大模型、AI“魔法功能”以及 AI 智慧语音功能。努比亚融合 AI 影像大模型 —— Neovision 泰山 AI 影像的官方解释为“计算摄影

首个 AI 游戏引擎或颠覆任天堂 / 暴雪？0 代码即可创建，黄仁勋预测 5-10 年游戏完全由 AI 生成

【新智元导读】还有什么领域没有被 AI 渗透？继音乐之后，首个 AI 游戏引擎已经完全凭几个字，就能创建游戏资产和动画了。老黄预测，未来 5-10 年我们将看到完全由 AI 生成的游戏。「未来 5-10 年，我们可以看到完全由 AI 生成的游戏」。这是近日 GTC 2024 大会之后，黄仁勋接受媒体时采访时发表的最新看法。其实，现在的游戏创建，早已到了只说一句话的地步了！近日，一家专注研发无代码游戏引擎的初创公司 BuildBox AI，发布了新一代 AI 游戏引擎 ——Buildbox 4 Alpha。它可以做到

字节跳动提速 AI：Flow 部门下设四大业务线，挖角大批百度阿里员工

3 月 25 日下午消息，近日，字节跳动推出 AI 角色互动 App“话炉”，从而引发外界对其探索 AI 社交赛道的关注。据了解，“话炉”由字节跳动的 Flow 部门打造。新浪科技独家获悉，Flow 部门隶属于字节跳动的产品研发与工程部（内部简称“PDI”），目前下设四大业务线，包括 AI 教育、国际化、社区和豆包，“话炉”则属于社区业务线旗下。在今年 1 月的 2024 年年度全员会上，字节跳动 CEO 梁汝波提到，公司直到 2023 年才开始讨论 GPT，而业内做得比较好的大模型创业公司都是在 2018 年至

词曲创作只需几秒，「AI作曲家」Suno引爆音乐圈，第一手体验和攻略来了

有了 Suno 这个「作曲助手」，人人都可以创建自己想听的歌曲。自从 ChatGPT 在 2022 年底爆火以来，我们已经看到 AI 生成的诸多艺术创作成果：ChatGPT 写出过情节引人入胜的网文，Midjourney 生成过肉眼难辨的人像。最近，AI 搞创作的风终于吹到了「歌曲生成」领域，一款名为 Suno 的 AI 驱动的歌曲生成器，在社区内开始了病毒式传播。其实此前陆续推出的 AI 音乐生成器并不少，比如 Adobe 的 Project Music GenAI ， YouTube 的 Dream Track

离职谷歌的Transformer作者创业，连发3个模型（附技术报告）

去年 8 月，两位著名的前谷歌研究人员 David Ha、Llion Jones 宣布创立一家人工智能公司 Sakana AI，总部位于日本东京。其中，Llion Jones 是谷歌 2017 年经典研究论文《Attention is all you need》的第五作者，该论文提出了深度学习架构 transformer。transformer 对整个机器学习领域产生了重要影响，并且是 ChatGPT 等生成式 AI 模型的基础。论文于 2017 年 6 月首次发表后，随着全球对生成人工智能人才竞争不断升温，论文作

讨论下一个token预测时，我们可能正在走进陷阱

自香农在《通信的数学原理》一书中提出「下一个 token 预测任务」之后，这一概念逐渐成为现代语言模型的核心部分。最近，围绕下一个 token 预测的讨论日趋激烈。然而，越来越多的人认为，以下一个 token 的预测为目标只能得到一个优秀的「即兴表演艺术家」，并不能真正模拟人类思维。人类会在执行计划之前在头脑中进行细致的想象、策划和回溯。遗憾的是，这种策略并没有明确地构建在当今语言模型的框架中。对此，部分学者如 LeCun，在其论文中已有所评判。在一篇论文中，来自苏黎世联邦理工学院的 Gregor Bachmann

剑桥团队开源：赋能多模态大模型RAG应用，首个预训练通用多模态后期交互知识检索器

PreFLMR模型是一个通用的预训练多模态知识检索器，可用于搭建多模态RAG应用。模型基于发表于 NeurIPS 2023 的 Fine-grained Late-interaction Multi-modal Retriever (FLMR) 并进行了模型改进和 M2KR 上的大规模预训练。论文链接：链接：：：PreFLMR: Scaling Up Fine-Grained Late-Interaction Multi-modal Retrievers背景尽管多模态大模型（例如 GPT4-Vision、Gemi

通用文档理解新SOTA，多模态大模型TextMonkey来了

最近，华中科技大学和金山的研究人员在多模态大模型 Monkey [1]（Li et al., CVPR2024）工作的基础上提出 TextMonkey。在多个场景文本和文档的测试基准中，TextMonkey 处于国际领先地位，有潜力带来办公自动化、智慧教育、智慧金融等行业应用领域的技术变革。论文链接：：是一个专注于文本相关任务（包括文档问答和场景文本问答）的多模态大模型（LMM）。相比于 Monkey，TextMonkey 在多个方面进行改进：通过采用零初始化的 Shifted Window Attention，

32K上下文，Mistral 7B v0.2 基模型突然开源了

刚刚，Mistral AI 的模型又更新了。这次开源一如既往地「突然」，是在一个叫做 Cerebral Valley 的黑客松活动上公布的。PPT 一翻页，全场都举起了手机拍照：这次开源的 Mistral 7B v0.2 Base Model ，是 Mistral-7B-Instruct-v0.2 背后的原始预训练模型，后者属于该公司的「Mistral Tiny」系列。此次更新主要包括三个方面：将 8K 上下文提到了 32K；Rope Theta = 1e6；取消滑动窗口。下载链接：：场外观众迅速跟进。有人评价说：

CNN、Transformer、Uniformer之外，我们终于有了更高效的视频理解技术

视频理解因大量时空冗余和复杂时空依赖，同时克服两个问题难度巨大，CNN 和 Transformer 及 Uniformer 都难以胜任，Mamba 是个好思路，让我们看看本文是如何创造视频理解的 VideoMamba。视频理解的核心目标在于对时空表示的把握，这存在两个巨大挑战：短视频片段存在大量时空冗余和复杂的时空依赖关系。尽管曾经占主导地位的三维卷积神经网络 (CNN) 和视频 Transformer 通过利用局部卷积或长距离注意力有效地应对其中之一的挑战，但它们在同时解决这两个挑战方面存在不足。UniForme

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D，向具身智能更进一步

物体姿态估计在许多现实世界应用中起到至关重要的作用，例如具身智能、机器人灵巧操作和增强现实等。在这一领域中，最先受到关注的任务是实例级别 6D 姿态估计，其需要关于目标物体的带标注数据进行模型训练，使深度模型具有物体特定性，无法迁移应用到新物体上。后来研究热点逐步转向类别级别 6D 姿态估计，用于处理未见过的物体，但要求该物体属于已知的感兴趣类别。而零样本 6D 姿态估计是一种更具泛化性的任务设置，给定任意物体的 CAD 模型，旨在场景中检测出该目标物体，并估计其 6D 姿态。尽管其具有重要意义，这种零样本的任务设

突发！Stability AI的CEO，跑路了

2024 年才第一季度，生成式 AI 明星公司就倒了俩：Inflection 和 Stability AI。生成式 AI 的明星创业公司 Stability AI，现在是风雨飘摇的状态。周六上午，Stability AI 突然发布一项公告，宣布公司 CEO Emad Mostaque 辞职。公告全文内容如下：今天早些时候，Emad Mostaque 辞去了 Stability AI 首席执行官的职务以及公司董事会的职务，以追求去中心化人工智能。董事会已任命首席运营官 Shan Shan Wong 和首席技术官 Ch

成为网红，马斯克Neuralink脑机接口植入者上线表演意念发帖

他的故事给很多人带来了希望。「推特封了我的号，因为他们认为我是机器人，现在马斯克帮我解封了，因为我就是一个机器人。」这是有史以来第一次，「人类以外的智慧生物」在社交网络上用意念发了推：他是 Noland Arbaugh，一名因潜水事故导致肩部以下瘫痪已八年的 29 岁美国男子，本周刚刚公开亮相。利用马斯克旗下脑机接口公司 Neuralink 的技术，他现在已经能做到下国际象棋、通宵玩《文明 6》等等很多事。Noland 现在已是一个「半机械人」了。科技改变了他的生活。实验细节首次公开Noland 近期参观了 Neu

OpenAI进军好莱坞：电影制作用Sora指日可待

OpenAI 的野心可不仅限于在 TikTok 上发短视屏。自从 OpenAI 推出自动生成视频的 Sora 以后，很多人预测好莱坞可能要被 AI 代替了。现在，这家公司可能真的要走上这条路了。彭博社本周五报道，有知情人士透露，OpenAI 计划下周在洛杉矶与好莱坞电影公司、媒体高管和人才机构举行会议，以在娱乐行业建立合作伙伴关系，并鼓励电影制作人将其新的人工智能视频生成器整合到他们的工作中。一些不愿透露姓名的人士表示，即将举行的会议是 OpenAI 最近几周新一轮外展活动的组成部分。2 月底，OpenAI 安排在

电比油低，荣耀出击！比亚迪海豹荣耀版上市，官方指导价17.98万元-24.98万元

3月25日，比亚迪海豹荣耀版正式上市，官方指导价格为17.98万元-24.98万元。作为比亚迪e平台 3.0技术的集大成之作，海豹荣耀版以更具诚意的售价，进一步强化了产品价值，成为纯电中级细分市场的标杆级车型，彰显比亚迪全面践行“电比油低”、推动新能源车迭代合资燃油车的决心。即日起至3月31日，订购海豹荣耀版的用户可享包括金融补贴、维修保养、车机流量等在内的多重超值好礼。“闭眼买，放心开”，以更低门槛引领高价值出行比亚迪海豹荣耀版延续了海豹车型的优秀产品力：CTB电池车身一体化技术、iTAC智能扭矩控制技术、后驱/

复刻Sora的通用视频生成能力，开源多智能体框架Mora来了

何恺明的目标是：探索面向复杂世界的智能。Sora 是首个引起社会广泛关注的大规模通用视频生成模型。自 OpenAI 在 2024 年 2 月推出以来，没有其他视频生成模型能够在性能或支持广泛视频生成任务的能力上与 Sora 匹敌。此外，完全公开的视频生成模型寥寥无几，大多数都是闭源的。为了弥补这一差距，来自理海大学、微软研究院的研究者提出了一种多智能体框架 Mora，该框架整合了几种先进的视觉 AI 智能体，以复制 Sora 所展示的通用视频生成能力。特别是，Mora 能够利用多个视觉智能体，在各种任务中成功模仿

AnimateDiff-Lightning 来了！让文生视频生成速度提升 8 倍！

大家好，这里是和你们一起探索 AI 的花生~ 之前为大家介绍了字节的 SDXL-Lightning 模型，能在几秒内生成一张 1024*1024px 的图像。最近字节又推出了一款新的文生成视频模型 AnimateDiff-Lightning，也是在几秒钟内生成一段 3s 的视频，比原本的 AnimateDiff 模型快了 6-8 倍，有效提升了 AI 视频生成的效率。今天就为大家介绍一下 AnimateDiff-Lightning 的相关内容。相关推荐：一、AnimateDiff-Lightning 简介项目主

超全整理！8个好用的图像放大神器推荐

欢迎浏览“这个基础不基础”系列，本系列不定期更新~ 给到的图像素材尺寸太小，图像不清晰怎么办？立即发疯？找对接算账！不急，本文会推荐一些好用的方法，帮大家解决工作中的素材问题~ 本期首先介绍 AI 图像放大的一些工具图片，效果展示（分辨率：355x355→1420x1420）一、Upscayl 免费开源的 AI 图像放大工具推荐：☆☆☆ Upscayl 是一个免费且开源的 AI 图像放大工具，支持 Linux、macOS 和 Windows 操作系统，并且遵循 Linux 优先的原则。使用先进的 AI 算法放