AI资讯列表 - AI在线

吃了几个原作者才能生成这么逼真的效果？文生图涉嫌视觉「抄袭」

虽然提示词只是要生成「动画版的玩具」，但结果和《玩具总动员》没有区别。不久之前，《纽约时报》指控 OpenAI 涉嫌违规使用其内容用于人工智能开发的事件引起了社区极大的关注与讨论。GPT-4 输出的许多回答中，几乎逐字逐句地抄袭了《纽约时报》的报道：图中红字是 GPT-4 与《纽约时报》报道重复的部分。对此，各个专家分别有不同的看法。机器学习领域权威学者吴恩达对 OpenAI 和微软表示了同情，他怀疑 GPT「存在抄袭」的原因并不只是模型训练集使用了未经授权的文章，而是来自类似于 RAG（检索增强生成）的机制。Ch

AI解读视频张口就来？这种「幻觉」难题Vista-LLaMA给解决了

Vista-LLaMA 在处理长视频内容方面的显著优势，为视频分析领域带来了新的解决框架。近年来，大型语言模型如 GPT、GLM 和 LLaMA 等在自然语言处理领域取得了显著进展，基于深度学习技术能够理解和生成复杂的文本内容。然而，将这些能力扩展到视频内容理解领域则是一个全新的挑战 —— 视频不仅包含丰富多变的视觉信息，还涉及时间序列的动态变化，这使得大语言模型从视频中提取信息变得更为复杂。面对这一挑战，字节跳动联合浙江大学提出了能够输出可靠视频描述的多模态大语言模型 Vista-LLaMA。Vista-LLaM

告别逐一标注，一个提示实现批量图片分割，高效又准确

仅需一个任务描述，即可一键分割所有图片！Segment Anything Model (SAM) 的提出在图像分割领域引起了巨大的关注，其卓越的泛化性能引发了广泛的兴趣。然而，尽管如此，SAM 仍然面临一个无法回避的问题：为了使 SAM 能够准确地分割出目标物体的位置，每张图片都需要手动提供一个独特的视觉提示。如下图所示，即使点击的是同一物体（图 (b)-(d)），微小位置变化都会导致分割结果的显著差异。这是因为视觉提示缺乏语义信息，即使提示在想要分割的目标物体上，仍然可能引发歧义。框提示和涂鸦提示（图 (e)(f

顺着网线爬过来成真了，Audio2Photoreal通过对话就能生成逼真表情与动作

多模态的发展已经开始超乎我们的想象了。当你和朋友隔着冷冰冰的手机屏幕聊天时，你得猜猜对方的语气。当 Ta 发语音时，你的脑海中还能浮现出 Ta 的表情甚至动作。如果能视频通话显然是最好的，但在实际情况下并不能随时拨打视频。如果你正在与一个远程朋友聊天，不是通过冰冷的屏幕文字，也不是缺乏表情的虚拟形象，而是一个逼真、动态、充满表情的数字化虚拟人。这个虚拟人不仅能够完美地复现你朋友的微笑、眼神，甚至是细微的肢体动作。你会不会感到更加的亲切和温暖呢？真是体现了那一句「我会顺着网线爬过来找你的」。这不是科幻想象，而是在实际

OpenAI也在996？一位离职员工自白：代码贡献第四，经常工作6天

从这位离职员工的经历来看，OpenAI 似乎比「996」还要严重一点。AI 圈的人大概都知道，OpenAI 是其中的佼佼者，技术牛、薪酬高，但很大可能工作量也大。今天，推特上一位 OpenAI 员工的离职自白获得了非常高的关注和浏览量，一定程度上让我们看到了在 OpenAI 工作的状态。来源 Lenny Bogdonoff，他在 2022 年 6 月加入 OpenAI，主要从事 AI 产品及体验相关的工作。他在自白中描述了自己的工作内容、工作时长以及对 OpenAI 的贡献。20 个月前，我离开了参与创立的公司

Midjourney文本渲染新升级，与DALL·E 3大比拼，看看谁更强

文字渲染哪家强，今天你来做裁判。如果文生图中也有「敬业」代表，那 Midjourney 绝对能够提名。从发布开始，每次更新都给我们不一样的惊艳。这不，Midjourney 现在升级到了 v6 alpha 版本，生成品质有了进一步的提升。画面美观性、连贯性、与 prompt 的一致性、图像质量以及文本渲染都有着很大的进步。此外，在风格化上 Midjourney 也有了更好的表现，图像放大修复的速度也快了两倍。有网友闻风而来，被 Midjourney 本次更新的文字渲染的能力所吸引，Midjourney 也就此回应，即

专为数据库打造：DB-GPT用私有化LLM技术定义数据库下一代交互方式

DB-GPT 简化了这些基于大型语言模型 (LLM) 和数据库的应用程序的创建。2023 年 6 月，蚂蚁集团发起了数据库领域的大模型框架 DB-GPT。DB-GPT 通过融合先进的大模型和数据库技术，能够系统化打造企业级智能知识库、自动生成商业智能（BI）报告分析系统（GBI），以及处理日常数据和报表生成等多元化应用场景。DB-GPT 开源项目发起人陈发强表示，“凭借大模型和数据库的有机结合，企业及开发者可以用更精简的代码来打造定制化的应用。我们期望 DB-GPT 能够构建大模型领域的基础设施，让围绕数据库构建大

模型A：幸亏有你，我才不得0分，模型B：俺也一样

现在大模型都学会借力了。琳琅满目的乐高积木，通过一块又一块的叠加，可以创造出各种栩栩如生的人物、景观等，不同的乐高作品相互组合，又能为爱好者带来新的创意。我们把思路打开一点，在大模型（LLM）爆发的当下，我们能不能像拼积木一样，把不同的模型搭建起来，而不会影响原来模型的功能，还能起到 1 12 的效果。这样的想法，谷歌已经实现了。他们的研究为未来的语言模型发展提供了一个新的方向，特别是在资源节约和模型适应性方面。如今的大语言模型（LLM）仿佛一个全能战士，能进行常识和事实推理、懂得世界知识、生成连贯的文本…… 在这

看见这张图没有，你就照着画：谷歌图像生成AI掌握多模态指令

用图 2 的风格画图 1 的猫猫并给它戴上一顶帽子。谷歌新设计的一种图像生成模型已经能做到这一点了！通过引入指令微调技术，多模态大模型可以根据文本指令描述的目标和多张参考图像准确生成新图像，效果堪比 PS 大神抓着你的手助你 P 图。在使用大型语言模型（LLM）时，我们都已经见证过了指令微调的重要性。如果应用得当，通过指令微调，我们能让 LLM 帮助我们完成各种不同的任务，让其变成诗人、程序员、剧作家、科研助理甚至投资经理。现在，大模型已经进入了多模态时代，指令微调是否依然有效呢？比如我们能否通过多模态指令微调控制

语言模型是如何感知时间的？「时间向量」了解一下

语言模型究竟是如何感知时间的？如何利用语言模型对时间的感知来更好地控制输出甚至了解我们的大脑？最近，来自华盛顿大学和艾伦人工智能研究所的一项研究提供了一些见解。他们的实验结果表明，时间变化在一定程度上被编码在微调模型的权重空间中，并且权重插值可以帮助自定义语言模型以适应新的时间段。具体来说，这篇论文提出了时间向量（time vectors）的概念，这是一种让语言模型适应新时间段的简单方法。论文发布后立即引起了一些研究者的注意。新加坡海事智能公司 Greywing 联合创始人、CTO Hrishi Olickel 称

专补大模型短板的RAG有哪些新进展？这篇综述讲明白了

同济大学王昊奋研究员团队联合复旦大学熊赟教授团队发布检索增强生成（RAG）综述，从核心范式，关键技术到未来发展趋势对 RAG 进行了全面梳理。这份工作为研究人员绘制了一幅清晰的 RAG 技术发展蓝图，指出了未来的研究探索方向。同时，为开发者提供了参考，帮助辨识不同技术的优缺点，并指导如何在多样化的应用场景中最有效地利用这些技术。大型语言模型（LLMs）已经成为我们生活和工作的一部分，它们以惊人的多功能性和智能化改变了我们与信息的互动方式。然而，尽管它们的能力令人印象深刻，但它们并非无懈可击。这些模型可能会产生误导性

无需文本标注，TF-T2V把AI量产视频的成本打下来了！华科阿里等联合打造

在过去短短两年内，随着诸如 LAION-5B 等大规模图文数据集的开放，Stable Diffusion、DALL-E 2、ControlNet、Composer ，效果惊人的图片生成方法层出不穷。图片生成领域可谓狂飙突进。然而，与图片生成相比，视频生成仍存在巨大挑战。首先，视频生成需要处理更高维度的数据，考虑额外时间维度带来的时序建模问题，因此需要更多的视频 - 文本对数据来驱动时序动态的学习。然而，对视频进行准确的时序标注非常昂贵。这限制了视频 - 文本数据集的规模，如现有 WebVid10M 视频数据集包含

文生视频“黑马”Morph Studio来袭：好用、1080P 、7秒时长还免费

“发光的水母从海洋中慢慢升起，”在 Morph Studio 中继续输入想看到的景象，“在夜空中变成闪闪发光的星座”。几分钟后，Morph Studio 生成一个短视频。一只水母通体透明，闪闪发光，一边旋转着一边上升，摇曳的身姿与夜空繁星相映成趣luminescent jellyfish ascend from a mystical ocean, transforming into sparkling constellations in the night sky输入“ joker cinematic ”，曾经

AI大模型首次牵手国民级综艺，昆仑万维天工AI联合《最强大脑》加速大模型落地

1月5日周五晚21:20，由昆仑万维「天工APP」特约赞助的《最强大脑》第11季正式播出。这是AI大模型技术与国民级综艺IP的首度深度合作，在节目中，「天工APP」将发挥其能搜、能聊、能写的多项超级AI大模型能力，与嘉宾选手深度互动，参与趣味脑力竞技环节，从而进一步推动大模型技术的普适应用，降低技术门槛，让越来越多的用户能够轻松、便捷地拥抱大模型。作为一档国内影响力最广、最具代表性的国民级的大型科学竞技综艺节目，《最强大脑》在过去十年间已成功举办了10期，在372个挑战项目中，近600位中外选手齐聚舞台，参与脑力竞

斯坦福开源的机器人厨子，今天又接手了所有家务

机器人忙碌的一天。这年头，机器人真的要成精了，带回家后是个做家务的小能手。烹饪几道美食手到拈来，一会儿功夫速成大餐：滑蛋虾仁、蚝油生菜、干贝烧鸡，不知道的还以为是真人厨师做成的：备菜环节也是做的有模有样，只见它熟练的拿出一颗生菜切掉根部，然后轻轻的敲打鸡蛋放入碗中：打蛋环节还知道要把蛋壳丢到一边，看样子是个讲究的机器人，再也不怕吃煎蛋时意外吃到蛋壳的惊吓了：煎炒环节机器人进行不停地翻炒，以免糊锅：还不忘给蚝油生菜注入灵魂蒜末。这次咱不用菜刀拍蒜，普通的水果刀也能切出蒜泥来，可见刀功了得：最后将做好的酱汁淋到生菜上，

国内视频生成爆发前夕，我们组织了一场核心玩家都参与的分享交流会

近几个月来，视频生成领域陆续发布了新技术、新模型和新工具，AI 生成的视频效果也得到了肉眼可见的提升和颠覆。很多人认为，人工智能领域接下来公认的主战场，毋庸置疑是视频生成技术。图 1：2023 年 AI 视频工具概览图片来源： Pika 1.0 全面开放、Runway 发布的 Gen-2 开始商业化探索、Meta、Moonvalley 和 Stability AI 等公司陆续发布了 AI 视频工具等，视频生成在整个 AI 领域掀起了讨论热潮。与此同时，当我们把视线聚焦在国内的 AI 视频生成领域上，同样也看到了

当LLM学会左右互搏，基础模型或将迎来集体进化

金庸武侠小说中有一门武学绝技：左右互搏；乃是周伯通在桃花岛的地洞里苦练十余年所创武功，初期想法在于左手与右手打架，以自娱自乐。而这种想法不仅能用来练武功，也能用来训练机器学习模型，比如前些年风靡一时的生成对抗网络（GAN）。进入现今的大模型 (LLM) 时代，又有研究者发现了左右互搏的精妙用法！近日，加利福尼亚大学洛杉矶分校的顾全全团队提出了一种新方法 SPIN（Self-Play Fine-Tuning），可不使用额外微调数据，仅靠自我博弈就能大幅提升 LLM 的能力。顾全全教授表示：「授之以鱼不如授之以渔：通过

大模型正在重构机器人，谷歌Deepmind这样定义具身智能的未来

过去一年中，连连取得突破的大模型正在重塑机器人研究领域。在最先进的大模型成为具身机器人感知世界的「大脑」之后，机器人的进化速度取得了远超想象的进步。7 月，谷歌 DeepMind 宣布推出 RT-2：全球第一个控制机器人的视觉 - 语言 - 动作（VLA）模型。只需要向对话一样下达命令，它就能在一堆图片中辨认出霉霉，送给她一罐「快乐水」。甚至能主动思考，完成了从「选择灭绝的动物」到抓取桌子上的塑料恐龙这种多阶段推理的飞跃。在 RT-2 之后，谷歌 DeepMind 又提出了 Q-Transformer，机器人界也有