Sora

大一统视频编辑框架：浙大&微软推出UniEdit，无须训练、支持多种编辑场景

随着 Sora 的爆火，人们看到了 AI 视频生成的巨大潜力，对这一领域的关注度也越来越高。除了视频生成，在现实生活中，如何对视频进行编辑同样是一个重要的问题，且应用场景更为广泛。以往的视频编辑方法往往局限于「外观」层面的编辑，例如对视频进行「风格迁移」或者替换视频中的物体，但关于更改视频中对象的「动作」的尝试还很少。 UniEdit 视频编辑结果（动作编辑、风格迁移、背景替换、刚性 / 非刚性物体替换）本文中，来自浙江大学、微软亚洲研究院、和北京大学的研究者提出

3/4/2024 11:43:00 AM

机器之心

微软37页论文逆向工程Sora，得到了哪些结论？

一篇论文回顾 Sora 文生视频技术的背景、技术和应用。追赶 Sora，成为了很多科技公司当下阶段的新目标。研究者们好奇的是：Sora 是如何被 OpenAI 发掘出来的？未来又有哪些演进和应用方向？Sora 的技术报告披露了一些技术细节，但远远不足以窥其全貌。在最近的一篇文章中，微软研究院和理海大学的研究者根据已发表的技术报告和逆向工程，首次全面回顾了 Sora 的背景、相关技术、新兴应用、当前局限和未来机遇。论文标题：Sora: A Review on Background, Technology, Limit

3/1/2024 3:17:00 PM

机器之心

想训练类Sora模型吗？尤洋团队OpenDiT实现80%加速

作为 2024 开年王炸，Sora 的出现树立了一个全新的追赶目标，每个文生视频的研究者都想在最短的时间内复现 Sora 的效果。根据 OpenAI 披露的技术报告，Sora 的核心技术点之一是将视觉数据转化为 patch 的统一表征形式，并通过 Transformer 和扩散模型结合，展现了卓越的扩展（scale）特性。在报告公布后，Sora 核心研发成员 William Peebles 和纽约大学计算机科学助理教授谢赛宁合著的论文《Scalable Diffusion Models with Transform

2/29/2024 3:06:00 PM

机器之心

重磅发布！Stable Video 零基础使用教程及应用案例

前言上周 Stable Video 开放公测，可以生成 4s 视频，我第一时间体验了一波。相比 Sora 可生成 60s 多角度多机位多角色的视频，Stable Video 效果没有那么惊艳。但是相比市面上主流的 AI 视频 Runway、pika 等还是有一定优势的，下文中我也会进行效果对比。目前 Stable Video 对所有用户都可以免费开发，每天可领 150 积分，图生视频每使用一次消耗 10 积分，文生视频消耗 11 积分，还可以付费升级。接下来让我们一起来试一试吧。关于 Sora：一、初步体

2/28/2024 7:39:34 AM

yaoyao

从 Sora 的发展史，聊聊设计师如何面对 AI 焦虑

经过春节小休整，很多朋友都鼓起信心重新出发，因为吉祥话听多了还是会受用，没想到返岗途中还没来得及跟大家道句开工大吉，资讯话题就被Sora的发布信息填满。关于这款神器的详细介绍：Sora的发布让人感叹科幻电影都不敢这样拍，而且很多权威平台都认为奥特曼的大招还没亮出来，几句话做60秒视频只是前戏，先吊吊大家胃口，为他后面融资铺垫。此图最近已经符号化了 Sora这个名字据说来自日文中的“空”（そら sora），象征“无限创造力”，众所周知，空也是佛家用语，以我的无知只能找来《道德经》的“无”来应战，无中生有，有生于无，

2/27/2024 12:40:44 AM

设计史太浓

Sora 面世，视频生成的 GPT-3 时刻来了

2月16日凌晨，正值中国春节法定节假日期间，OpenAI 毫无预兆地发布了 AI 视频生成大模型 Sora。看过视频效果后，网友纷纷感叹「现实，不存在了。」不夸张地说，Sora 的技术结果直接碾压了过去世界范围内所有文生视频的探索结果，颠覆了 AI 短视频生成的现状。

2/26/2024 7:05:00 PM

林军

国内公司有望做出Sora吗？这支清华系大模型团队给出了希望

在 Sora 代表的视频生成路线上，国内公司其实已有一定的技术储备。2023 年年底，很多人都预测，未来一年将是视频生成快速发展的一年。但出人意料的是，农历春节刚过，OpenAI 就扔出了一个重磅炸弹 —— 能生成 1 分钟流畅、逼真视频的 Sora。它的出现让很多研究者担心：国内外 AI 技术的差距是不是又拉大了？ Sora 生成的新视频根据 OpenAI 披露的技术报告，Sora 的核心技术点之一是将视觉数据转化为 patch 的统一表示形式，并通过 Tr

2/26/2024 6:51:00 PM

机器之心

LeCun怒斥Sora是世界模型，自回归LLM太简化了

LeCun 对「世界模型」给出了最新定义。最近几天，Sora 成为了全世界关注的焦点。与之相关的一切，都被放大到极致。Sora 如此出圈，不仅在于它能输出高质量的视频，更在于 OpenAI 将其定义为一个「世界模拟器」（world simulators）。英伟达高级研究科学家 Jim Fan 甚至断言：「Sora 是一个数据驱动的物理引擎」，「是一个可学习的模拟器，或『世界模型』」。「Sora 是世界模型」这种观点，让一直将「世界模型」作为研究重心的图灵奖得主 Yann LeCun 有些坐不住了。在 LeCun 看

2/26/2024 6:27:00 PM

机器之心

7000字干货！Sora 提示词秘籍和竞品效果对比

2024 年 2 月 16 日凌晨，OpenAI 正式发布了文本到视频生成模型 Sora，直接生成 60s 视频，多角色多镜头切换的视频，还上了央视新闻。目前 Sora 并未开放，只向少数导演艺术家开放邀请码。至此，好莱坞的时代结束了，人人可以做视频电影的时代到来啦！今天我们就 Sora 生成视频来拆解提示词秘籍公式，竞品视频生成效果对比，解析 Sora 优势劣势和 Sora 模型原理。一、AIGC 视频模型效果对比首先让我们看看，目前主流的 AI 视频工具 Runway、Pika、Stable Video

2/26/2024 7:38:08 AM

yaoyao

幼儿园学历都能看懂！ Sora 技术原理科普

本文来源于公众号赛博禅心，作者金色传说大聪明写在前面本文的阅读门槛很高，需要至少幼儿园毕业本文讲述 Sora 的 Spacetime Patches 技术，此处意义为时空碎片图片主要来自《哆啦 A 梦：二次元口袋照相机》 OpenAI 好棒，哆啦 A 梦好棒，我好棒！大雄慵懒地躺在房间的地毯上，眼神迷离地看着天花板上的光斑。他翻来覆去地玩着手中的老旧玩具小兵，回想着上个暑假和小伙伴们的那场刺激的野营冒险。大雄：“哆啦 A 梦，那次野营真的很好玩，但我现在只能记得一点点。要是能有办法随时重温那种感觉就好了。”

2/26/2024 1:29:58 AM

国内高校打造类Sora模型VDT，通用视频扩散Transformer被ICLR 2024接收

2 月 16 日，OpenAI Sora 的发布无疑标志着视频生成领域的一次重大突破。Sora 基于 Diffusion Transformer 架构，和市面上大部分主流方法（由 2D Stable Diffusion 扩展）并不相同。为什么 Sora 坚持使用 Diffusion Transformer，其中的原因从同时期发表在 ICLR 2024（VDT: General-purpose Video Diffusion Transformers via Mask Modeling）的论文可以窥见一二。这项工作由

2/25/2024 7:36:00 PM

机器之心

OpenAI工程师必备经典《苦涩的教训》，原来20多年前就有了原型

大量数据学习涌现出来的能力，终于超越了人们的想象。OpenAI 推出视频生成模型 Sora 已经一周的时间了，热度不减，作者团队还在持续放出让人眼前一亮的视频。比如「一群爱冒险的小狗探索天空废墟的电影预告片」，Sora 一次生成并自己完成剪辑。当然，一个个生动、逼真的 AI 视频让人们好奇为什么是 OpenAI 率先打造出了 Sora 并能够跑通所有 AGI 技术栈呢？这一问题在社交媒体上引发了热烈的讨论。其中，在一篇知乎文章中，加州大学伯克利分校计算机科学博士、作者 @SIY.Z 分析了 OpenAI 成功的一些

2/23/2024 11:06:00 AM

机器之心

Sora全球爆火，对设计师来说是机会还是挑战？

想必最近大家在网上都看到了有关 Sora 的信息，这是 OpenAI 在春节期间发布的一项令人难以置信的新技术，在人工智能领域，这可以说是颠覆性的突破和创新。简单来说，它是一个视频生成器，你给它一段文字，它就能帮你创造出你想要的视频作品！我们先来看一个 Sora 生成的视频。这个视频的咒语（Prompt）：一位时尚的女士穿着黑色皮夹克、长红裙和黑色靴子，手拿黑色手袋，在东京一条灯光温暖、霓虹灯闪烁、带有动感城市标志的街道上自信而随意地行走。她戴着太阳镜，涂着红色口红。街道潮湿而有反光效果，色彩缤纷的灯光仿佛在地面

2/23/2024 6:56:02 AM

团队58UXD

AI 视频新王者诞生！一文盘点 Sora 模型 14 项功能特点！

大家好，我是花生~ 2 月 16 日 OpenAI 发布了一个新的 AI 视频生成模型 Sora，它可以根据文本生成 60s 的高质量视频，完全突破了之前 AI 文生视频存在的各种局限，所以一出现就引起广泛关注和热烈讨论，大家应该对它都有所了解。今天就根据网上已公布的视频，对 Sora 的功能特性进行一个盘点总结，其中包含与 Runway、Pika 等 AI 视频工具的生成效果对比，让大家对 Sora 的能力有一个更直观全面的了解。相关推荐：一、60s 超长视频之前优设已经推荐过 AI 视频工具，比如 Runw

2/22/2024 8:51:19 AM

夏花生

Sora为何出自OpenAI？一线员工作息时间线揭秘：我们疯狂地卷

数数每天几个小时？为什么是 OpenAI 率先打造出了 Sora？现在全世界不论研究员、工程师还是投资人都在问这个问题。最近几天，人们对于视频大模型 Sora 的讨论热度持续升高，信息早已破了圈，相关的投资热点都已经出现了两轮。 Sora 生成的「Flower tiger」视频。试问这种生成能力会催生多少新脑洞？在一篇文章中，加州大学伯克利分校计算机科学博士、知乎作者 @SIY.Z 分析了 OpenAI 成功的一些原因，包括：目标和商业模式明确：目标就是

2/21/2024 3:00:00 PM

机器之心

出圈的Sora带火DiT，连登GitHub热榜，已进化出新版本SiT

好的研究不会被埋没，只会历久弥新。虽然已经发布近一周时间，OpenAI 视频生成大模型 Sora 的影响仍在继续！其中，Sora 研发负责人之一 Bill Peebles 与纽约大学助理教授谢赛宁撰写的 DiT（扩散 Transformer）论文《Scalable Diffusion Models with Transformers》被认为是此次 Sora 背后的重要技术基础之一。该论文被 ICCV 2023 接收。论文地址：地址：，DiT 论文和 GitHub 项目的热度水涨船高，重新收获大量关注。论文出现在

2/21/2024 2:54:00 PM

机器之心

几小时前，OpenAI 爆款工具 Sora 被取消了静音模式

机器之能报道编辑：Sia简单文字提示，即可为这些“默片”增添声音效果。当你被 OpenAI Sora 生成的这些视频震撼时，有没有潜意识里总觉得还缺点啥？视频链接：“短视频”是不是差不多？这是 1895 年路易斯·卢米埃尔导演的《火车进站》，固定机位，一镜到底拍摄火车开进站台的场景。视频链接：《工厂大门》的效果是这样的：视频链接：，即使是默片也并非一点声音也没有。放映时，影院里会有乐团（大到一个乐团、小到一位钢琴师）根据剧情演奏音乐，用音乐渲染情绪，推动情节发展。现在，AI 语音克隆初创公司 ElevenLabs

2/20/2024 4:05:00 PM

机器之能

更乱了！已经有真人视频冒充Sora了，威尔·史密斯吃意大利面玩梗

曾经，人们担心 AI 生成的东西过于逼真，会让人信以为真。但现在，真实世界的视频反而被贴上「AI 生成」的标签，带来了另一种混乱。今天，一个有关「威尔・史密斯吃意大利面」的视频正在社交媒体疯传。视频画面分为上下两段：上半段显示是「一年以前的 AI 视频」，下半段则显示「现在的 AI 视频」。众所周知，对于 AI 来说，生成「威尔・史密斯吃意大利面」的视频并不容易，人物的手、面条以及面条入口后的形变对于之前的 AI 来说都是很大的挑战，所以这一问题被很多人戏称为「视频生成界的图灵测试」。Runway、Pika 等著名

2/20/2024 3:13:00 PM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源）

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度人形机器人苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉大型语言模型训练