资讯列表

Sora为何出自OpenAI?一线员工作息时间线揭秘:我们疯狂地卷

数数每天几个小时?为什么是 OpenAI 率先打造出了 Sora?现在全世界不论研究员、工程师还是投资人都在问这个问题。最近几天,人们对于视频大模型 Sora 的讨论热度持续升高,信息早已破了圈,相关的投资热点都已经出现了两轮。                               Sora 生成的「Flower tiger」视频。试问这种生成能力会催生多少新脑洞?在一篇文章中,加州大学伯克利分校计算机科学博士、知乎作者 @SIY.Z 分析了 OpenAI 成功的一些原因,包括:目标和商业模式明确:目标就是

出圈的Sora带火DiT,连登GitHub热榜,已进化出新版本SiT

好的研究不会被埋没,只会历久弥新。虽然已经发布近一周时间,OpenAI 视频生成大模型 Sora 的影响仍在继续!其中,Sora 研发负责人之一 Bill Peebles 与纽约大学助理教授谢赛宁撰写的 DiT(扩散 Transformer)论文《Scalable Diffusion Models with Transformers》被认为是此次 Sora 背后的重要技术基础之一。该论文被 ICCV 2023 接收。论文地址: 地址:,DiT 论文和 GitHub 项目的热度水涨船高,重新收获大量关注。论文出现在

CS领域杨笛一、杜少雷、金驰等7位华人学者获奖,2024斯隆奖出炉

在 2024 年度斯隆奖名单中,计算机科学领域共有 22 位获奖者,其中 7 位华人。今天凌晨,斯隆基金会公布了 2024 年度斯隆研究奖获得者名单。自 1955 年起,斯隆研究奖由美国艾尔弗・斯隆基金会(The Alfred P. Sloan Foundation)每年颁发一次,以表彰那些具有创造性、创新性和研究成就的美国和加拿大的杰出年轻研究人员。斯隆研究奖的获奖者将获得为期两年、价值 7.5 万美元的研究资金,可灵活地用于推动自身的研究。斯隆奖历来被认为是「诺奖风向标」:2007 年以来,该奖项历届获得者中已

20分钟学会装配电路板!开源SERL框架精密操控成功率100%,速度三倍于人类

现在,机器人学会工厂精密操控任务了。近年来,机器人强化学习技术领域取得显著的进展,例如四足行走,抓取,灵巧操控等,但大多数局限于实验室展示阶段。将机器人强化学习技术广泛应用到实际生产环境仍面临众多挑战,这在一定程度上限制了其在真实场景的应用范围。强化学习技术在实际应用的过程中,任需克服包括奖励机制设定、环境重置、样本效率提升及动作安全性保障等多重复杂的问题。业内专家强调,解决强化学习技术实际落地的诸多难题,与算法本身的持续创新同等重要。面对这一挑战,来自加州大学伯克利、斯坦福大学、华盛顿大学以及谷歌的学者们共同开发

6000字干货!全面了解顶尖AI产品 ChatGPT-4

GPT-4 的看点都有哪些呢?逻辑推理,强到可以代替你考律师啦 角色扮演,cosplay 认定角色不轻易被忽悠 多模态,可以看到图片啦 更安全,想要再轻易忽悠它越狱很难了GPT-4 的论文: 搭载了 GPT-4 的 ChatGPT Plus: 申请 GPT-4 的 API: 接下来的内容会详细介绍 GPT-4 的一切。GPT-4 具有更广泛的通识知识和问题解决能力,可以更有效的解决难题 1. 它更有创造力 GPT-4 比以往任何时候都更具创造性和协作性。它可以与用户一起生成、编辑和迭代创意和技术写作任务,例如

如何用AIGC 做好UI设计?实战案例来了!

热爱,是做好一件关键的事情。 “AI 到底会不会取代我们”?这个问题我们留在结尾与大家探讨,现在我就开始学习如何用 AIGC 去做界面、以及怎样指导我们进行优化。 利用“AI”做界面主要会用到四个工具:Chat GPT、Figma(Wireframe Designer 插件)、即时设计(即时 AI)、文心一言(作为无法使用 Chat GPT 同学的备用方案)一、UI 设计的基本原则与 AIGC 的融合 UI 设计更多是创建直观、易用、吸引人的用户界面,而 AIGC 则是指通过人工智能技术生成的文本、图像、音频或视频

几小时前,OpenAI 爆款工具 Sora 被取消了静音模式

机器之能报道编辑:Sia简单文字提示,即可为这些“默片”增添声音效果。当你被 OpenAI Sora 生成的这些视频震撼时,有没有潜意识里总觉得还缺点啥?视频链接:“短视频”是不是差不多?这是 1895 年路易斯·卢米埃尔导演的《火车进站》,固定机位,一镜到底拍摄火车开进站台的场景。视频链接:《工厂大门》的效果是这样的:视频链接:,即使是默片也并非一点声音也没有。放映时,影院里会有乐团(大到一个乐团、小到一位钢琴师)根据剧情演奏音乐,用音乐渲染情绪,推动情节发展。现在,AI 语音克隆初创公司 ElevenLabs

更乱了!已经有真人视频冒充Sora了,威尔·史密斯吃意大利面玩梗

曾经,人们担心 AI 生成的东西过于逼真,会让人信以为真。但现在,真实世界的视频反而被贴上「AI 生成」的标签,带来了另一种混乱。今天,一个有关「威尔・史密斯吃意大利面」的视频正在社交媒体疯传。视频画面分为上下两段:上半段显示是「一年以前的 AI 视频」,下半段则显示「现在的 AI 视频」。众所周知,对于 AI 来说,生成「威尔・史密斯吃意大利面」的视频并不容易,人物的手、面条以及面条入口后的形变对于之前的 AI 来说都是很大的挑战,所以这一问题被很多人戏称为「视频生成界的图灵测试」。Runway、Pika 等著名

10倍英伟达GPU:大模型专用芯片一夜成名,来自谷歌TPU创业团队

能带来完全不同的大模型体验。我们知道,大模型到 GPT-3.5 这种千亿体量以后,训练和推理的算力就不是普通创业公司所能承担的了,人们用起来速度也会很慢。但自本周起,这种观念已成为历史。有名为 Groq 的初创公司开发出一种机器学习处理器,据称在大语言模型任务上彻底击败了 GPU—— 比英伟达的 GPU 快 10 倍,而成本仅为 GPU 的 10%,只需要十分之一的电力。这是在 Groq 上运行 Llama 2 的速度:                             来源: Groq(Llama 2)和

在Sora引爆视频生成时,Meta开始用Agent自动剪视频了,华人作者主导

未来,视频剪辑可能也会像视频生成领域一样迎来 AI 自动化操作的大爆发。这几天,AI 视频领域异常地热闹,其中 OpenAI 推出的视频生成大模型 Sora 更是火出了圈。而在视频剪辑领域,AI 尤其是大模型赋能的 Agent 也开始大显身手。随着自然语言被用来处理与视频剪辑相关的任务,用户可以直接传达自己的意图,从而不需要手动操作。但目前来看,大多数视频剪辑工具仍然严重依赖手动操作,并且往往缺乏定制化的上下文帮助。因此,用户只能自己处理复杂的视频剪辑问题。关键在于如何设计一个可以充当协作者、并在剪辑过程中不断协助

大型多视角高斯模型LGM:5秒产出高质量3D物体,可试玩

为满足元宇宙中对 3D 创意工具不断增长的需求,三维内容生成(3D AIGC)最近受到相当多的关注。并且,3D 内容创作在质量和速度方面都取得了显著进展。尽管当前的前馈式生成模型可以在几秒钟内生成 3D 对象,但它们的分辨率受到训练期间所需密集计算的限制,进而导致生成低质量的内容。这就产生了一个问题,能否只用 5 秒钟来生成高分辨率高质量的 3D 物体?本文中,来自北京大学、南洋理工大学 S-Lab 和上海人工智能实验室的研究者提出了一个新的框架 LGM,即 Large Gaussian Model,实现了从单视角

GPT-4可能也在用的推测解码是什么?一文综述前世今生和应用情况

推测解码(Speculative Decoding)是谷歌等机构在 2022 年发现的大模型推理加速方法。它可以在不损失生成效果前提下,获得 3 倍以上的加速比。GPT-4 泄密报告也提到 OpenAI 线上模型推理使用了它。针对如此妙的方法,香港理工大学、北京大学、MSRA 以及阿里共同推出了一篇关于推测解码的综述, 帮助读者了解推测解码的前世今生和应用情况,值得一读。众所周知,大型语言模型(LLM)的推理通常需要使用自回归采样,这个推理过程相当缓慢。为了解决这个问题,推测解码(Speculative Decod

如果 LLM Agent 成为了科学家:耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性

最近的大型语言模型(LLMs)进步已经使我们处于革命性的时代,尤其是 LLMs 驱动的智能 Agents 在广泛任务中展现出了通用性和有效性。这些被称为「AI 科学家」的 Agent 已经开始探寻其在生物学和化学等各种领域内进行自主科学发现的潜力。此类 Agents 已经表现出了选择适合任务的工具,规划环境条件,以及实现实验自动化的能力。因此,Agent 可摇身一变成为真实的科学家,能够有效地设计和开展实验。在某些领域如化学设计中,Agent 所展现的能力已经超过了大部分非专业人士。然而,当我们享受着这种自动化 A

超越AF2?Iambic、英伟达、加州理工学院开发多尺度深度生成模型,进行状态特异性蛋白质-配体复合物结构预测

编辑 | 萝卜皮由蛋白质和小分子配体形成的结合复合物无处不在,对生命至关重要。虽然最近科学家在蛋白质结构预测方面取得了进展,但现有算法无法系统地预测结合配体结构及其对蛋白质折叠的调节作用。为了解决这种差异,AI 制药公司 Iambic Therapeutics、英伟达(Nvidia Corporation)以及加州理工学院(California Institute of Technology)的研究人员提出了 NeuralPLexer,这是一种计算方法,可以仅使用蛋白质序列和配体分子图输入直接预测蛋白质-配体复合物

降维式打击!像素级拆解文生视频大模型Sora

Openai 发布了它的文生视频大模型 Sora。 终于 Openai 也加入了 AI 视频的战争,在此之前 Runway 和一众 AI 视频公司已经奋战了一年多,SD 最近也发布了他们产品化的 AI 视频工具,midjourney 也是即将要发布文生视频功能。 但是这次 Openai 的 Sora 基本上对于之前的文生视频模型都是碾压级的,全球的 AI 视频公司都要睡不着了。 官网: Sora 并没有公开对大家开放测试入口,只发布了一个官方给大家展示效果。 其中的关键信息是:最长生成 60s 视频,视频镜头一致

Prompt 灵感!8 组高质量元宵节 Midjourney 提示词!

大家好我是花生~ 再过几天就是正月十五元宵节了,整理了 7 组元宵节主题的 Midjourney 提示词, 希望对大家做设计有帮助~ 相关推荐:一、3D 人物素材 A cute chinese girl, Wearing traditional Chinese clothes. She is holding a bowl of white smooth tangyuan happily. 3D Pixar style, Blender, Pure Chinese red background --ar 2:3 --

专访GAIR研究院院长朱晓蕊:以Web3技术为引擎,推动「去中心化科学期刊」的新时代

作为一名创投背景的学术带头人,朱晓蕊刚刚迎来她的47岁人生。 从学术成就看,1977年出生的朱晓蕊,先后在1998年和2000年取得哈尔滨工业大学学士和硕士学位,2006年,她在美国犹他大学获得博士学位,具有机电一体化和机械工程多重背景;学成归来后,朱晓蕊进入哈尔滨工业大学(深圳)任教,2011年被破格评为博士生导师,2014年被评为正教授。 在她担任哈工大教授的14年中,作为项目负责人主持了不少国家级项目,总经费超过千万,并多次参与组织了机器人领域的全球顶级学术会议,曾被IEEE评价为“机器人领域的杰出女性”。

揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿

至此已成艺术的 Sora,是从哪条技术路线发展出来的?最近几天,据说全世界的风投机构开会都在大谈 Sora。自去年初 ChatGPT 引发全科技领域军备竞赛之后,已经没有人愿意在新的 AI 生成视频赛道上落后了。在这个问题上,人们早有预判,但也始料未及:AI 生成视频,是继文本生成、图像生成以后技术持续发展的方向,此前也有不少科技公司抢跑推出自己的视频生成技术。不过当 OpenAI 出手发布 Sora 之后,我们却立即有了「发现新世界」的感觉 —— 效果和之前的技术相比高出了几个档次。