资讯列表
爆火Sora背后的技术,一文综述扩散模型的最新发展方向
为了使机器具有人类的想象力,深度生成模型取得了重大进展。这些模型能创造逼真的样本,尤其是扩散模型,在多个领域表现出色。扩散模型解决了其他模型的限制,如 VAEs 的后验分布对齐问题、GANs 的不稳定性、EBMs 的计算量大和 NFs 的网络约束问题。因此,扩散模型在计算机视觉、自然语言处理等方面备受关注。扩散模型由两个过程组成:前向过程和反向过程。前向过程把数据转化为简单的先验分布,而反向过程则逆转这一变化,用训练好的神经网络模拟微分方程来生成数据。与其他模型相比,扩散模型提供了更稳定的训练目标和更好的生成效果。
模型融合、混合专家、更小的LLM,几篇论文看懂2024年LLM发展方向
还有 10 个月,2024 年还有很多期待空间。在过去的 2023 年中,大型语言模型(LLM)在潜力和复杂性方面都获得了飞速的发展。展望 2024 年的开源和研究进展,似乎我们即将进入一个可喜的新阶段:在不增大模型规模的前提下让模型变得更好,甚至让模型变得更小。现在,2024 年的第一个月已经过去,也许是时候盘点一番新年首月进展了。近日,AI 研究者 Sebastian Raschka 发布了一份报告,介绍了四篇与上述新阶段有关的重要论文。它们的研究主题简单总结起来是这样:1. 权重平均和模型融合可将多个 LLM
AI 视频新王者诞生!一文盘点 Sora 模型 14 项功能特点!
大家好,我是花生~
2 月 16 日 OpenAI 发布了一个新的 AI 视频生成模型 Sora,它可以根据文本生成 60s 的高质量视频,完全突破了之前 AI 文生视频存在的各种局限,所以一出现就引起广泛关注和热烈讨论,大家应该对它都有所了解。今天就根据网上已公布的视频,对 Sora 的功能特性进行一个盘点总结,其中包含与 Runway、Pika 等 AI 视频工具的生成效果对比,让大家对 Sora 的能力有一个更直观全面的了解。
相关推荐:一、60s 超长视频
之前优设已经推荐过 AI 视频工具,比如 Runw
超多实战案例!大厂出品的AIGC设计实践手册
一、前言
随着技术的不断迭代,AIGC 能力的可控性得到了进一步提升,可应用的场景也越来越多,在文本、图像、视频等多个领域都有了广泛应用。用户已经可以用自然语言来与 AI 工具进行交互,革新传统办公方式,工作任务可以更具创造性,并且提高了生产效率。
本文将从 AIGC 体系化应用角度聊一聊,设计团队如何利用 AIGC 来优化工作流,提升效率的同时,更多推动 AIGC 能力应用与落地。二、AIGC 对设计的影响
如何更好的利用 AI 工具帮助我们提升设计效率与价值,我们尝试了从产品设计类需求、运营设计类需求、视频/动
阿联酋技术创新研究院启动“Falcon Foundation”,引领生成式人工智能模型开源运动
基金会将推动知识共享,加速人工智能的民主化,TII承诺3亿美元未来项目资金
旨在构建首个通用生物学AI模型,前Google DeepMind科学家联手创建Biooptimus
编辑 | X随着法国初创企业生态系统的持续繁荣,比如 Mistral、Poolside 和 Adaptive。2 月 20 日,总部位于巴黎的 Biooptimus 在获得 3500 万美元的种子轮融资后,从隐身中脱颖而出,其使命是建立第一个用于生物学的通用人工智能基础模型。新的开放科学模型将把不同规模的生物学与生成人工智能连接起来——从分子到细胞、组织和整个生物体。Bioptimus 联合了一个由 Google DeepMind alumni 和 Owkin 科学家组成的团队,其中 AI 生物技术初创公司 Owk
首次大规模多语言评估,支持7种语言,生物医学领域7B开源LLM
编辑 | X大语言模型 (LLM) 已应用于医疗保健和医学等专业领域。尽管有各种为健康环境量身定制的开源 LLM,但将通用 LLM 应用于医学领域仍存在重大挑战。近日,法国阿维尼翁大学(Avignon Université )、南特大学(Nantes Université)和 Zenidoc 的研究团队开发了 BioMistral,一个专为生物医学领域量身定制的开源 LLM,利用 Mistral 作为其基础模型,并在 PubMed Central 上进行了进一步的预训练。研究人员根据由 10 项既定的英语医学问答
想想就能控制鼠标,马斯克披露首位植入Neuralink大脑芯片患者近况
编辑:Sia第一个植入Neuralink芯片的人现在能用思维控制鼠标了。但围绕这一消息的伦理质疑也从未迟到。Neuralink 联合创始人马斯克表示,第一个植入该公司大脑芯片的人现在能用思维控制鼠标。据路透社报道,马斯克周一在 X Spaces 活动中表示:“进展良好,患者似乎已完全康复,没有出现我们所知的不良影响。患者可以通过思维移动屏幕上的鼠标。”马斯克在昨天的聊天中表示,Neuralink 与患者的主要工作是试图使命令更加复杂,以便芯片可用于不同类型的动作控制。“我们试图通过让被试通过思考按下尽可能多的按钮。
Sora为何出自OpenAI?一线员工作息时间线揭秘:我们疯狂地卷
数数每天几个小时?为什么是 OpenAI 率先打造出了 Sora?现在全世界不论研究员、工程师还是投资人都在问这个问题。最近几天,人们对于视频大模型 Sora 的讨论热度持续升高,信息早已破了圈,相关的投资热点都已经出现了两轮。 Sora 生成的「Flower tiger」视频。试问这种生成能力会催生多少新脑洞?在一篇文章中,加州大学伯克利分校计算机科学博士、知乎作者 @SIY.Z 分析了 OpenAI 成功的一些原因,包括:目标和商业模式明确:目标就是
出圈的Sora带火DiT,连登GitHub热榜,已进化出新版本SiT
好的研究不会被埋没,只会历久弥新。虽然已经发布近一周时间,OpenAI 视频生成大模型 Sora 的影响仍在继续!其中,Sora 研发负责人之一 Bill Peebles 与纽约大学助理教授谢赛宁撰写的 DiT(扩散 Transformer)论文《Scalable Diffusion Models with Transformers》被认为是此次 Sora 背后的重要技术基础之一。该论文被 ICCV 2023 接收。论文地址: 地址:,DiT 论文和 GitHub 项目的热度水涨船高,重新收获大量关注。论文出现在
CS领域杨笛一、杜少雷、金驰等7位华人学者获奖,2024斯隆奖出炉
在 2024 年度斯隆奖名单中,计算机科学领域共有 22 位获奖者,其中 7 位华人。今天凌晨,斯隆基金会公布了 2024 年度斯隆研究奖获得者名单。自 1955 年起,斯隆研究奖由美国艾尔弗・斯隆基金会(The Alfred P. Sloan Foundation)每年颁发一次,以表彰那些具有创造性、创新性和研究成就的美国和加拿大的杰出年轻研究人员。斯隆研究奖的获奖者将获得为期两年、价值 7.5 万美元的研究资金,可灵活地用于推动自身的研究。斯隆奖历来被认为是「诺奖风向标」:2007 年以来,该奖项历届获得者中已
20分钟学会装配电路板!开源SERL框架精密操控成功率100%,速度三倍于人类
现在,机器人学会工厂精密操控任务了。近年来,机器人强化学习技术领域取得显著的进展,例如四足行走,抓取,灵巧操控等,但大多数局限于实验室展示阶段。将机器人强化学习技术广泛应用到实际生产环境仍面临众多挑战,这在一定程度上限制了其在真实场景的应用范围。强化学习技术在实际应用的过程中,任需克服包括奖励机制设定、环境重置、样本效率提升及动作安全性保障等多重复杂的问题。业内专家强调,解决强化学习技术实际落地的诸多难题,与算法本身的持续创新同等重要。面对这一挑战,来自加州大学伯克利、斯坦福大学、华盛顿大学以及谷歌的学者们共同开发
6000字干货!全面了解顶尖AI产品 ChatGPT-4
GPT-4 的看点都有哪些呢?逻辑推理,强到可以代替你考律师啦
角色扮演,cosplay 认定角色不轻易被忽悠
多模态,可以看到图片啦
更安全,想要再轻易忽悠它越狱很难了GPT-4 的论文:
搭载了 GPT-4 的 ChatGPT Plus:
申请 GPT-4 的 API:
接下来的内容会详细介绍 GPT-4 的一切。GPT-4 具有更广泛的通识知识和问题解决能力,可以更有效的解决难题
1. 它更有创造力
GPT-4 比以往任何时候都更具创造性和协作性。它可以与用户一起生成、编辑和迭代创意和技术写作任务,例如
如何用AIGC 做好UI设计?实战案例来了!
热爱,是做好一件关键的事情。
“AI 到底会不会取代我们”?这个问题我们留在结尾与大家探讨,现在我就开始学习如何用 AIGC 去做界面、以及怎样指导我们进行优化。
利用“AI”做界面主要会用到四个工具:Chat GPT、Figma(Wireframe Designer 插件)、即时设计(即时 AI)、文心一言(作为无法使用 Chat GPT 同学的备用方案)一、UI 设计的基本原则与 AIGC 的融合
UI 设计更多是创建直观、易用、吸引人的用户界面,而 AIGC 则是指通过人工智能技术生成的文本、图像、音频或视频
几小时前,OpenAI 爆款工具 Sora 被取消了静音模式
机器之能报道编辑:Sia简单文字提示,即可为这些“默片”增添声音效果。当你被 OpenAI Sora 生成的这些视频震撼时,有没有潜意识里总觉得还缺点啥?视频链接:“短视频”是不是差不多?这是 1895 年路易斯·卢米埃尔导演的《火车进站》,固定机位,一镜到底拍摄火车开进站台的场景。视频链接:《工厂大门》的效果是这样的:视频链接:,即使是默片也并非一点声音也没有。放映时,影院里会有乐团(大到一个乐团、小到一位钢琴师)根据剧情演奏音乐,用音乐渲染情绪,推动情节发展。现在,AI 语音克隆初创公司 ElevenLabs
更乱了!已经有真人视频冒充Sora了,威尔·史密斯吃意大利面玩梗
曾经,人们担心 AI 生成的东西过于逼真,会让人信以为真。但现在,真实世界的视频反而被贴上「AI 生成」的标签,带来了另一种混乱。今天,一个有关「威尔・史密斯吃意大利面」的视频正在社交媒体疯传。视频画面分为上下两段:上半段显示是「一年以前的 AI 视频」,下半段则显示「现在的 AI 视频」。众所周知,对于 AI 来说,生成「威尔・史密斯吃意大利面」的视频并不容易,人物的手、面条以及面条入口后的形变对于之前的 AI 来说都是很大的挑战,所以这一问题被很多人戏称为「视频生成界的图灵测试」。Runway、Pika 等著名
10倍英伟达GPU:大模型专用芯片一夜成名,来自谷歌TPU创业团队
能带来完全不同的大模型体验。我们知道,大模型到 GPT-3.5 这种千亿体量以后,训练和推理的算力就不是普通创业公司所能承担的了,人们用起来速度也会很慢。但自本周起,这种观念已成为历史。有名为 Groq 的初创公司开发出一种机器学习处理器,据称在大语言模型任务上彻底击败了 GPU—— 比英伟达的 GPU 快 10 倍,而成本仅为 GPU 的 10%,只需要十分之一的电力。这是在 Groq 上运行 Llama 2 的速度: 来源: Groq(Llama 2)和
在Sora引爆视频生成时,Meta开始用Agent自动剪视频了,华人作者主导
未来,视频剪辑可能也会像视频生成领域一样迎来 AI 自动化操作的大爆发。这几天,AI 视频领域异常地热闹,其中 OpenAI 推出的视频生成大模型 Sora 更是火出了圈。而在视频剪辑领域,AI 尤其是大模型赋能的 Agent 也开始大显身手。随着自然语言被用来处理与视频剪辑相关的任务,用户可以直接传达自己的意图,从而不需要手动操作。但目前来看,大多数视频剪辑工具仍然严重依赖手动操作,并且往往缺乏定制化的上下文帮助。因此,用户只能自己处理复杂的视频剪辑问题。关键在于如何设计一个可以充当协作者、并在剪辑过程中不断协助