应用
降维式打击!像素级拆解文生视频大模型Sora
Openai 发布了它的文生视频大模型 Sora。
终于 Openai 也加入了 AI 视频的战争,在此之前 Runway 和一众 AI 视频公司已经奋战了一年多,SD 最近也发布了他们产品化的 AI 视频工具,midjourney 也是即将要发布文生视频功能。
但是这次 Openai 的 Sora 基本上对于之前的文生视频模型都是碾压级的,全球的 AI 视频公司都要睡不着了。
官网:
Sora 并没有公开对大家开放测试入口,只发布了一个官方给大家展示效果。
其中的关键信息是:最长生成 60s 视频,视频镜头一致
Prompt 灵感!8 组高质量元宵节 Midjourney 提示词!
大家好我是花生~
再过几天就是正月十五元宵节了,整理了 7 组元宵节主题的 Midjourney 提示词, 希望对大家做设计有帮助~
相关推荐:一、3D 人物素材
A cute chinese girl, Wearing traditional Chinese clothes. She is holding a bowl of white smooth tangyuan happily. 3D Pixar style, Blender, Pure Chinese red background --ar 2:3 --
专访GAIR研究院院长朱晓蕊:以Web3技术为引擎,推动「去中心化科学期刊」的新时代
作为一名创投背景的学术带头人,朱晓蕊刚刚迎来她的47岁人生。 从学术成就看,1977年出生的朱晓蕊,先后在1998年和2000年取得哈尔滨工业大学学士和硕士学位,2006年,她在美国犹他大学获得博士学位,具有机电一体化和机械工程多重背景;学成归来后,朱晓蕊进入哈尔滨工业大学(深圳)任教,2011年被破格评为博士生导师,2014年被评为正教授。 在她担任哈工大教授的14年中,作为项目负责人主持了不少国家级项目,总经费超过千万,并多次参与组织了机器人领域的全球顶级学术会议,曾被IEEE评价为“机器人领域的杰出女性”。
揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿
至此已成艺术的 Sora,是从哪条技术路线发展出来的?最近几天,据说全世界的风投机构开会都在大谈 Sora。自去年初 ChatGPT 引发全科技领域军备竞赛之后,已经没有人愿意在新的 AI 生成视频赛道上落后了。在这个问题上,人们早有预判,但也始料未及:AI 生成视频,是继文本生成、图像生成以后技术持续发展的方向,此前也有不少科技公司抢跑推出自己的视频生成技术。不过当 OpenAI 出手发布 Sora 之后,我们却立即有了「发现新世界」的感觉 —— 效果和之前的技术相比高出了几个档次。
Sora到底懂不懂物理世界?一场头脑风暴正在AI圈大佬间展开
Sora 到底是不是物理引擎甚至世界模型?图灵奖得主 Yann LeCun、Keras 之父 Francois Chollet 等人正在深入探讨。最近几天,OpenAI 发布的视频生成模型 Sora 成了全世界关注的焦点。和以往只能生成几秒钟视频的模型不同,Sora 把生成视频的长度一下子拉长到 60 秒。而且,它不仅能了解用户在 Prompt 中提出的要求,还能 get 到人、物在物理世界中的存在方式。以经典的「海盗船在咖啡杯中缠斗」为例。为了让生成效果看起来逼真,Sora 需要克服以下几个物理难点: 规模和比
100万token,一次能分析1小时YouTube视频,「大世界模型」火了
这项研究为语言模型更好地理解物理世界铺平了道路。最近几天,我们接连被谷歌的多模态模型 Gemini 1.5 以及 OpenAI 的视频生成模型 Sora 所震撼到,前者可以处理的上下文窗口达百万级别,而后者生成的视频能够理解运动中的物理世界,被很多人称为「世界模型」。然而,这些刷屏无数的模型真的能很好的理解世界吗?我们就拿 Sora 来说,该模型在给大家带来惊叹的同时,却不能很好的模拟复杂场景的物理原理,如一位健身的男子倒着跑跑步机。不仅 Sora,现如今大模型虽然发展迅速,然而其自身也存在缺点,比如在现实世界中不
Windows、Office直接上手,大模型智能体操作电脑太6了
当我们谈到 AI 助手的未来,很难不想起《钢铁侠》系列中那个令人炫目的 AI 助手贾维斯。贾维斯不仅是托尼・斯塔克的得力助手,更是他与先进科技的沟通者。如今,大模型的出现颠覆了人类使用工具的方式,我们或许离这样的科幻场景又近了一步。想象一下,如果一个多模态 Agent,能够直接像人类一样通过键盘和鼠标直接操控我们身边的电脑,这将是多么令人振奋的突破。 AI助手贾维斯近期,吉林大学人工智能学院发布了一项利用视觉大语言模型直接控制电脑 GUI 的最新研究《S
让视觉语言模型搞空间推理,谷歌又整新活了
视觉语言模型虽然强大,但缺乏空间推理能力,最近 Google 的新论文说它的 SpatialVLM 可以做,看看他们是怎么做的。视觉语言模型 (VLM) 已经在广泛的任务上取得了显著进展,包括图像描述、视觉问答 (VQA)、具身规划、动作识别等等。然而大多数视觉语言模型在空间推理方面仍然存在一些困难,比如需要理解目标在三维空间中的位置或空间关系的任务。关于这一问题,研究者们常常从「人类」身上获得启发:通过具身体验和进化发展,人类拥有固有的空间推理技能,可以毫不费力地确定空间关系,比如目标相对位置或估算距离和大小,而
Sam Altman7万亿美元芯片计划被怼,“硅仙人”:我只用不到1万亿
机器之能报道编辑:Sia不是每个业内人士都买这笔疯狂数字的账。Sam Altman 最近登上了头条新闻,背后的原因有些夸张。这位从未设计过一个芯片的聪明人认为半导体行业需要他,正在推动一个旨在提高全球芯片制造能力的项目。为此,他需要筹集 5 万亿至 7 万亿美元,并正与包括阿联酋政府在内的不同投资者进行谈判。OpenAI 发言人表示,“ OpenAI 就增加芯片、能源和数据中心的全球基础设施和供应链进行了富有成效的讨论,这对于人工智能和相关行业至关重要。鉴于国家优先事项的重要性,我们将继续向美国政府通报情况,并期待
OpenAI允许员工出售股份,交易后估值超800亿,Altman在线招人
今日,《纽约时报》援引三位知情人士消息,OpenAI 已经完成一项允许员工出售公司股份的交易。这家旧金山 AI 公司估值也因此水涨船高至 800 亿美元或更高(彭博社报道的估值是 860 亿美元)。去年 4 月,OpenAI 曾以近 300 亿美元的估值完成了首轮股票出售。当时,风险投资公司 Thrive Capital、红杉资本、Andreessen Horowitz 和 K2 Global 同意收购 OpenAI 的股票,对该公司的估值约为 290 亿美元。如今不到 10 个月的时间里,OpenAI 估值几乎翻
第二波!2024年2月精选实用设计工具合集
大家好,这是 2024 年 2 月的第 2 波干货合集!这一期干货合集包含最新的 AI 文生视频工具 Sora 的案例合集,最新的设计师作品分享和求职社区推荐,新晋在线幻灯片制作工具和字体设计工具,以及最新的抠图工具和免费的 LOGO 设计素材。
当然,在此之前记得看看往期干货中有没有你感兴趣的素材:下面我们具体看看这一期的干货:
1、SORA 文生视频内容案例合集
Open AI 近期推出的文生视频王炸产品 SORA,这让很多视频创作者提供了新的素材来源和近乎无限的创作空间。这个名为 Soravideos.ai
Galileo 1.0 公测开放!一键生成高保真UI设计,可导入Figma 编辑
大家好,我是花生~
一年前我向大家介绍过一款 AI 设计工具 Galileo,它是首批提出 “Text to UI” 概念的产品之一,可以根据文本生成高质量的 UI 设计原型,不过产品一直以来都是内测状态,所以使用范围不是很广。最近 Galileo 推出了新的 Galileo 1.0 模型,并对所有人开发测试,今天我们就一起来看看新模型的效果如何。
相关推荐:Galileo 1.0
Galileo AI 官网:
Galileo 目前主要有两大功能,通过文本生成 UI 设计和通过图像生成 UI 设计。官网的 Exp
手把手教程!教你从零开始设计雨水节气海报
2024 年 2 月 19 日,二十四节气——雨水。大地即将苏醒,万象正在更新,也标志着整个行业的春天正在来临(这是大家的憧憬),一切都开始朝着积极的方向有条不紊的方向运行。
企业或品牌方如果借此机会通过设计创意来展示一些愿景和理念,必定能够有效传达出该企业的正能量。
今天的文章,我们来探索一下「雨水节气」主题相关的创意设计,再通过以 Midjourney 为代表的 AIGC 工具输出一些海报设计样例,以闭环整个文章链路。一、学会用思维导图进行概念拆解
我比较喜欢用思维导图的方式进行概念拆解和延伸,我们来看看「雨水
5条实用经验,教你如何用AI轻松开发产品!
用 AI 能开发产品吗?
我的回答是:完全可以。全民爱画就是一款用 AI 开发的产品。全民爱画是一个 AI 装饰画创作和实物画订购工具,它利用 AI 技术完成了产品的核心功能,包括 AI 绘画,用户账号和订单支付等。产品大部分的前后端开发工作都由 AI 完成,而我的主要工作是进行产品架构设计、UI 设计、代码调试和产品部署。简单来说,就是让 AI 来完成开发过程中的前后端工作,这样可以极大降低开发难度,提高开发效率,让你更轻松地实现自己的产品想法。
更多干货:利用 AI 进行产品开发,其实质是通过人机交互来解决问题
CVPR 2024 Workshop | AIGC质量评价挑战赛启动!
NTIRE (New Trends in Image Restoration and Enhancement) 是近年来计算机视觉领域中具有广泛影响力的全球性研讨会之一,其涵盖了绝大部分底层视觉任务并提供了相应挑战赛。其中,NTIRE 2024 AIGC质量评价挑战赛由上海交通大学刘笑宏、闵雄阔、翟广涛教授团队与华为技术有限公司共同主办。第九届NTIRE研讨会将于2024年6月18日(暂定)与CVPR 2024一同举行。大赛背景:随着生成式人工智能的兴起,近年来涌现了大量文生图、文生视频模型。 此类算法的主要目标是
效率翻倍!ComfyUI 必装的工作流+模型管理插件 Workspace Manager
大家好我是花生~
前不久为大家推荐的秋葉大佬的 ComfyUI 整合安装包,今天继续为大家推荐一个目前非常受欢迎的 ComfyUI 插件 Workspace Manager,它可以让我们轻松管理、调用自己的工作流文件和模型,有效提升我们使用 ComfyUI 的效率。
上期回顾:一、Workspace Manager 安装方式
插件 Github 网址:
如果你没有安装 Workspace Manager 插件,可以通过以下 2 种方式安装:
① 通过 ComfyUI Manager 安装(推荐)。进入 Comfy
AI 到底有多强?万字干货盘点最新大模型应用和动态!
前言
距离上次写大模型应用的文章已经过去了大半年:这期间 AI 如火如荼,虽然我个人感知大模型应用生态并没有太多变化,但还是想记录下近期在大模型应用现象上的观察和浅显见解。
这篇文章会从 GPTs、大模型中间层(Dify、Coze)、大火的虚拟社交(Character.AI 等)聊到 AI Agent、大模型的多模态能力、产品推荐,涵盖了 23 年下半年至今大模型应用领域的最新进展。
一、Chatbot 是自然衍生的产品形态
1. GPTs
2023 年 11 月的 OpenAI 开发者大会上,OpenAI 推出
让AI生成更准确!解析 Midjourny 的逆向生成方法
网上关于 MIdjourny 的教程很多,但是基本都是正向思维。正向思维导致的结果就是你提供的关键词,并不一定能够输出我想要的效果。
这篇文章主要从逆向思维来剖析,如何以图生图,对目标效果图进行反编译的方法,输出一套属于自己想要的效果图。
更多干货:一、关于逆向生成
「逆向生成」无非就是站在巨人的肩膀上,对原有的目标创作效果进行反向编译,从而学习里面隐藏的技术点,供自己所用。
MIdjourny 提供了一个很好的工具指令就是 describe。上传一张目标效果图,解析一下即可生成 4 段文本分析。
记得上大学的时候