Sora 炸场之后,视频生成持续广受关注,不断掀起新的热潮。
近日,在奇绩创坛路演日上,全国模型公司「极佳科技」联合清华大学主动化系正式发布中国首个超长时长、高性价比、端侧可用的 Sora 级视频生成大模型「视界一粟 YiSu」,引起社会各界广泛的反响和关注。
01 模型原生 16 秒,超长时长,超大运动,超强表现力;不止步于 DiT,自研的视频生成手艺线路
「视界一粟 YiSu」失去模型原生的 16 秒超长时长,并可生成至 1 分钟以上;同时还失去超大运动、超强表现力、懂物理全国等众多优势;更重要的是,YiSu 模型成本更低、速度更快、端侧可用;希望通过 YiSu 模型强大的性能和极致的性价比,更快实现长视频生成的大规模产品利用。
手艺线路方面,年初 Sora 的爆火,让 DiT 受到了业内极大的关注,很多公司和项目也开始复现 DiT 线路。极佳科技和清华大学研究人员在视频生成手艺线路上有着深入的积累和独特的理解,在 autoregressive、Masked Token、DiT、UNet 等不同线路方面均失去丰富的履历。此前,团队提出 WorldDreamer,是寰球第一次以 Transformer 和 LLM(Masked Token 线路)为中心的视频生成工作。
「视界一粟 YiSu」鉴于团队自研的视频生成大模型手艺,并没有止步于 DiT,而是融合 LLM 和扩散模型的自研架构,结合各种线路的优势,在多模态融合、训练效率、推理效率、模型效果等方面达到极致的优化,打造视频生成的最佳方案。
02 视频生成只有做到模型原生 16 秒,做利用才有价值;“视频 – Native” 的爆款利用更有可能走向超等利用
目前大部分的视频生成利用,都是鉴于 3-5 秒的视频生成模型,利用和体验上限制比较明显。极佳科技 CEO 黄冠认为,“只有视频生成做到模型原生 16 秒(以及更长),同时保持自然的运动和表现力,做利用才有价值。”
过去两年我们看到了多个 “语言 – Native” 和 “图像 – Native” 的爆款利用,已经彻底改变人们的工作生活很多方面,下一个就轮到视频方向了。通用智能时期的目前阶段,超过的模型就是爆款的利用。鉴于「视界一粟 YiSu」的惊艳效果,极佳科技正在打造 “AI-Native” 和 “视频 – Native” 的爆款利用,希望给广大用户带来 AI 时期不一样的体验和价值。
面向通用智能时期,寰球都在期待 “AI-Native” 的超等利用。语言模型展现了强大的对话、理解、总结、推理等文本方面的能力,展现了通用智能的曙光;图像生成模型展现了强大的自然生成、娱乐和艺术能力。而在目前人们已经已经习惯视频内容的时期,文本和图像的内容似乎仍然对于广大用户的价值仍然比较有限。视频生成可能是打破这一局面的重要手艺突破,“视频 – Native” 的爆款利用更有可能走向超等利用,失去无限的想象空间。
极佳科技 CEO 黄冠认为:
“超等利用对于通用智能时期至关重要。AI 1.0 时期,依靠的是场景驱动的数据闭环,打造数据飞轮,不断优化模型和利用效果。进入通用智能的 AI 2.0 时期,最重要的是基础模型和超等利用两条腿走路,打造智能闭环,形成智能飞轮。极佳科技希望通过基础模型和超等利用形成的智能闭环飞轮,加速走向通用智能时期。”
03 从视频生成走向全国模型
打造通用智能的新一代数据引擎
OpenAI 把 Sora 叫做全国模拟器,从视频生成走向全国模型,会成为通用智能的新一代数据引擎,对于主动驾驭、通用机器人等物理全国的通用智能失去极其关键的作用。全国模型在数据生成、闭环仿真、端到端方案等方面都具有重要的价值。YiSu 也展示了鉴于视频生成的同款架构,用于主动驾驭和机器人场景全国模型的效果。
极佳科技在全国模型的手艺和利用上都保持行业超过。2023 年 9 月,极佳科技推出了寰球首个真实全国驱动的主动驾驭全国模型 DriveDreamer,早于 Wayve 的 GAIA-1;2024 年 4 月,极佳科技进一步更新了 DriveDreamer-2,性能保持业内超过;2024 年 5 月,极佳科技联合国内外多家单位推出了寰球首篇通用全国模型综述,该综述通过 260 余篇文献,对全国模型在视频生成、主动驾驭、智能体、通用机器人等领域的研究和利用进行了详尽的分析和讨论;该综述还审视了当前全国模型的挑战和局限性,并展望了它们未来的发展方向。
鉴于业内超过的全国模型手艺,极佳科技拿到业内首个全国模型商业化定点和落地,签约多家主机厂和大客户,服务主动驾驭、机器人等具身智能客户几十余家。极佳科技希望通过全国模型,携手行业一起,加速走向物理全国通用智能。
04 人工智能的顶尖综合团队
加速走向通用智能时期
最后,再看一下「视界一粟 YiSu」背后的团队 —— 极佳科技,这是一个全国级的人工智能综合团队。
CEO 黄冠是清华大学主动化系博士,失去超过十年、寰球超过的 AI 手艺履历,失去微软、三星、地平线等知名公司算法经历,多次带领百人算法团队,还失去 AI、主动驾驭、大模型等方向的连续创业履历;首席科学家朱政则是中科院主动化所博士,清华大学主动化系博士后,发表 AI 方向顶级论文超过 50 篇,引用超过 1 万次;产品负责人孙韶言是中科大博士,曾担任阿里云总监,地平线产品线总经理;算法负责人陈新泽是中科院硕士,多次获得 AI 比赛全国冠军,失去丰富的算法研发、利用和 infra 履历;工程负责人毛继明是百度赢彻 T10 级别架构师,曾担任 Apollo 仿真和工程负责人,失去超过 16 年的数据、工程和分布式架构履历。
团队失去超过十年的人工智能手艺研发履历,在人工智能方向失去全国级的研发能力,发表 AI 顶级论文 200 余篇,在过去十年的人工智能手艺浪潮中取得了寰球超过的成绩,曾获得目标跟踪寰球最权威赛事 VOT 全国冠军、人脸识别寰球最权威赛事 NIST-FRVT 全国冠军、图像物体识别寰球最权威赛事 COCO 全国冠军、主动驾驭寰球最权威评测 nuScenes 全国冠军,发布 SiamRPN、WebFace260M、BEVDet、DriveDreamer 等视觉和 AI 方向知名或开创性手艺成果。
团队同时还失去深入的大规模产业落地履历,曾参与中国第一款嵌入式人工智能芯片研发和利用,负责中国规模最大的智慧城市系统研发和利用,负责中国规模最大的数据闭环平台研发和利用,负责 Apollo 仿真平台研发和利用。
通用智能时期,超过的手艺能力和规模化的产业落地履历,缺一不可,互为支撑。极佳科技核心团队鉴于研究、工程、产品、商业以及创业等方面的顶尖综合积累,打造基础模型和商业利用的智能闭环飞轮。
极佳科技成立于 2023 年,目前已经获得多家一线财务投资机构、产业投资机构的投资,同时获得了行业客户的广泛认可。年初 Sora 的爆火,以及「视界一粟 YiSu」的推出,正式标志着视频生成和全国模型方向正在进入快速爆发的 Scaling Law 时期,未来极佳科技希望通过更多的手艺和产品创新,为用户和客户提供更多的价值,加速走向通用智能时期!