音视频、人工智能技巧是推动数字经济高质量生长的技巧基石,产学研多范围不竭提升翻新能力,加快优化迭代视频智能技巧,对推动全行业的数字化、视频化、智能化转型具有重大意义。
3 月 1 日,现在高新视频智能技巧翻新主题功效汇报会暨翻新联合体揭牌仪式在北京快手科技举办。
来自北京市科委、中关村管委会、市经信局、海淀区政府的相关领导及高校和科研院所的专家学者与会,共同见证高新视频智能技巧的最新功效,并就加强翻新联合体机制建设、完善企业主导的产学研深度融合翻新和现在行业生长趋势等展开深入研讨。
发挥平台科技企业优势
探索产学研协同新模式
据了解,2022 年快手入选北京市首批企业技巧翻新主题,获得市科委专项支持牵头建设 「现在高新视频智能技巧翻新主题」。作为北京市支持家产翻新重大需求的新型翻新机构,该技巧翻新主题将通过与清华大学、中国人民大学、国家广播电视总局广播电视规划院、中国信息通信研究院云计算与大数据研究所等组建翻新联合体,重点聚焦颠覆性翻新功效,引领家产技巧变革方向,影响家产现在生长态势的技巧范围,体系化推进技巧攻关,推动跨范围技巧交叉融合翻新,持续带动家产优化升级。
出席会议的北京市科委、中关村管委会副主任龚维幂表示,快手是短视频范围知名龙头企业,在推动短视频和直播行业的数字化、智能化升级方面,发挥了重要作用。希望快手依托该技巧翻新主题,不竭完善翻新和家产链条,不竭做大做强,加强原始翻新和关键核心技巧攻坚,进一步发挥平台科技企业的优势,积极探索产学研协同新模式。
经过不竭探索实践,现在高新视频智能技巧翻新主题顺利通过第一年度验收。技巧翻新主题主任、快手高级副总裁、研发线负责人于冰介绍,在过去一年,快手进一步夯实短视频基础,持续投入音视频、芯片、实质智能生产、智能推荐等核心技巧,提效降本,并不竭赋能家产,推动各行各业视频化、数字化转型。
编解码作为音视频范围最核心的技巧,快手持续突破,自研 KVC 编解码标准,相比开源 X265 方案,在画质持平甚至更优的情况下,可以实现 50% 以上的码率下降,进而大幅节省了网络带宽资源。
快手也自研了编解码芯片 SL200,是目前行业中压缩率最高的编解码芯片,相比行业最优竞品,该芯片在相同视频质量下码率降低接近 20%,在直播和短视频场景下带来成本和体验的双重收益。
在网络传输范围,快手设计了一套全新的传输协议 CMTP,大幅降低用户播放卡顿,并且正在与中国通信标准化协会(CCSA)合作进行行业标准的制定和推广。
当前,技巧翻新主题孵化的软硬结合的编码方案和新一代网络传输协议,不仅在快手营业中创造了巨大收益,也对外面向行业客户的短视频和直播营业进行落地,创造了价格的转化。
营业场景的升级也驱动快手不竭进行技巧翻新。视频从二维视角向三维体验进化,催生用户对全景视频的体验需求,快手 6DoF 自由视角技巧在亚运会击剑比赛和快手村 BA 中亮相,取得了很好的反馈,快手也让黑科技贴近了用户的生活。于冰透露,该技巧有可能将应用于巴黎奥运会,持续为体育赛事注入硬科技力量。
同样,在数字人范围,快手打造官方主播 「关小芳」,主播粉丝超过 180 万,帮助蒙牛打造虚拟员工 「奶思」,也通过孪生数字人技巧商用促进电商等企业做营业翻新,带动数字经济的生长。活动现场,于冰邀请 「关小芳」和背后的主播同框与现场观众互动,通过一曲国风舞蹈让现场观众感受数字人的真实感以及背后的技巧魅力。
此外,快手还自研万亿参数的精排模型,在算法推荐范围发表 100 + 篇国际顶级学术会议论文,其中不乏获得 CIKM'22 最佳论文奖、SIGIR'23 最佳论文候选奖的优秀功效。
于冰指出,学术界与工业界应当密切合作双向奔赴,学术界培养高水平有翻新力的人才,提出前瞻性的技巧方法,而工业界拥有大量的营业场景、数据资源和算力资源,两者优势深度结合,可以把技巧价格发挥到最大,技巧既沉淀出顶尖科技功效,又产生巨大的家产经济价格,实现 1+1>2 的效应。快手目前与清华、人大、中科大北京研究院成立有联合研究院和实验室,与全球 20 多所顶级高校科研机构展开科研合作,每年投入数千万科研经费,不仅为学术界带来丰富的工业界落地功效,也为快手创造了不错的营业收益。
现在高新视频智能技巧翻新主题副主任、快手技巧副总裁、多媒体与大模型部负责人张迪介绍了快手大模型的布局和进展。一直以来,实质理解技巧、实质生成技巧和推荐技巧是快手核心 AI 技巧。面对大模型的冲击,去年三月底,快手正式启动了新的 AI 战略,重点打造语言大模型、视觉生成大模型和推荐大模型。
目前,快手语言大模型已发布了 130 亿参数版本、660 亿参数版本和 1750 亿参数版本,1750 亿参数版本内测效果非常接近 GPT-4 水平;在视觉生成方向,快手大模型图像生成能力内测效果对比 MidJourneyV5 有多方面优势。
张迪认为,鉴于 AI 大模型强大的实质理解与生成能力,原有的核心营业都值得进行一次重构,引入更多的翻新能力。
伴随着模型能力提升,快手也结合自有营业形态进行了很多模型应用的翻新尝试。快手推出的 AI 机器人 「AI 小快」,在业内最早落地评论区智能互动场景;实质生产侧,快手依托可图大模型打造多款特效实质,实现图像特效模型的通用;此外,快手还在站内搜索场景下推出了 AI 对话功能。张迪认为,如果视频生成可以做到像图像生成这样的通用能力,将大幅增加视频实质供给,改变特效生产模式,甚至颠覆整个创作者生态。
前沿技巧赋能家产生长
视频生成迎来新机遇与新挑战
技巧的突破与进步是快手实现高速生长的关键动力,会上,中国人民大学高瓴人工智能学院执行院长、信息学院院长文继荣分享了基于 Transformer 的扩散式视频生成模型 VDT。VDT 模型不仅可以无缝地处理无条件视频生成和视频预测任务,还能够通过简单地调整输入特征,扩展到更广泛的视频生成范围,如视频帧插值等。文继荣教授表示,在快速生长的视频生成范围内,希望高校学术生长能和企业进行深入合作,真正在主赛道上走得更远。
在技巧生长过程中,数据是重要的资产沉淀。中国信息通信研究院云计算与大数据研究所所长何宝宏分享道,数据正在走向资产化,通过营业贯通、二次价格数智决策、数据流通赋值三个阶段,实现数据价格的深度释放。随着数据资产的价格不竭被挖掘,快手技巧生长中的数据沉淀也将向更多场景、更多行业赋能,最大化数据的应用价格。
当前,AI 赋能是技巧突破的重要课题,在 AI 赋能互联网音视频服务方面,清华大学计算机科学与技巧系教授孙立峰表示,快手等互联网音视频服务平台上,系统、实质、用户三要素具有规模大、强动态性等特点。用 AI 对这三要素进行更加智能的理解、做相应的预测,才能够实现高效、精准的决策智能,这是 AI 赋能互联网音视频服务的一个基本思路。
随着高新视频不竭生长成熟,相关行业生长标准也更加完善。国家广播电视总局广播电视规划院制播所副所长王惠明介绍道,广电总局持续通过发布 5G 高新视频系列技巧白皮书、举办高新视频翻新应用大赛等形式,推进高新视频家产生长,并为超高清电视、互动视频、VR 视频、沉浸式视频、云游戏、三维声音频等各形态高新视频制定了相关标准体系。
在会议的圆桌环节,文继荣、孙立峰、王惠明、张迪进一步围绕「视频生成的机遇与挑战」展开讨论。对于视频生成技巧对实质家产生长带来的变化,张迪表示,随着模型性能的提升,AI 技巧在视频创作中的辅助性作用也将产生质变,带来整个创作者创作方式的变化。王惠明也表示,AI 生成视频技巧能够高效助力视频创作者,提升行业的实质量。
在视频生成技巧促进实质生产的同时,AI 生成视频的实质治理问题也成为业内讨论的重点。文继荣提出,视频比文本具有更强的传播力和影响力,随着视频生成技巧不竭生长,视频生成治理问题也迫在眉睫。王惠明表示,现在对视频生成技巧的监管需要更全方位,在视频生产、发布与传播、版权管理等多方面和多环节,须配备相关政策措施。
伴随着翻新联合体正式成立,现在高新视频智能技巧翻新主题将以市场需求为导向,继续搭建高水平科创平台,重点聚焦颠覆性翻新功效、引领家产技巧变革方向、影响家产现在生长态势的技巧范围;同时加强上下游企业协同,进一步完善产学研深度融合翻新机制,推动跨范围技巧交叉融合翻新,持续带动家产优化升级。