火山引擎视觉大模型4K修复百部港片,面部肤质纹理等细节更清晰

12月26日-29日,“经典香港电影修复计划” 专题展在京举办。 该修复计划由中国电影资料馆、抖音、火山引擎发起,历经一年多时间,完成100部港片的4K修复工作。 其中10部是“人工 AI”精修,90部主要由AI修复,这些修复后的作品已上线抖音、抖音精选,搜索片名即可观看。

12月26日-29日,“经典香港电影修复计划” 专题展在京举办。该修复计划由中国电影资料馆、抖音、火山引擎发起,历经一年多时间,完成100部港片的4K修复工作。其中10部是“人工+AI”精修,90部主要由AI修复,这些修复后的作品已上线抖音、抖音精选,搜索片名即可观看。

作为专题展的系列活动之一,“经典香港电影修复计划”纪录片《再续时光》于12月27日上线抖音。该片记录了《富贵逼人》《武状元苏乞儿》等影片修复的全过程,摄制组多次前往香港采访电影导演、影视学者,梳理香港电影产业的缘起,解读这批经典港片的影史价值。

AIGC技术提高修复效率

《再续时光》点映看片会于12月26日下午举办。映后交流环节,作为该项目的修复技术方,中国电影资料馆制作部修复师王峥、火山引擎多媒体实验室算法工程师张港,从各自角度聊了聊双方如何配合完成修复。

拿到一部待修复的影片,双方首先会明确分工,人工修复效果更好的画质问题归修复师,重复性的、“耗人”的画质问题,由算法工程师利用视觉大模型技术,将算法识别出来的画面中划痕、脏点,一次性祛除。这种情况下,修复师能省下时间和精力,处理更复杂的画质问题。

AI也能解决修复师难以处理的问题,比如智能插帧技术,通过对比前后帧内容生成中间帧,能让24帧的打戏变成48帧,4K版《A 计划》清晰呈现了狄威 “乌龙绞柱” 动作中的“缴械踢”细节,《飞鹰计划》结尾的成龙经典打斗画面更加顺滑流畅。

“经典香港电影修复计划”纪录片《再续时光》映后对谈

《再续时光》导演徐思原认为,电影修复最早是意大利人在60年代像修文物一样的“手艺”,可能一部片子花费几百万、耗时几年才能修出来,修复产量低。在今天AIGC技术的帮助下,修复效率得到提高,“这是非常了不起的事情,在过去,很多机构投入很多成本,只能修几部片子,现在可以‘一键’让一个时代复活过来。”

金庸小说研究专家、中国电影艺术研究中心研究员陈墨表示,修复的重要性一个是穿越时光,另一个是再现时光。“修旧如旧、保存电影档案是修复的第一原则,第二原则是修复得更符合现代观众的观影习惯,比如把威亚去掉,色彩调得更亮,因为电影留存档案的目的还是要让后人看,如果有一种方式让电影活得更好,穿越之外还能再现,为什么不呢?”

持续优化视觉大模型,面部肤质纹理等细节更清晰

老片画质由于拍摄器材或者存储硬件的原因,普遍存在细节较少问题,传统修复技术很难修复到标准2K、4K水平,可能存在局部涂抹感重、细节修复效果突兀等问题。

修复过程中,火山引擎持续优化视觉大模型,通过模型结构引入时序模块、训练和推理策略优化,以及建设大模型画质插件能力,让画面更清晰,修复更自然。

修复前后对比,右为修复后

以人像为例,新建设的大模型插件能提取画面中人像区域,通过ControlNet框架提升人像修复质量,包括面部逼真的肤质纹理、毛发细节等,实现极致修复效果。为了更好针对性修复,火山引擎技术团队就不同的基模框架做了大模型插件的适配,做到即插即用。

另外,细节上的生成能力并不是越强越好,会带来额外的闪烁问题。火山引擎多媒体实验室算法工程师陈凯表示,时序模块加入了3D卷积和时序层,并通过光流信息获取帧间像素运动关系,保证增强效果一致性和稳定性。

火山引擎还提升了视觉大模型的高性能推理,修复效率较去年提高3倍。“一部2小时的片子,可能经过多轮技术修复,一台机器单次修复从18小时缩短到5小时左右。”陈凯介绍,技术上他们做了大模型结构裁剪、迭代步数压缩、权重量化调整等。

修复前后对比,右为修复后

据了解,火山引擎已将以上优化沉淀为基于大模型的画质增强方案GQE,后续会通过视频云老片修复产品开放给外部企业。

在华语电影的广阔流域中,被誉为“东方好莱坞”的香港电影始终代表着独特的一脉。这些经典老片曾在录像厅时代风靡一时,见证了无数人的青春岁月。如今,通过本次修复计划,100部影片得以重焕光彩。“这些影片走进手机端,能让更多人看见,让片库复活。抖音上的影视解读‘二创’能加快影片的传播速度,完成定点传播、定点放映、定点普及。”徐思原从年轻一辈影人的视角,希望更多电影以修复“重生”,延续电影资产对于文化传承的价值。

相关资讯

基于LLaMA却改张量名,李开复公司大模型开源行为引争议,官方回应来了

机器之心报道机器之心编辑部有研究者发现,李开复「零一万物」公司的 Yi-34B 模型基本上采用了 LLaMA 的架构,只是重命名了两个张量。对此,「零一万物」给出了官方回应。前段时间,开源大模型领域迎来了一个新的模型 —— 上下文窗口大小突破 200k,能一次处理 40 万汉字的「Yi」。这个大模型由创新工场董事长兼 CE0 李开复创立的大模型公司「零一万物」构建,包括了 Yi-6B 和 Yi-34B 两个版本。根据 Hugging Face 英文开源社区平台和 C-Eval 中文评测榜单,Yi-34B 推出时取得

做大模型时代的最佳云底座,百度智能云打出三套「组合拳」

不破不立,重构云计算这件事,百度智能云公布了最新进展。

大模型+机器人,详尽的综述报告来了,多位华人学者参与

大模型的出色能力有目共睹,而如果将它们整合进机器人,则有望让机器人拥有一个更加智能的大脑,为机器人领域带来新的可能性,比如自动驾驶、家用机器人、工业机器人、辅助机器人、医疗机器人、现场机器人和多机器人系统。预训练的大型语言模型(LLM)、大型视觉 - 语言模型(VLM)、大型音频 - 语言模型(ALM)和大型视觉导航模型(VNM)可以被用于更好地处理机器人领域的各种任务。将基础模型整合进机器人是一个快速发展的领域,机器人社区最近已经开始探索将这些大模型用于感知、预测、规划和控制等机器人领域。近日,斯坦福大学和普林斯