首次引入强化学习！火山引擎Q-Insight让画质理解迈向深度思考

作者：机器之心

2025-04-08 09:50

从 GPT-4o 吉卜力风、即梦的 3D 动画、再到苹果 Vision Pro，AI 视觉创作正迎来生产力大爆炸。一个重要问题随之浮现：如何评估机器生成的画质符合人眼审美？人眼能瞬间辨别图像优劣，但教会机器理解「好看」却充满挑战。

视觉革命，呼唤新的画质「评估师」

作为人们日常内容消费的核心载体，音视频在过去几十年间经历了从低分辨率、有限色彩到超高清沉浸体验的技术跃迁。这场视觉革命的背后，音视频相关技术始终是其中的技术支柱，支撑着内容从生产、处理、编码、传输到消费的全链路运作。

随着生成式人工智能与多模态大模型的发展，用户视频体验有了深刻变革。

首先，内容生产将从 UGC/PGC 发展到 AIGC，伴随视频生成模型与智能工具的普及，极大的降低了视频生产的门槛。同时，AIGC 也推动「音视频」成为新的「通用」语言，为用户提供了更多元、更生动的交流方式。

其次，得益于 AI 的深度学习能力及其自我进化的特性，交互方式正从以往的人机交互、人人交互，迈向人与 AI 融合交互的新时代。

最后，用户的交互空间也在从 2D、3D、VR，逐步拓展到虚实融合的全新空间，这带来了更沉浸的交互体验，让实时互动更加「身临其境」。

面对多模态大模型对视频生态以及技术架构影响，视频云作为底层基础设施正面临机遇和挑战。

Q-Insight：深度思考，「看懂」画质

在音视频链路中，采集、压缩、处理、传输、播放等环节大多都基于一个核心问题展开，即人眼的画质感知。多模态大模型的快速发展为新时代的音视频技术带来了新的机遇，面对人眼感知的画质理解提供了一种全新的解决方案。

以往的画质理解的方法主要分为两类：（1）评分型方法，这类方法通常只能提供单一的数值评分，缺乏明确的解释性，难以深入理解图像质量背后的原因；（2）描述型方法，这类方法严重依赖于大规模文本描述数据进行监督微调，对标注数据的需求巨大，泛化能力和灵活性不足。

针对上述问题，北京大学与火山引擎多媒体实验室的研究人员联合提出了基于强化学习训练的多模态大模型图像画质理解方案 Q-Insight。

论文链接：https://arxiv.org/pdf/2503.22679

与以往方法不同的是，Q-Insight 不再简单地让模型拟合人眼打分，而是将评分视作一种引导信号，促使模型深度思考图像质量的本质原因。通过这种创新思路，Q-Insight 在质量评分、退化感知、多图比较、原因解释等多个任务上均达到业界领先水平，具备出色的准确性和泛化推理能力，并且不依赖大量高成本的文本数据标注。

Q-Insight 首次将强化学习引入图像质量评估任务，创造性地运用了「群组相对策略优化」（GRPO）算法，不再依赖大量的文本监督标注，而是挖掘大模型自身的推理潜力，实现对图像质量的深度理解。如图所示，Q-Insight 不仅输出单纯的得分、退化类型或者比较结果，而是提供了从多个角度综合评估画质的详细推理过程。

实验结果充分验证了 Q-Insight 在图像质量评分、退化检测和零样本推理任务中的卓越表现：在图像质量评分任务上，Q-Insight 在多个公开数据集上的表现均超过当前最先进的方法，特别是在域外数据上的泛化能力突出，并能够提供完整详细的推理过程。

在退化感知任务上，Q-Insight 的表现显著优于现有的退化感知模型，尤其是在噪声和 JPEG 压缩退化类型识别的准确性上。

在零样本图像比较推理任务上，Q-Insight 无需额外监督微调，即可准确、细致地分析和比较图像质量，展示出强大的泛化推理能力。

大脑升级，重塑视频云技术栈

以多模态画质理解大模型 Q-insight 作为基石之一，火山引擎视频云已经围绕多媒体链路搭建起基于大模型的解决方案。

大模型算法能力包含有生成式画质增强大模型、沉浸音频大模型、生成式视频编码大模型、多模态内容理解大模型等。此外，已有的传统媒体处理能力也与大模型能力方案形成有机结合与互补，其中包括软件编解码 BVC 系列、硬件编码器、处理增强能力、分析和理解能力等。

通过基于 MLLM 实现的多媒体智能体，可以面向不同复杂的业务场景与用户需求，做到感知理解、智能决策规划和输出算法能力方案。相比传统依据经验调控的方案，多媒体智能体具有链路更智能、算法效果上限更高，并且更贴近实际业务和人眼感知等优势。

此外，结合视频云自研多媒体处理框架 BMF 以及大规模多媒体实验仿真平台 VLAB 等工程支持，进一步提高了大模型媒体服务的稳定性和效率，有效降低了部署成本。

超越技术，体验跃迁

火山视频云产品正在把用户从流畅、实时、高清的数字视频世界带入更智能、更交互、更沉浸的 AI 视频世界。这不仅意味着技术的飞跃，更代表着体验方式的一场变革。

在大模型和生成式 AI 技术的强劲推动下，音视频处理的底层技术正经历着深刻的变革。

首先对算力层的要求尤为显著。生成式 AI 技术大幅降低了视频生成的门槛，导致视频数据以惊人速度增长。所以也对计算成本和处理效率提出了严峻的挑战。

在算法层，编解码、处理、分析等音视频处理的核心技术，正在与大模型不断的深度融合。这种融合不仅提升了编解码效率以及画质表现，更为用户带来了更加优质的视频体验。

在框架层，随着视频生成大模型和预处理所需的计算需求日益增长，我们需要构建更强大、更灵活的多媒体处理框架，不仅要能够支持大模型的高效运行，还要能够满足日益复杂的音视频处理需求，以应对生成式 AI 带来的挑战。

火山引擎多媒体实验室是字节跳动旗下的研究团队，致力于探索多媒体领域的前沿技术，参与国际标准化工作，其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务，并向火山引擎视频云的企业级客户提供技术服务。实验室成立以来，多篇论文入选国际顶会和旗舰期刊，并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。

火山引擎视频云，以「体验」为核心，基于字节跳动亿级 DAU 打磨的音视频技术融合 AI / 大模型技术，打造集视频直播、企业直播、视频点播、智能处理、实时音视频、云游戏、云手机、veImageX 等于一体的一站式音视频服务，帮助企业端到端提升视频能力，实现播放体验、画质体验、交互体验、性能体验的全面提升与创新。

OpenAI在图片领域站起来了！

出品 | 51CTO技术栈（微信号：blog51cto）26日凌晨，OpenAI推出了GPT4o图像生成，可以说解决了此前Midjourney等扩散模型很难解决的问题，业内为之大为赞叹。这是用手机拍摄的玻璃白板的广角图像，拍摄地点是一间俯瞰海湾大桥的房间。视野中可以看到一位女士正在写字，她身穿一件印有大型 OpenAI 标志的 T 恤。

3/26/2025 9:29:12 AM