多模态技术 - AI在线

多模态搜索算法如何让视频搜索更精准？腾讯独家揭秘，超详细

一文详解多模态技术在 QQ 浏览器视频搜索上的实践经验。引言视频搜索作为搜索中最大的横向垂类，在约 50% 的搜索词下都会有视频结果的展现。然而，视频资源又不同于文本网页资源，在视频理解、视频匹配排序，以及交互行为等方面都会带来新的技术挑战。多模态技术近年逐步走进人们的视野，特别是 Transformer 结构在 NLP 领域的大放异彩后，也向视觉、音频等多模态领域延伸，为跨模态融合带来更大的便利和可能。多模态预训练（比如 ViLBERT/VisualBERT/VL-BERT/ERNIE-ViL 等）、多模态融合技