智谱 AI 开源视频理解模型 CogVLM2-Video，可回答时间相关问题

感谢智谱 AI 宣布，训练了一种新的视频理解模型 CogVLM2-Video，并将其开源。据介绍，当前大多数的视频理解模型使用帧平均和视频标记压缩方法，导致时间信息的丢失，无法准确回答与时间相关的问题。一些专注于时间问答数据集的模型过于局限于特定格式和适用领域，使得模型失去了更广泛的问答能力。▲ 官方效果演示智谱 AI 提出了一种基于视觉模型的自动时间定位数据构建方法，生成了 3 万条与时间相关的视频问答数据。基于这个新数据集和现有的开放领域问答数据，引入了多帧视频图像和时间戳作为编码器输入，训练出 CogVLM2

感谢智谱 AI 宣布，训练了一种新的视频理解模型 CogVLM2-Video，并将其开源。

据介绍，当前大多数的视频理解模型使用帧平均和视频标记压缩方法，导致时间信息的丢失，无法准确回答与时间相关的问题。一些专注于时间问答数据集的模型过于局限于特定格式和适用领域，使得模型失去了更广泛的问答能力。

▲ 官方效果演示

智谱 AI 提出了一种基于视觉模型的自动时间定位数据构建方法，生成了 3 万条与时间相关的视频问答数据。基于这个新数据集和现有的开放领域问答数据，引入了多帧视频图像和时间戳作为编码器输入，训练出 CogVLM2-Video 模型。

智谱 AI 表示，CogVLM2-Video 不仅在公共视频理解基准上达到了最新的性能，还在视频字幕生成和时间定位方面表现出色。

智谱 AI 开源视频理解模型 CogVLM2-Video，可回答时间相关问题

AI在线附相关链接：

代码：https://github.com/THUDM/CogVLM2

项目网站：https://cogvlm2-video.github.io

在线试用：http://36.103.203.44:7868/

{{userData.name}}已认证

智谱 AI 开源视频理解模型 CogVLM2-Video，可回答时间相关问题

OpenAI 提出通用人工智能五级标准，自认为接近但未达到第二级

英伟达又赚到了！FlashAttention3来了：H100利用率飙升至75%

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

平安人寿ChatBI：大模型智能化报表的深度实践

ChatGPT遇到这些人名开始自闭，OpenAI回应了

字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

OpenAI 从谷歌 DeepMind 挖角三名高级工程师，专注于多模态 AI 研发

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！