智谱 AI 开源视频理解模型 CogVLM2-Video,可回答时间相关问题

感谢智谱 AI 宣布,训练了一种新的视频理解模型 CogVLM2-Video,并将其开源。据介绍,当前大多数的视频理解模型使用帧平均和视频标记压缩方法,导致时间信息的丢失,无法准确回答与时间相关的问题。一些专注于时间问答数据集的模型过于局限于特定格式和适用领域,使得模型失去了更广泛的问答能力。▲ 官方效果演示智谱 AI 提出了一种基于视觉模型的自动时间定位数据构建方法,生成了 3 万条与时间相关的视频问答数据。基于这个新数据集和现有的开放领域问答数据,引入了多帧视频图像和时间戳作为编码器输入,训练出 CogVLM2

感谢智谱 AI 宣布,训练了一种新的视频理解模型 CogVLM2-Video,并将其开源。

据介绍,当前大多数的视频理解模型使用帧平均和视频标记压缩方法,导致时间信息的丢失,无法准确回答与时间相关的问题。一些专注于时间问答数据集的模型过于局限于特定格式和适用领域,使得模型失去了更广泛的问答能力。

智谱 AI 开源视频理解模型 CogVLM2-Video,可回答时间相关问题

▲ 官方效果演示

智谱 AI 提出了一种基于视觉模型的自动时间定位数据构建方法,生成了 3 万条与时间相关的视频问答数据。基于这个新数据集和现有的开放领域问答数据,引入了多帧视频图像和时间戳作为编码器输入,训练出 CogVLM2-Video 模型。

智谱 AI 表示,CogVLM2-Video 不仅在公共视频理解基准上达到了最新的性能,还在视频字幕生成和时间定位方面表现出色。

智谱 AI 开源视频理解模型 CogVLM2-Video,可回答时间相关问题

AI在线附相关链接:

代码:https://github.com/THUDM/CogVLM2

项目网站:https://cogvlm2-video.github.io

在线试用:http://36.103.203.44:7868/

给TA打赏
共{{data.count}}人
人已打赏
应用

OpenAI 提出通用人工智能五级标准,自认为接近但未达到第二级

2024-7-12 10:35:33

应用

英伟达又赚到了!FlashAttention3来了:H100利用率飙升至75%

2024-7-12 15:23:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索