智谱 AI 开源视频理解模型 CogVLM2-Video,可回答时间相关问题

感谢智谱 AI 宣布,训练了一种新的视频理解模型 CogVLM2-Video,并将其开源。据介绍,当前大多数的视频理解模型使用帧平均和视频标记压缩方法,导致时间信息的丢失,无法准确回答与时间相关的问题。一些专注于时间问答数据集的模型过于局限于特定格式和适用领域,使得模型失去了更广泛的问答能力。▲ 官方效果演示智谱 AI 提出了一种基于视觉模型的自动时间定位数据构建方法,生成了 3 万条与时间相关的视频问答数据。基于这个新数据集和现有的开放领域问答数据,引入了多帧视频图像和时间戳作为编码器输入,训练出 CogVLM2
感谢智谱 AI 宣布,训练了一种新的视频理解模型 CogVLM2-Video,并将其开源。

据介绍,当前大多数的视频理解模型使用帧平均和视频标记压缩方法,导致时间信息的丢失,无法准确回答与时间相关的问题。一些专注于时间问答数据集的模型过于局限于特定格式和适用领域,使得模型失去了更广泛的问答能力。

智谱 AI 开源视频理解模型 CogVLM2-Video,可回答时间相关问题

▲ 官方效果演示

智谱 AI 提出了一种基于视觉模型的自动时间定位数据构建方法,生成了 3 万条与时间相关的视频问答数据。基于这个新数据集和现有的开放领域问答数据,引入了多帧视频图像和时间戳作为编码器输入,训练出 CogVLM2-Video 模型。

智谱 AI 表示,CogVLM2-Video 不仅在公共视频理解基准上达到了最新的性能,还在视频字幕生成和时间定位方面表现出色。

智谱 AI 开源视频理解模型 CogVLM2-Video,可回答时间相关问题

AI在线附相关链接:

代码:https://github.com/THUDM/CogVLM2

项目网站:https://cogvlm2-video.github.io

在线试用:http://36.103.203.44:7868/

相关资讯

百分点认知智能实验室:智能对话技术应用和实践

编者按智能对话系统因其巨大的潜力和商业价值受到越来越多研究者和从业者的关注,对话的主要种类包括闲聊型、知识型、任务型、阅读理解型等,目前已经广泛应用在智能客服、智能音箱、智能车载等众多场景。近年来,智能对话还出现了新的应用场景,例如可以将自然语言转换为各种程序性语言,如SQL,从数据库中找到相应的答案,让用户和数据库的交互变得更加直接和方便。为此,Datafun发布了百分点首席算法科学家苏海波署名文章,文中主要介绍了智能问答中的问题语义等价模型、知识图谱问答模型、NL2SQL模型,以及百分点在智能问答领域的实践案例

讯飞星火 Lite API 能力免费开放:在线联网搜索、低算力推理场景

感谢科大讯飞今日官宣,旗下讯飞星火 Lite API 永久免费开放,支持在线联网搜索、适用于低算力推理与模型精调等定制化场景。IT之家注:讯飞星火 Pro / Max API 价格为:0.21 元 / 万 tokens。据介绍,1token 相当于 1.5 个中文汉字,用户付费 0.21 元即可调用“讯飞星火 3.5 Max”生成一部“余华《活着》”的内容量。讯飞星火大模型 V3.5 发布于今年 1 月,该模型带来七大能力提升:文本生成提升 7.3%,语言理解提升 7.6%,知识问答提升 4.7%,逻辑推理提升 9

知识图谱构建下的自动问答KBQA系统实战

目前工程落地实现问答的技术路线基本分为基于知识图谱的问答(KBQA)、基于阅读理解的问答(MRC)和常见问题问答(FAQ)三种模式