阿里通义万相 2.1 模型宣布升级：首次实现中文文字视频生成功能，支持无限长 1080P 视频的高效编解码

作者：问舟

2025-01-10 11:03

通义万相 2.1 还支持复杂运镜，可还原碰撞、反弹、切割、挤压等真实世界的物理规律，例如雨滴落在伞上会溅起水花。

感谢阿里旗下通义万相宣布推出 2.1 版本模型升级，视频生成、图像生成两大能力均有显著提升。

在视频生成方面，通义万相 2.1 通过自研的高效 VAE 和 DiT 架构增强了时空上下文建模能力，支持无限长 1080P 视频的高效编解码，首次实现了中文文字视频生成功能，登上 VBench 榜单第一。

阿里通义万相 2.1 模型宣布升级：首次实现中文文字视频生成功能，支持无限长 1080P 视频的高效编解码

据介绍，通义万相 2.1 支持中英文视频，都可以一键生成艺术字，还提供多种视频特效选项，以增强视觉表现力，例如过渡、粒子效果、模拟等等。

阿里通义万相 2.1 模型宣布升级：首次实现中文文字视频生成功能，支持无限长 1080P 视频的高效编解码

▲ Prompt：以红色新年宣纸为背景，出现一滴水墨，晕染墨汁缓缓晕染开来。文字的笔画边缘模糊且自然，随着晕染的进行，水墨在纸上呈现“福”字，墨色从深到浅过渡，呈现出独特的东方韵味。背景高级简洁，杂志摄影感。

AI在线注意到，通义万相 2.1 还支持复杂运镜，可还原碰撞、反弹、切割、挤压等真实世界的物理规律，例如雨滴落在伞上会溅起水花。

阿里通义万相 2.1 模型宣布升级：首次实现中文文字视频生成功能，支持无限长 1080P 视频的高效编解码

▲ Prompt：一对穿着正式晚礼服的夫妇在回家途中遭遇大雨，他们撑着黑色雨伞。平拍镜头下，男士穿着黑色西装，女士穿着白色长裙。他们在雨中缓缓行走，雨水沿着伞面滴落。镜头跟随他们的步伐平稳移动，展现出他们在雨中的优雅姿态。

图片生成方面，通义万相 2.1 支持文生组图，采用了 IC-LoRA 图像生成训练方法，利用 DiT 架构，增强文本到图像的上下文能力；对多张图像进行拼接与联合描述即可实现关联图像间的组合生成，并保持特征稳定连续。

阿里通义万相 2.1 模型宣布升级：首次实现中文文字视频生成功能，支持无限长 1080P 视频的高效编解码

▲ Prompt：浪漫的公园里，一对青年男女在温馨的拥抱交谈

首次实现中文文字生成，消息称阿里通义万相 2.1 视频生成模型今晚开源

据新浪科技援引知情人士消息称，阿里巴巴将于今晚全面开源旗下视频生成模型万相2.1模型。

2/25/2025 5:28:36 PM

清源

业界首个，阿里通义万相“首尾帧生视频模型”开源

它可根据用户指定的开始和结束图片，生成一段能衔接首尾画面的 720p 高清视频，此次升级将能满足用户更可控、更定制化的视频生成需求。

4/17/2025 10:55:39 PM

汪淼

AI 发现16万种新RNA病毒成果登上《Cell》后，我们和阿里云算法专家贺勇聊了聊

近期，AI for Science 领域的惊喜不断，持续在物理、化学、生物领域开花结果。不仅诺贝尔物理和化学奖双双颁给 AI 领域的科学家，阿里云与中山大学的科研也带来了RNA病毒寻找的突破，国际顶级学术期刊《Cell》收录了这一研究论文。《基于人工智能探索和记录隐藏的RNA病毒世界》论文提出深度学习模型"LucaProt"，用于快速准确判别RNA病毒，颠覆传统病毒发现方法。

10/15/2024 3:18:00 PM

王轶群

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 OPPO 小布助手网页版上线，接入满血版 DeepSeek 本地部署DeepSeek+DiFy平台构建智能体应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果人形机器人深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

阿里通义万相 2.1 模型宣布升级：首次实现中文文字视频生成功能，支持无限长 1080P 视频的高效编解码

相关资讯

首次实现中文文字生成，消息称阿里通义万相 2.1 视频生成模型今晚开源

业界首个，阿里通义万相“首尾帧生视频模型”开源

AI 发现16万种新RNA病毒成果登上《Cell》后，我们和阿里云算法专家贺勇聊了聊