网站简介
通义万相(Wan)是阿里云通义实验室自研的多模态视觉生成大模型,专注图像与视频创作,为阿里大模型矩阵核心成员,2023 年启动研发,持续迭代至 2.6 版本。
一、核心定位与技术底座
万相以降低创作门槛、实现电影级 AI 生成为目标,基于自研 Composer 架构与扩散模型,采用 MoE 混合专家架构,兼顾性能与效率。支持文生图、图生图、文生视频、图生视频、图像编辑、数字人等全链路创作,广泛服务广告、影视、游戏、电商等领域。
二、核心功能与能力亮点
图像生成:最高 2K 分辨率,支持国潮、水彩、油画等16 种风格,精准渲染中英文字,适合海报、插画、设计素材。
- 视频生成:
文生视频:一句话生成15 秒 1080P高清视频,支持多镜头叙事与专业运镜。
图生视频:静态图转动态视频,音画同步,口型精准匹配。
角色扮演:国内首个支持万物当主角,自定义角色外观与声音,生成合拍视频。
电影级美学控制:60 + 可调参数,涵盖光影、色彩、镜头语言,实现专业级画面质感。
开源与生态:2025 年开源 2.1 版本(Apache 2.0 协议),14B 与 1.3B 双参数,适配不同算力,开源 6 天登顶 Hugging Face 榜单。
三、版本迭代与行业影响
2024.09:首发视频模型,开启影视级生成。
2025.02:2.1 开源,性能对标国际顶尖模型。
2025.07:2.2 强化电影美学与复杂运动生成。
2026.01:2.6 升级15 秒长视频、智能分镜、角色扮演,专业能力再上新台阶。