
腾讯混元文生视频大模型初体验:功能繁多但表现不尽如人意
2023 年 3 月 20 日,国内互联网巨头腾讯正式向公众发布了其文生视频大模型——混元。该模型参
数量高达 130 亿,是目前开源视频生成类大模型中参数量最大的。作为一款基于人工
智能技术的视频生成工具,混元大模型受到了广泛关注。
丰富的功能
与其他同
类产品相比,腾讯混元大模型提供了更加丰富的功能选项,包括:
多种视频比例选择:横屏、竖屏、正方形
不同视频风格选择:写实、动漫、卡通
多种景别选择:特写、中景、全景
多种
光线条件选择:
自然光、逆光、侧光
多种镜头运动选择:平移、摇摄、旋转
是否启用流畅运镜功能选择
是否启用丰富动作功能选择
是否使用导演模式选择(该模式下 AI 将自动生成符合逻辑的视频镜头)
实际体验
为了充分体验腾讯混元大模型的性能,笔者进行了多次不同的视频生成尝试。实际体验并不尽如人意。
画面效果良好,但与描述有
差距
以“夕阳西下,少女坐在靠窗的书桌前,眼神不住地向上飘,嘴角微微上扬,似乎想起了
什么值得开心的事”为描述语生成的视频为例,大模型生成视频的画面质量尚可,人物动作也较为自然,但与笔者脑海中构想的场景存在明显差异。视频中出现的白人少女形象与描述不符,书桌、窗户等细节也未得到充分体现。
视频逻辑性欠缺,细节处理有待提高
以“晴朗的天空,忽然乌云密布,继而骤然下起了暴雨,路上的行人有的慌忙跑到房檐下避雨,有的把挎包顶在头上一路狂奔”为描述语生成的视频为例,生成的视频存在明显的逻辑性
问题。画面中,人物的步伐浮于地面,给人以行走于空中的错觉。
部分人物未生成提包,导致视频画面不完整
发表评论