功能多抢跑Sora！腾讯视频大模型初体验但不强

科技资讯 2024-12-06 10:32:31 浏览次

腾讯混元文生视频大模型初体验：功能繁多但表现不尽如人意 2023 年 3 月 20 日，国内互联网巨头腾讯正式向公众发布了其文生视频大模型——混元。该模型参数量高达 130 亿，是目前开源视频生成类大模型中参数量最大的。作为一款基于人工智能技术的视频生成工具，混元大模型受到了广泛关注。丰富的功能与其他同类产品相比，腾讯混元大模型提供了更加丰富的功能选项，包括：多种视频比例选择：横屏、竖屏、正方形不同视频风格选择：写实、动漫、卡通多种景别选择：特写、中景、全景多种光线条件选择：自然光、逆光、侧光多种镜头运动选择：平移、摇摄、旋转是否启用流畅运镜功能选择是否启用丰富动作功能选择是否使用导演模式选择（该模式下 AI 将自动生成符合逻辑的视频镜头）实际体验为了充分体验腾讯混元大模型的性能，笔者进行了多次不同的视频生成尝试。实际体验并不尽如人意。画面效果良好，但与描述有差距以“夕阳西下，少女坐在靠窗的书桌前，眼神不住地向上飘，嘴角微微上扬，似乎想起了什么值得开心的事”为描述语生成的视频为例，大模型生成视频的画面质量尚可，人物动作也较为自然，但与笔者脑海中构想的场景存在明显差异。视频中出现的白人少女形象与描述不符，书桌、窗户等细节也未得到充分体现。视频逻辑性欠缺，细节处理有待提高以“晴朗的天空，忽然乌云密布，继而骤然下起了暴雨，路上的行人有的慌忙跑到房檐下避雨，有的把挎包顶在头上一路狂奔”为描述语生成的视频为例，生成的视频存在明显的逻辑性问题。画面中，人物的步伐浮于地面，给人以行走于空中的错觉。部分人物未生成提包，导致视频画面不完整