视频生成5B模型CogVideo开源了

视频生成5B模型CogVideo开源了！大幅度优化了模型的推理性能，推理门槛大幅降低。#ai##chatgpt#

基于论文：CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer（带有专家 Transformer 的文本到视频扩散模型）

摘要：
我们介绍了 CogVideoX，这是一种大规模扩散Transformer模型，旨在根据文本提示生成视频。

为了有效地对视频数据进行建模，我们建议利用 3D 变分自动编码器 (VAE) 在空间和时间维度上压缩视频。为了改善文本视频对齐，我们提出了一种具有专家自适应 LayerNorm 的专家Transformer，以促进两种模态之间的深度融合。通过采用渐进式训练技术，CogVideoX 擅长制作具有显著运动特征的连贯、长时间视频。

此外，我们开发了一种有效的文本视频数据处理管道，其中包括各种数据预处理策略和视频字幕方法。它显著有助于提高 CogVideoX 的性能，提高生成质量和语义对齐。

结果表明，CogVideoX 在多个机器指标和人工评估中都表现出最先进的性能。3D Causal VAE 和 CogVideoX 的模型权重均可在git项目上公开获取。

项目：github.com/THUDM/CogVideo/blob/main/README_zh.md
论文：arxiv.org/abs/2408.06072
Demo：huggingface.co/spaces/THUDM/CogVideoX-5B-Space

Post Views: 70

视频生成5B模型CogVideo开源了

By YXI.AI

Leave a Reply Cancel reply

You Missed

告别单一语音！Kokoro CLI语音合成：多语言文档直读，声音还能自由混搭

告别RAM爆炸！Memvid把百万文本块塞进视频，检索快过眨眼

终结AI工具记忆断层！OpenMemory实现跨平台无缝协作与90%Token节省

OpenSPG进化论：KAG如何定义下一代逻辑驱动型检索系统

By YXI.AI

Related Post

Leave a Reply Cancel reply

You Missed