🫡
工具：可灵Kling

2024年6月10日创建

可灵大模型（Kling）是快手开发的一个先进的视频生成大模型，它能够生成高质量、高分辨率的视频内容，支持大幅度运动、长视频生成、模拟物理世界特性、强大的概念组合能力、电影级画面生成以及自由的输出视频宽高比，同时还支持表情肢体全驱动的 “唱跳” 玩法。​

common.docs_name - LarkCCM_Docs_Menu_Image

快手的可灵大模型（Kling）是快手自研的视频生成模型，它具备强大的视频生成能力，能够生成复杂时空运动的视频内容，并且能够适应运动规律。该模型能够生成长达 2 分钟的视频，帧率达到 30fps，同时还能够模拟真实世界的物理特性，生成符合物理规律的视频。​

可灵大模型还能够将用户的想象力转化为具体的画面，创造出虚构真实世界中不会出现的场景。此外，该模型还能够生成 1080p 分辨率的电影级视频，支持不同的视频宽高比输出，满足不同场景的需求。可灵大模型还结合了 3D 人脸和人体重建技术，实现了表情肢体全驱动的技术，用户只需提供一张全身照片，就能体验生动的 “唱跳” 玩法。​

•
视频生成质量: 可灵大模型能够生成高质量的视频内容，包括高分辨率和高帧率的视频。​

•
复杂运动建模: 该模型采用了 3D 时空联合注意力机制，能够更好地建模复杂的时空运动，生成较大幅度运动的视频内容。​

•
长视频生成: 利用高效的训练基础设施和极致的推理优化，可灵大模型能够生成长达 2 分钟的视频。​

•
物理特性模拟: 基于自研模型架构和 Scaling Law，可灵能够模拟真实世界的物理特性，生成符合物理规律的视频。​

•
概念组合能力: 可灵大模型具备强大的文本 - 视频语义理解能力，能够将用户的丰富想象力转化为具体的画面。​

•
电影级画面: 通过自研的 3D VAE，可灵能够生成电影级的 1080p 分辨率视频，展现宏大场景和细腻特写镜头。​

•
视频宽高比自由: 可灵采用了可变分辨率的训练策略，支持多种视频宽高比的输出，适应不同的场景需求。​

•
全驱动 “唱跳” 玩法: 结合 3D 人脸和人体重建技术，实现了表情肢体全驱动的技术，用户可以通过一张全身照片体验 “唱跳” 玩法。​

知识库动态