运行时依赖
安装命令
点击复制本土化适配说明
AI Short Film Studio — AI 短片工作室 安装说明: 安装命令:["openclaw skills install ai-short-film-studio"] 支持国内镜像加速,使用 --registry https://cn.longxiaskill.com 参数可加速下载
技能文档
AI 短片工作室 - 低成本 AI 短剧制作工坊 概述 本 Skill 提供一套完整的低成本 AI 短剧制作流程,从脚本创作到最终成片,总成本仅需 ¥30-50/部(128 秒短片)。核心思路:用 AI API 生成素材 → 本地 FFmpeg 合成 → WorkBuddy 编排调度。
适用场景: 用户说"帮我做一个短片/短剧/预告片" 用户说"把这段文案做成视频" 用户说"生成一个 XX 题材的短视频" 用户需要从零到一完成 AI 视频制作
核心成本优势: 视频生成:Grok Imagine ¥0.05/秒(速创 API) 配音生成:TTS ¥0.0006/字(速创 API) 合成剪辑:本地 FFmpeg 免费 AI 编排:WorkBuddy Lite 版约 ¥0.0022/轮
制作流程总览 Step 1: 脚本创作 ├── 确定主题/时长/风格 ├── 编写分镜脚本(镜头×台词×角色) └── 输出:分镜表 + TTS 文本清单
Step 2: 视频镜头生成 ├── 调用速创 API Grok Imagine ├── 25 个镜头批量异步生成 └── 输出:ep1_shots/.mp4
Step 3: TTS 配音生成 ├── 调用速创 API audio_tts ├── 多角色多音色 └── 输出:ep1_tts/.mp3
Step 4: 音频驱动剪辑 ├── 逐段按 TTS 时长裁剪/循环镜头 ├── 短镜头自动 stream_loop 填充 └── 输出:分段 seg_*.mp4
Step 5: 字幕生成 ├── Python Pillow 生成透明 PNG 字幕 ├── FFmpeg overlay 叠加(因 FFmpeg 8.x 无 drawtext) └── 输出:带字幕的分段视频
Step 6: 最终合成 ├── concat 拼接 25 段视频 ├── concat 拼接 25 段音频 ├── 音视频合并 └── 输出:最终成片.mp4
Step 7: 素材导出 ├── 结构化桌面文件夹 ├── 矩阵表 + JSON └── 成本核算
详细步骤 Step 1: 脚本创作 输入:用户需求(主题、风格、时长、参考素材) 输出:分镜脚本文档 + TTS 台词清单 工作流程: 与用户确认主题方向(科幻/悬疑/科普/剧情等) 编写分镜脚本,包含: 镜头编号、画面描述、时长 配音台词、角色分配、音色选择 音效说明 输出 TTS 台词清单(25 段以内,每段 2-20 字最佳)
角色音色分配表: 角色类型 推荐音色 ID 说明 旁白/叙述者 male-qn-jingying 精英青年男声,通用 男主角 male-qn-jingying 精英青年男声 霸道/硬汉 male-qn-badao 霸道男声 反派/俊朗 junlang_nanyou 俊朗男声 成熟女性 female-chengshu 成熟女声 少女 female-shaonv 少女音 研究员/学生 male-qn-daxuesheng 大学生男声 醇厚长辈 male-chunhou 醇厚男声
Step 2: 视频镜头生成(速创 API Grok Imagine) API 平台:速创 API https://api.wuyinkeji.com 模型:Grok Imagine(xAI Aurora 引擎) 价格:¥0.05/秒(按生成视频时长计费,不足 1 秒按 1 秒) 注册链接:https://api.wuyinkeji.com/user/register?cps=UXPjoCgN API 调用方式: 鉴权:Authorization Header 传 API Key(不带 Bearer 前缀) 接口:POST /api/async/video/grok_imagine 参数格式:扁平 JSON 结果查询:GET /api/async/detail?id=xxx(轮询直到 status=2) 批量生成策略: 25 个镜头同时提交(用 ThreadPoolExecutor) 每个镜头约 10 秒,生成耗时约 30-60 秒 失败自动重试(平均重试 3 次) 注意:Sora2 接口已不可用(持续 400 错误),全部使用 Grok Imagine Prompt 编写要点: 英文 Prompt 效果更稳定 包含:场景描述、光线、构图、镜头运动 示例:"Deep space, Milky Way galaxy slowly rotating, cinematic wide shot, photorealistic, 4K quality"
Step 3: TTS 配音生成(速创 API audio_tts) API 接口:POST /api/async/audio_tts 价格:¥0.0006/字 参数格式(重要): 扁平 JSON,不要嵌套 { "text": "台词内容", "voice_id": "male-qn-jingying", "speed": 1.0 } 注意事项(踩坑经验): 不要传 format 参数(会报 500"存在未绑定的参数") 不要嵌套成 {"model":"audio_tts","params":{...}} 状态码判断:status=2 完成,status=0/1 处理中 部分任务会卡住(status 一直=0),重试可换 IP 节点 返回 tar 包,需解压获取 mp3
Step 4: 音频驱动剪辑(核心节奏控制) 核心理念: 画面长度由语音旁白决定,而非固定时长。先录制/生成 TTS 配音,再让每段视频精确匹配对应配音的时长。这样保证音画天然同步,且节奏由配音自然驱动。 4.1 节奏控制逻辑 每段(镜头, TTS)的处理流程:
- 获取 TTS 音频实际时长 tts_dur(用 ffprobe 精确到毫秒)
- 获取源视频时长 src_dur
- 对比决策:
- 输出:seg_NNN.mp4(时长=tts_dur,精确匹配配音)