AI Short Film Studio — AI 短片工作室

v1.0.0

低成本AI短剧/短片全流程制作技能。使用速创API（wuyinkeji.com）的Grok Imagine生成视频镜头、TTS生成配音，配合FFmpeg+Python本地合成，WorkBuddy编排全流程。适用于用户需要从零制作AI短片、短视频、短剧EP、预告片等场景。包含完整的分镜脚本创作、视频生成、配音生成等。

0· 0·0 当前·0 累计

by @hitjcl (寒武纪智能Cambrian Intelligence)

数据与API AI模型访问

使用场景：使用AI Short Film Studio — AI 短片工作室进行数据与API使用AI Short Film Studio — AI 短片工作室

下载技能包

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install ai-short-film-studio

镜像加速npx clawhub@latest install ai-short-film-studio --registry https://cn.longxiaskill.com 镜像可用

本土化适配说明

AI Short Film Studio — AI 短片工作室安装说明：安装命令：["openclaw skills install ai-short-film-studio"] 支持国内镜像加速，使用 --registry https://cn.longxiaskill.com 参数可加速下载

需要定制？告诉我你的需求 →

技能文档

AI 短片工作室 - 低成本 AI 短剧制作工坊概述本 Skill 提供一套完整的低成本 AI 短剧制作流程，从脚本创作到最终成片，总成本仅需 ¥30-50/部（128 秒短片）。核心思路：用 AI API 生成素材 → 本地 FFmpeg 合成 → WorkBuddy 编排调度。

适用场景：用户说"帮我做一个短片/短剧/预告片" 用户说"把这段文案做成视频" 用户说"生成一个 XX 题材的短视频" 用户需要从零到一完成 AI 视频制作

核心成本优势：视频生成：Grok Imagine ¥0.05/秒（速创 API）配音生成：TTS ¥0.0006/字（速创 API）合成剪辑：本地 FFmpeg 免费 AI 编排：WorkBuddy Lite 版约 ¥0.0022/轮

制作流程总览 Step 1: 脚本创作 ├── 确定主题/时长/风格 ├── 编写分镜脚本（镜头×台词×角色） └── 输出：分镜表 + TTS 文本清单

Step 2: 视频镜头生成 ├── 调用速创 API Grok Imagine ├── 25 个镜头批量异步生成 └── 输出：ep1_shots/.mp4

Step 3: TTS 配音生成 ├── 调用速创 API audio_tts ├── 多角色多音色 └── 输出：ep1_tts/.mp3

Step 4: 音频驱动剪辑 ├── 逐段按 TTS 时长裁剪/循环镜头 ├── 短镜头自动 stream_loop 填充 └── 输出：分段 seg_*.mp4

Step 5: 字幕生成 ├── Python Pillow 生成透明 PNG 字幕 ├── FFmpeg overlay 叠加（因 FFmpeg 8.x 无 drawtext） └── 输出：带字幕的分段视频

Step 6: 最终合成 ├── concat 拼接 25 段视频 ├── concat 拼接 25 段音频 ├── 音视频合并 └── 输出：最终成片.mp4

Step 7: 素材导出 ├── 结构化桌面文件夹 ├── 矩阵表 + JSON └── 成本核算

详细步骤 Step 1: 脚本创作输入：用户需求（主题、风格、时长、参考素材）输出：分镜脚本文档 + TTS 台词清单工作流程：与用户确认主题方向（科幻/悬疑/科普/剧情等）编写分镜脚本，包含：镜头编号、画面描述、时长配音台词、角色分配、音色选择音效说明输出 TTS 台词清单（25 段以内，每段 2-20 字最佳）

角色音色分配表：角色类型推荐音色 ID 说明旁白/叙述者 male-qn-jingying 精英青年男声，通用男主角 male-qn-jingying 精英青年男声霸道/硬汉 male-qn-badao 霸道男声反派/俊朗 junlang_nanyou 俊朗男声成熟女性 female-chengshu 成熟女声少女 female-shaonv 少女音研究员/学生 male-qn-daxuesheng 大学生男声醇厚长辈 male-chunhou 醇厚男声

Step 2: 视频镜头生成（速创 API Grok Imagine） API 平台：速创 API https://api.wuyinkeji.com 模型：Grok Imagine（xAI Aurora 引擎）价格：¥0.05/秒（按生成视频时长计费，不足 1 秒按 1 秒）注册链接：https://api.wuyinkeji.com/user/register?cps=UXPjoCgN API 调用方式：鉴权：Authorization Header 传 API Key（不带 Bearer 前缀）接口：POST /api/async/video/grok_imagine 参数格式：扁平 JSON 结果查询：GET /api/async/detail?id=xxx（轮询直到 status=2）批量生成策略： 25 个镜头同时提交（用 ThreadPoolExecutor）每个镜头约 10 秒，生成耗时约 30-60 秒失败自动重试（平均重试 3 次）注意：Sora2 接口已不可用（持续 400 错误），全部使用 Grok Imagine Prompt 编写要点：英文 Prompt 效果更稳定包含：场景描述、光线、构图、镜头运动示例："Deep space, Milky Way galaxy slowly rotating, cinematic wide shot, photorealistic, 4K quality"

Step 3: TTS 配音生成（速创 API audio_tts） API 接口：POST /api/async/audio_tts 价格：¥0.0006/字参数格式（重要）：扁平 JSON，不要嵌套 { "text": "台词内容", "voice_id": "male-qn-jingying", "speed": 1.0 } 注意事项（踩坑经验）：不要传 format 参数（会报 500"存在未绑定的参数"）不要嵌套成 {"model":"audio_tts","params":{...}} 状态码判断：status=2 完成，status=0/1 处理中部分任务会卡住（status 一直=0），重试可换 IP 节点返回 tar 包，需解压获取 mp3

Step 4: 音频驱动剪辑（核心节奏控制）核心理念：画面长度由语音旁白决定，而非固定时长。先录制/生成 TTS 配音，再让每段视频精确匹配对应配音的时长。这样保证音画天然同步，且节奏由配音自然驱动。 4.1 节奏控制逻辑每段（镜头, TTS）的处理流程：

获取 TTS 音频实际时长 tts_dur（用 ffprobe 精确到毫秒）
获取源视频时长 src_dur
对比决策：

├── src_dur >= tts_dur + 0.5s → 直接裁剪到 tts_dur（视频多出的部分舍弃） ├── src_dur ≈ tts_dur（差<0.5s）→ 直接裁剪，不做额外处理 └── src_dur < tts_dur → stream_loop 循环播放填满 tts_dur

输出：seg_NNN.mp4（时长=tts_dur，精确匹配配音）

为什么用"音频驱动"而非"视频驱动"：传统剪辑：先定视频长度，再往里塞配音 → 配音节奏被画面绑架音频驱动：先定配音节奏，再裁剪画面适配 → 叙事节奏由台词自然决定效果：观众听到的每句话都有对应的画面时长，不会出现"话没说完画面就切了" 4.2 短镜头循环填充（stream_loop）当源视频时长不够时，用 FFmpeg 的 stream_loop 让视频循环播放： # 循环播放直到填满 tts_dur /opt/homebrew/bin/ffmpeg -y -stream_loop -1 -i shot.mp4 -t {tts_dur} -c:v libx264 -preset fast seg.mp4 实战经验（三体 EP1）： 25 个镜头中有 3 个需要循环填充最大修复：pan_han_02 火鸡演讲（源视频 10s → TTS 需要 19s，循环补 9s）循环填充的视觉重复感在 1-2 次循环内不明显，超过 3 次建议换镜头 4.3 逐段精确裁剪避免累积漂移 # 关键：每段独立裁剪，不整体缩放 cumulative = 0.0 for i, (tts_file, shot_file) in enumerate(segments): tts_dur = get_duration(tts_file) # ffprobe 获取 # 精确裁剪到 tts_dur，不依赖前一段的结束时间 trim_video(shot_file, tts_dur, f"seg_{i:03d}.mp4") cumulative += tts_dur # 最终验证：所有 seg 时长之和 ≈

运行时依赖

安装命令

本土化适配说明

技能文档

相关技能推荐