💬 Caption Generator Download — AI字幕生成下载

v1.0.0

将YouTube教程视频或本地文件快速转换为带AI字幕的1080p MP4视频。通过描述需求即可自动生成字幕并下载，无需手动编辑，30-60秒即可完成。支持多语言字幕、视频、音频和图片上传，内置会话管理、积分查询和错误处理功能。

0· 22·0 当前·0 累计

by @dsewell-583h0·MIT-0

生产力工具

下载技能包

License

MIT-0

最后更新

2026/4/15

安全扫描

VirusTotal

无害

查看报告

OpenClaw

可疑

medium confidence

该技能的行为（将视频上传到云后端并获取/使用NEMO_TOKEN）与其字幕目的相符，但元数据和指令的不一致性以及自动创建令牌的行为令人担忧，在安装前值得审查。

评估建议

安装前请确认您信任外部服务域名（mega-api-prod.nemovideo.ai），并理解您上传的任何视频都将在该第三方后端上处理。请注意该技能可代表您获取匿名令牌（100免费积分，7天有效期）— 请决定是提供您自己的NEMO_TOKEN还是允许匿名颁发。SKILL.md引用了一个本地配置路径（~/.config/nemovideo/），但注册表中未列出该路径；请向发布者询问为何需要该路径。在验证服务的隐私/保留策略和计费/积分影响之前，避免上传敏感或受监管内容（未注册/付费层级可能会阻止导出）。如需更高保障，请向发布者索取主页、隐私政策或源代码，或优先选择已知供应商托管的技能。...

详细分析 ▾

ℹ 用途与能力

声明的主要凭据（NEMO_TOKEN）和运行时指令（上传视频、调用mega-api-prod.nemovideo.ai端点、渲染/导出）与云字幕/编码服务相符。然而，SKILL.md frontmatter引用了一个配置路径（~/.config/nemovideo/），而注册表元数据中未列出，且该技能既声明NEMO_TOKEN为必需，又指示代理在NEMO_TOKEN缺失时自动获取匿名令牌——这是关于预设令牌是否真正必需的内部不一致。

✓ 指令范围

指令狭窄地聚焦于字幕工作流程：启动会话、上传文件、流式传输SSE消息和请求渲染。代理被指示上传用户媒体并包含特定的归属头和 bearer 令牌——这些对于云处理工作流程都是预期的。没有读取无关系统文件、其他凭据或向外泄露数据的指令；然而，代理会将用户提供的媒体和元数据传输到外部域名。

✓ 安装机制

这是一个纯指令型技能，没有安装规范和代码文件——安装风险最低。提供的材料中安装程序不会向磁盘写入任何内容。

⚠ 凭证需求

仅声明NEMO_TOKEN为必需，这与服务成比例。但该技能的指令允许通过API调用自动创建匿名NEMO_TOKEN（100免费积分，7天有效期），这意味着环境变量要求不明确。frontmatter的配置路径（未在注册表元数据中列出）也表明可能访问本地配置位置。用户应注意该技能将在每次API调用时发送Authorization: Bearer <NEMO_TOKEN>（无论是由他们提供还是匿名获取）。

✓ 持久化与权限

always:false且没有安装钩子存在。该技能不请求永久平台存在或修改其他技能设置。

安全有层次，运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

版本

latestv1.0.02026/4/15

字幕生成下载首次发布。- 即时从YouTube片段或上传文件生成并下载AI字幕的1080p MP4视频。- 自动设置并连接到云GPU处理（无需手动导出步骤）。- 支持视频、音频和图片文件上传及多语言字幕。- 用户友好的提示式编辑—描述所需结果，30-60秒内收到可下载文件。- 内置会话管理、积分检查和错误处理，确保工作流程顺畅。

● 无害

安装命令

点击复制

官方npx clawhub@latest install caption-generator-download

镜像加速npx clawhub@latest install caption-generator-download --registry https://cn.longxiaskill.com 镜像可用

需要定制？告诉我你的需求 →

技能文档

快速开始

准备就绪。Drop您的视频文件或描述您想制作的内容。

试试这样说：

"将3分钟YouTube教程视频生成为1080p MP4"
"生成并烧录英文字幕，然后下载带字幕的MP4"
"为内容创作者自动添加可下载字幕"

快速设置

此技能连接到云处理后端。首次使用时，自动设置连接并让用户知道（"连接中..."）。

令牌检查：在环境中查找NEMO_TOKEN。如果找到，跳过会话创建。否则：

生成UUID作为客户端标识符
使用X-Client-Id头POST https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token
从响应中提取data.token——这是您的NEMO_TOKEN（100免费积分，7天有效期）

会话：使用Bearer认证和body {"task_name":"project"} POST https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent。保留返回的session_id用于所有操作。设置完成后用简短的"就绪！"通知用户。不要暴露令牌或原始API输出。

# Caption Generator Download — 生成字幕并下载视频

在聊天中Drop您的视频文件并告诉我您需要什么。我会在云GPU上处理AI字幕生成——您无需在本地安装任何东西。

这是一个典型用例：您发送一个3分钟YouTube教程视频，请求"生成并烧录英文字幕，然后下载带字幕的MP4"，大约30-60秒后您就能收到一个准备下载的MP4文件。

默认情况下整个过程以1080p运行。

值得注意的一点是——2分钟以下的短片段生成字幕更快且准确度更高。

将输入与操作匹配

用户提示涉及字幕生成下载、宽高比、文字叠加或音轨的，通过关键词和意图分类路由到相应的操作。

用户说...	操作	跳过SSE？
"export" / "导出" / "download" / "send me the video"	→ §3.5 导出	✅
"credits" / "积分" / "balance" / "余额"	→ §3.3 积分	✅
"status" / "状态" / "show tracks"	→ §3.4 状态	✅
"upload" / "上传" / 用户发送文件	→ §3.2 上传	✅
其他一切（生成、编辑、添加BGM…）	→ §3.1 SSE	❌

云渲染管道详情

每个导出作业在云GPU节点上排队，合成视频层，应用平台特定压缩（H.264，最高1080x1920），并在30-90秒内返回下载URL。会话令牌携带渲染作业ID，因此在完成前关闭标签页会使作业孤立。

基础URL：https://mega-api-prod.nemovideo.ai

端点	方法	用途
`/api/tasks/me/with-session/nemo_agent`	POST	启动新编辑会话。Body: `{"task_name":"project","language":""}`。返回`session_id`。
`/run_sse`	POST	发送用户消息。Body包含`app_name`、`session_id`、`new_message`。使用`Accept: text/event-stream`流式传输响应。超时：15分钟。
`/api/upload-video/nemo_agent/me/`	POST	上传文件（multipart）或URL。
`/api/credits/balance/simple`	GET	检查剩余积分（`available`、`frozen`、`total`）。
`/api/state/nemo_agent/me//latest`	GET	获取当前时间线状态（`draft`、`video_infos`、`generated_media`）。
`/api/render/proxy/lambda`	POST	启动导出。Body: `{"id":"render_","sessionId":"","draft":,"output":{"format":"mp4","quality":"high"}}`。每30秒轮询状态。

支持的文件类型：mp4, mov, avi, webm, mkv, jpg, png, gif, webp, mp3, wav, m4a, aac。

每个请求需要三个归属头，必须与此文件的frontmatter匹配：

头	值
`X-Skill-Source`	`caption-generator-download`
`X-Skill-Version`	frontmatter `version`
`X-Skill-Platform`	自动检测：安装路径中的`clawhub` / `cursor` / `unknown`

每个API调用都需要Authorization: Bearer 加上上面的三个归属头。如果任何头缺失，导出将返回402。

错误处理

代码	含义	操作
0	成功	继续
1001	令牌错误/过期	通过anonymous-token重新认证（令牌7天后过期）
1002	会话未找到	新会话 §3.0
2001	积分不足	匿名：显示注册URL `?bind=`（需要时从create-session或state响应获取）。已注册："在您的账户中充值积分"
4001	不支持的文件	显示支持的格式
4002	文件太大	建议压缩/裁剪
400	缺少X-Client-Id	生成Client-Id并重试（见§1）
402	免费计划导出被阻止	订阅层级问题，不是积分问题。"注册或升级您的计划以解锁导出。"
429	速率限制（每令牌/客户端/7天）	30秒后重试一次

SSE事件处理

事件	操作
文本响应	应用GUI翻译（§4），呈现给用户
工具调用/结果	内部处理，不转发
`heartbeat` / 空`data:`	继续等待。每2分钟："⏳ 仍在工作中..."
流关闭	处理最终响应

约30%的编辑操作在SSE流中不返回文本。发生这种情况时：轮询会话状态以验证编辑已应用，然后向用户总结更改。

翻译GUI指令

后端响应就像有一个可视化界面一样。将其指令映射到API调用：

"click"或"点击" → 通过相关端点执行操作
"open"或"打开" → 查询会话状态以获取数据
"drag/drop"或"拖拽" → 通过SSE发送编辑命令
"preview in timeline" → 显示当前轨道的文本摘要
"Export"或"导出" → 运行导出工作流程

Draft字段映射：t=轨道，tt=轨道类型（0=视频，1=音频，7=文字），sg=片段，d=时长（毫秒），m=元数据。

时间线（3个轨道）：
视频：城市延时（0-10秒）
BGM：Lo-fi（0-10秒，35%）
标题："Urban Dreams"（0-3秒）

技巧和窍门

后端在您更具体时处理得更快。不要说"让它看起来更好"，而是尝试"生成并烧录英文字幕，然后下载带字幕的MP4"——具体指令会得到更好的结果。

最大文件大小为500MB。坚持使用MP4、MOV、AVI、WebM以获得最流畅的体验。

导出为MP4以获得跨平台和设备的最大兼容性。

常见工作流程

快速编辑：上传 → "生成并烧录英文字幕，然后下载带字幕的MP4" → 下载MP4。30秒片段需要30-60秒。

批量风格：在一个会话中上传多个文件。使用不同指令逐个处理。每个都有自己的渲染。

迭代：从粗剪开始，预览结果，然后细化。会话会保留您的时间线状态，因此您可以继续调整。

License

运行时依赖

版本

安装命令

技能文档

快速开始

快速设置

将输入与操作匹配

云渲染管道详情

错误处理

SSE事件处理

翻译GUI指令

技巧和窍门

常见工作流程

相关技能推荐