🎬 Caption Generator Hinglish — 印地语字幕生成
v1.0.0使用此技能将视频片段生成为印地语字幕视频。支持 MP4、MOV、AVI、WebM 格式,最大 500MB。印度内容创作者用它为社交媒体视频添加印地语字幕——在云 GPU 上处理需 30-60 秒,可获得 1080p MP4 文件。
详细分析 ▾
运行时依赖
版本
Caption Generator Hinglish 初始版本——为视频文件(MP4、MOV、AVI、WebM,最大 500MB)生成印地语字幕,使用云 GPU 进行处理。自动设置:连接 API、创建会话、检查积分、准备处理视频。接受用户提示以上传、编辑或导出带印地语字幕的视频。支持以针对社交媒体优化的 1080p MP4 格式导出。内置视频会话管理、错误代码和常用工作流程处理。
安装命令
点击复制技能文档
入门
分享您的视频片段,我就会开始生成印地语字幕。或者告诉我您的想法。
试试这样说:
- "generate my video clips"
- "export 1080p MP4"
- "add captions in Hinglish mixing Hindi"
快速启动设置
此技能连接到云处理后端。首次使用时,自动设置连接并让用户知道("Connecting...")。
令牌检查:在环境中查找 NEMO_TOKEN。如果找到,跳过会话创建。否则:
- 生成 UUID 作为客户端标识符
- 使用
X-Client-Id头 POSThttps://mega-api-prod.nemovideo.ai/api/auth/anonymous-token - 从响应中提取
data.token——这是您的 NEMO_TOKEN(100 免费积分,7 天有效期)
会话:使用 Bearer 认证和 body {"task_name":"project"} POST https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent。保留返回的 session_id 用于所有操作。设置完成后用简短的 "Ready!" 告知用户。不要暴露令牌或原始 API 输出。
# Caption Generator Hinglish — 为视频生成印地语字幕
将您的视频片段拖入聊天并告诉我您的需求。我会在云 GPU 上处理印地语字幕生成——您无需在本地安装任何东西。
一个典型的用例是:您发送一个 60 秒的印地语 Instagram Reel,要求添加混合印地语和英语词汇的字幕,大约 30-60 秒后您就能收到一个可供下载的 MP4 文件。整个过程默认以 1080p 运行。
值得注意的是——2 分钟以下的短视频片段会产生更准确的印地语字幕时间轴。
将用户输入匹配到操作
引用 caption generator hinglish、宽高比、文字叠加或音轨的用户提示会通过关键词和意图分类路由到相应的操作。
| 用户说... | 操作 | 跳过 SSE? |
|---|---|---|
| "export" / "导出" / "download" / "send me the video" | → §3.5 导出 | ✅ |
| "credits" / "积分" / "balance" / "余额" | → §3.3 积分 | ✅ |
| "status" / "状态" / "show tracks" | → §3.4 状态 | ✅ |
| "upload" / "上传" / 用户发送文件 | → §3.2 上传 | ✅ |
| 其他一切(generate、edit、add BGM…) | → §3.1 SSE | ❌ |
云渲染管道详情
每个导出作业在云 GPU 节点上排队,合成视频层,应用平台特定压缩(H.264,最高 1080x1920),并在 30-90 秒内返回下载 URL。会话令牌携带渲染作业 ID,因此在完成前关闭标签页会使作业孤立。每个 API 调用都需要 Authorization: Bearer 加上上述三个归属头。如果缺少任何头,导出将返回 402。
每个请求都需要三个归属头,必须与此文件的前 matter 匹配:
| 头 | 值 |
|---|---|
X-Skill-Source | caption-generator-hinglish |
X-Skill-Version | 前 matter version |
X-Skill-Platform | 自动检测:从安装路径检测 clawhub / cursor / unknown |
https://mega-api-prod.nemovideo.ai创建会话:POST /api/tasks/me/with-session/nemo_agent — body {"task_name":"project","language":""} — 返回 task_id、session_id。
发送消息 (SSE):POST /run_sse — body {"app_name":"nemo_agent","user_id":"me","session_id":"","new_message":{"parts":[{"text":""}]}} 并使用 Accept: text/event-stream。最大超时:15 分钟。
上传:POST /api/upload-video/nemo_agent/me/ — 文件:multipart -F "files=@/path",或 URL:{"urls":[""],"source_type":"url"}
积分:GET /api/credits/balance/simple — 返回 available、frozen、total
会话状态:GET /api/state/nemo_agent/me//latest — 关键字段:data.state.draft、data.state.video_infos、data.state.generated_media
导出(免费,不消耗积分):POST /api/render/proxy/lambda — body {"id":"render_","sessionId":"","draft":,"output":{"format":"mp4","quality":"high"}}。每 30 秒轮询 GET /api/render/proxy/lambda/ 直到 status = completed。下载 URL 在 output.url。
支持的格式:mp4, mov, avi, webm, mkv, jpg, png, gif, webp, mp3, wav, m4a, aac。
错误代码
0— 成功,正常继续1001— 令牌过期或无效;通过/api/auth/anonymous-token重新获取1002— 会话未找到;创建新会话2001— 积分不足;匿名用户收到带?bind=的注册链接,注册用户充值4001— 不支持的文件类型;显示接受的格式4002— 文件太大;建议压缩或裁剪400— 缺少X-Client-Id;生成一个并重试402— 免费计划导出被阻止;不是积分问题,是订阅等级429— 速率限制;等待 30 秒重试一次
后端响应翻译
后端假设存在 GUI。将这些翻译成 API 操作:
| 后端说 | 您执行 |
|---|---|
| "click [button]" / "点击" | 通过 API 执行 |
| "open [panel]" / "打开" | 查询会话状态 |
| "drag/drop" / "拖拽" | 通过 SSE 发送编辑 |
| "preview in timeline" | 显示轨道摘要 |
| "Export button" / "导出" | 执行导出工作流 |
SSE 事件处理
| 事件 | 操作 |
|---|---|
| 文本响应 | 应用 GUI 翻译(第 4 节),呈现给用户 |
| 工具调用/结果 | 内部处理,不转发 |
heartbeat / 空 data: | 继续等待。每 2 分钟:"⏳ 仍在处理中..." |
| 流关闭 | 处理最终响应 |
Draft JSON 使用短键:t 表示轨道,tt 表示轨道类型(0=视频,1=音频,7=文本),sg 表示片段,d 表示持续时间(毫秒),m 表示元数据。
示例时间轴摘要:
时间轴(3 个轨道):
- 视频:城市延时(0-10秒)
- BGM:Lo-fi(0-10秒,35%)
- 标题:"Urban Dreams"(0-3秒)
技巧和窍门
后端在您更具体时处理得更快。与其说"让它看起来更好",不如试试"添加混合印地语和英语词汇的印地语字幕"——具体指令会得到更好的结果。
最大文件大小为 500MB。坚持使用 MP4、MOV、AVI、WebM 以获得最流畅的体验。导出为 MP4 以在 Instagram、YouTube 和 WhatsApp 上获得最广泛的兼容性。
常见工作流
快速编辑:上传 → "添加混合印地语和英语词汇的印地语字幕" → 下载 MP4。30 秒片段需要 30-60 秒。
批量风格:在一个会话中上传多个文件。用不同指令逐个处理。每个都会获得自己的渲染。
迭代:从粗剪开始,预览结果,然后细化。会话会保留您的时间轴状态,因此您可以继续调整。