运行时依赖
安装命令
点击复制技能文档
开始 分享您的音频文件,我将开始创建歌词同步视频。或者,您可以告诉我您的想法。尝试说:“创建我的音频文件”、“导出 1080p MP4”、“将歌词同步到节奏” 首次连接 当用户首次打开此技能时,自动连接到处理后端。简要地让他们知道(例如“设置中...”)。 身份验证: 检查环境中是否设置了 NEMO_TOKEN。如果设置了,则跳转到步骤 2。 获取免费令牌: 生成一个随机的 UUID 作为客户端标识符。 将 POST 请求发送到 https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token,头部设置为 X-Client-Id 为该 UUID。 响应数据中的 token 即为您的 NEMO_TOKEN — 100 个免费积分,有效期 7 天。 创建会话: 将 POST 请求发送到 https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent,头部设置为 Authorization: Bearer ,Content-Type: application/json,正文为 {"task_name":"project","language":"" }。 存储返回的 session_id 以供后续请求使用。 保持设置通信简洁。不要向用户显示原始 API 响应或令牌值。 卡拉OK 视频制作 — 同步歌词和导出视频 将音频文件放入聊天中,并告诉我您需要什么。我将处理歌词同步视频创建,使用云 GPU — 您无需在本地安装任何内容。 典型用法:您发送一个 3 分钟的 MP3 歌曲文件,要求同步歌词到节奏并突出显示每个单词,当它播放时,大约 1-2 分钟后,您将得到一个可下载的 MP4 文件。 整个过程默认以 1080p 运行。 值得注意的一件事是 — 上传没有背景噪音的干净音频文件可以获得更准确的歌词时序。 输入与操作的匹配 用户提示引用卡拉OK 视频制作、长宽比、文本叠加或音频轨道,通过关键字和意图分类路由到相应的操作。 用户说... 操作 跳过 SSE? “导出” / “导出” / “下载” / “发送给我视频” → §3.5 导出 “积分” / “积分” / “余额” / “余额” → §3.3 积分 “状态” / “状态” / “显示轨道” → §3.4 状态 “上传” / “上传” / 用户发送文件 → §3.2 上传 其他所有内容(生成、编辑、添加 BGM...)→ §3.1 SSE 云渲染管道详细信息 每个导出作业都在云 GPU 节点上排队,合成视频层,应用平台特定的压缩(H.264,最高 1080x1920),并在 30-90 秒内返回下载 URL。 会话令牌携带渲染作业 ID,因此在完成之前关闭选项卡会使作业成为孤儿。 所有调用都发送到 https://mega-api-prod.nemovideo.ai。 主要端点: 会话 — POST /api/tasks/me/with-session/nemo_agent,带有 {"task_name":"project","language":"" }。 给出一个 session_id。 聊天(SSE)— POST /run_sse,带有 session_id 和您的消息在 new_message.parts[0].text 中。 设置 Accept: text/event-stream。 最长 15 分钟。 上传 — POST /api/upload-video/nemo_agent/me/ — 多部分文件或带有 URL 的 JSON。 积分 — GET /api/credits/balance/simple — 返回可用、冻结、总积分。 状态 — GET /api/state/nemo_agent/me//latest — 当前草稿和媒体信息。 导出 — POST /api/render/proxy/lambda,带有渲染 ID 和草稿 JSON。 每 30 秒轮询 GET /api/render/proxy/lambda/ 以获取完成状态和下载 URL。 格式:mp4、mov、avi、webm、mkv、jpg、png、gif、webp、mp3、wav、m4a、aac。 技能归属 — 在运行时从此文件的 YAML 前置内容中读取: X-Skill-Source: karaoke-video-maker X-Skill-Version: 从前置内容版本中获取 X-Skill-Platform: 从安装路径检测 (~/.clawhub/ → clawhub,~/.cursor/skills/ → cursor,否则为未知) 在每个请求中包含 Authorization: Bearer 和所有归属头部 — 省略它们会在导出时触发 402。 草稿 JSON 使用短键: t 为轨道,tt 为轨道类型(0=视频,1=音频,7=文本),sg 为段,d 为持续时间(毫秒),m 为元数据。 时间线摘要示例: 时间线(3 个轨道):
- 视频:城市延时(0-10 秒)
- BGM:Lo-fi(0-10 秒,35%)
- 标题:“城市梦”(0-3 秒)