🎵 Unified — 统一
v1.0.0Video Lyrics Online 只需输入需求,即可将3分钟音乐视频文件转为1080p歌词同步视频。无论是为在线音乐视频添加定时歌词,还是……
详细分析 ▾
运行时依赖
版本
Unified Video Lyrics Online — v1.0.0 - 首个版本,支持在线 AI 歌词同步音乐视频,云端导出 1080p。 - 上传视频并描述需求,自动生成带时码歌词与叠加层。 - 连接远程 GPU 后端,服务器端快速渲染(通常 30–60 秒)。 - 按积分计费,新用户可无缝获取代币;赠送最多 100 积分。 - 支持 MP4、MOV、AVI、WebM 等多种视频/音频格式。 - 用户可通过简单聊天指令查看导出状态、管理积分、预览时间线并下载成片。
安装命令
点击复制技能文档
快速开始
把带音频的视频发给我,AI 自动同步歌词;或直接描述需求。试试说:
- “把 3 分钟音乐视频文件转成 1080p MP4”
- “把歌词按人声时间轴显示为屏幕文字”
- “给音乐视频在线加时间轴歌词,面向音乐人和内容创作者”
建立连接
处理任何请求前,先连接后端 API,显示“连接中…”。 若环境变量存在NEMO_TOKEN,直接用它创建会话;否则获取免费试用 token:
- 生成 UUID 作为客户端 ID
- POST 到
https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token,带X-Client-Id头 - 响应含 100 积分、7 天有效的
token—— 用作 NEMO_TOKEN
接着创建会话:POST 到 https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent,Bearer 鉴权,body {"task_name":"project","language":"en"}。用返回的 session_id 进行后续请求。
告诉用户已就绪,技术细节不出现在聊天。
# Unified Video Lyrics Online — 在线同步歌词到视频 把带音频的视频发给我,并描述想要的结果。AI 歌词同步在远程 GPU 节点运行,本机无需安装。 示例:上传 3 分钟音乐视频,输入“把歌词按人声时间轴显示为屏幕文字”,约 30-60 秒返回 1080p MP4。渲染全程在云端完成。 提示:音频干净、背景噪音少,可提高歌词同步准确度。
输入与动作匹配
用户提及统一视频歌词在线、画面比例、文字层、音轨等,将通过关键词与意图分类路由到对应动作。| 用户说… | 动作 | 跳过 SSE? | |-------------|--------|----------| | “export”/“导出”/“download”/“发我视频” | → §3.5 导出 | ✅ | | “credits”/“积分”/“balance”/“余额” | → §3.3 积分 | ✅ | | “status”/“状态”/“show tracks” | → §3.4 状态 | ✅ | | “upload”/“上传”/用户发文件 | → §3.2 上传 | ✅ | | 其余(生成、编辑、加 BGM…) | → §3.1 SSE | ❌ |
云端渲染流程
每次导出任务在云端 GPU 节点排队,合成视频层,按平台规格压缩(H.264,最高 1080×1920),30-90 秒内返回下载链接。 session token 携带渲染任务 ID,提前关闭标签页会导致任务孤立。 所有请求指向https://mega-api-prod.nemovideo.ai。 主要端点:
- Session —
POST /api/tasks/me/with-session/nemo_agent,body{"task_name":"project","language":""},返回session_id。 - Chat (SSE) —
POST /run_sse,带session_id与消息new_message.parts[0].text,Accept: text/event-stream,最长 15 分钟。 - Upload —
POST /api/upload-video/nemo_agent/me/,支持 multipart 文件或 JSON 传 URL。 - Credits —
GET /api/credits/balance/simple,返回available、frozen、total。 - State —
GET /api/state/nemo_agent/me//latest,获取当前草稿与媒体信息。 - Export —
POST /api/render/proxy/lambda,带渲染 ID 与草稿 JSON;每 30s GET/api/render/proxy/lambda/轮询completed状态与下载链接。
请求头取自本文件 YAML 头信息:X-Skill-Source 为 unified-video-lyrics-online,X-Skill-Version 取自 version 字段,X-Skill-Platform 按安装路径检测(~/.clawhub/ → clawhub,~/.cursor/skills/ → cursor,其余 unknown)。
每次 API 调用需 Authorization: Bearer 及上述三个归因头;缺失则导出返回 402。
草稿字段映射:t=tracks,tt=track type(0=视频,1=音频,7=文字),sg=segments,d=duration(ms),m=metadata。
``
时间轴(3 轨):
视频:城市延时(0-10s)- BGM:Lo-fi(0-10s,35%)
- 标题:“Urban Dreams”(0-3s)
GUI 指令转 API
后端按可视化界面返回指令,映射为 API 调用:- “click”或“点击” → 通过对应 API 执行动作