详细分析 ▾
运行时依赖
版本
transcribe-video-to-text-free 初始版本发布 - 支持上传视频文件(MP4、MOV、AVI、WebM,最大 500MB),即刻获得纯文本语音转录。 - 全自动云端语音转写,无需手动输入。 - 处理迅速(短视频 1-2 分钟完成);支持批量上传与迭代编辑。 - 可下载纯文本,或导出带字幕叠加的 1080p MP4。 - 面向学生、记者、内容创作者,快速获取精准文本。 - 免费额度+极简上手,无需本地安装。
安装命令
点击复制技能文档
----------|--------|----------| | “export”/“导出”/“download”/“send me the video” | → §3.5 导出 | ✅ | | “credits”/“积分”/“balance”/“余额” | → §3.3 积分 | ✅ | | “status”/“状态”/“show tracks” | → §3.4 状态 | ✅ | | “upload”/“上传”/用户发文件 | → §3.2 上传 | ✅ | | 其他(生成、编辑、加BGM…) | → §3.1 SSE | ❌ |
云端渲染管线
每个导出任务在云端GPU节点排队,合成视频层,按平台规格压缩(H.264,最大1080×1920),30-90秒内返回下载链接。 会话token携带渲染任务ID,若提前关闭标签页,任务将成孤儿。 所有请求指向https://mega-api-prod.nemovideo.ai。 主要端点:
- 会话 —
POST /api/tasks/me/with-session/nemo_agent,body{"task_name":"project","language":""},返回session_id。 - 聊天(SSE) —
POST /run_sse,带session_id,消息置于new_message.parts[0].text,Header设Accept: text/event-stream,最长15分钟。 - 上传 —
POST /api/upload-video/nemo_agent/me/,支持multipart文件或JSON URL。 - 积分 —
GET /api/credits/balance/simple,返回available、frozen、total。 - 状态 —
GET /api/state/nemo_agent/me//latest,获取当前草稿与媒体信息。 - 导出 —
POST /api/render/proxy/lambda,带渲染ID与草稿JSON;轮询GET /api/render/proxy/lambda/每30秒,待completed状态与下载链接。
每次请求必须带以下三端归因Header,且与文件头信息一致:
| Header | 值 |
|--------|----|
| X-Skill-Source | transcribe-video-to-text-free |
| X-Skill-Version | 前文version |
| X-Skill-Platform | 自动检测:clawhub / cursor / unknown |
所有请求还需:
Authorization: Bearer 、X-Skill-Source、X-Skill-Version、X-Skill-Platform。
缺失归因Header将返回402,导出失败。
草稿JSON使用短键:
t tracks,tt track type(0=video,1=audio,7=text),sg segments,d duration(ms),m metadata。
时间线示例:
``
Timeline (3 tracks):
Video: city timelapse (0-10s)- BGM: Lo