运行时依赖
安装命令
点击复制技能文档
开始 分享您的原始视频录像,我将开始使用AI视频编辑。或者,只需告诉我您在想什么。尝试说:“编辑我的原始视频录像”、“导出1080p MP4”、“剪辑静音部分,添加背景” 自动设置 在第一次交互时,在做任何其他事情之前,连接到处理API。显示一个简短的状态,如“设置中...”。 令牌: 如果NEMO_TOKEN环境变量已经设置,请使用它并跳转到会话下。 免费令牌: 生成一个UUID作为客户端标识符,然后将其POST到https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token,头部为X-Client-Id:。响应字段data.token成为您的NEMO_TOKEN(100积分,7天过期)。 会话: POST到https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent,带有Bearer身份验证和正文{"task_name":"project"}。从响应中保存session_id。确认您已连接并准备就绪。不要打印令牌或原始JSON。 Kami Video — 编辑和导出视频片段 该工具获取您的原始视频录像并通过云渲染管道运行AI视频编辑。您上传,描述您想要的内容,然后下载结果。假设您有一个2分钟的未编辑的手机录音,并且想要剪辑静音部分,添加背景音乐,并导出为一个短片段——后端处理它大约需要30-60秒,然后提供一个1080p MP4。 提示:短片段(少于60秒)处理速度明显更快。 匹配输入到操作 用户提示引用kami video、长宽比、文本覆盖或音频轨道通过关键字和意图分类路由到相应的操作。用户说... 操作 跳过SSE? “导出”/“导出”/“下载”/“发送给我视频”→ §3.5导出 “积分”/“积分”/“余额”/“余额”→ §3.3积分 “状态”/“状态”/“显示轨道”→ §3.4状态 “上传”/“上传”/用户发送文件→ §3.2上传 其他内容(生成、编辑、添加BGM...)→ §3.1 SSE 云渲染管道详细信息 每个导出作业在云GPU节点上排队,合成视频层,应用平台规格压缩(H.264,最高1080x1920),并在30-90秒内返回下载URL。会话令牌携带渲染作业ID,因此在完成之前关闭选项卡会使作业成为孤儿。 三个归属头部需要在每个请求中,并且必须与此文件的前置内容匹配: 头部 值 X-Skill-Source kami-video X-Skill-Version 前置内容版本 X-Skill-Platform auto-detect:clawhub / cursor / unknown from install path 每个API调用需要Authorization:Bearer 加上上述三个归属头部。如果任何头部缺失,导出返回402。 API基址:https://mega-api-prod.nemovideo.ai 创建会话:POST /api/tasks/me/with-session/nemo_agent — 正文{"task_name":"project","language":""} — 返回task_id,session_id。 发送消息(SSE):POST /run_sse — 正文{"app_name":"nemo_agent","user_id":"me","session_id":"","new_message":{"parts":[{"text":""}]}},带有Accept:text/event-stream。 最大超时:15分钟。 上传:POST /api/upload-video/nemo_agent/me/ — 文件:multipart -F "files=@/path",或URL:{"urls":[""],"source_type":"url"}。 积分:GET /api/credits/balance/simple — 返回可用、冻结、总计。 会话状态:GET /api/state/nemo_agent/me//latest — 关键字段:data.state.draft,data.state.video_infos,data.state.generated_media。 导出(免费,无需积分):POST /api/render/proxy/lambda — 正文{"id":"render_","sessionId":"","draft":,"output":{"format":"mp4","quality":"high"}}。每30秒轮询GET /api/render/proxy/lambda/,直到状态=完成。下载URL在output.url中。 支持的格式:mp4、mov、avi、webm、mkv、jpg、png、gif、webp、mp3、wav、m4a、aac。 阅读SSE流 文本事件直接传递给用户(在GUI翻译后)。工具调用保持内部。心跳和空数据:行意味着后端仍在工作——每2分钟显示“⏳仍在工作...”。 大约30%的编辑操作在没有任何文本的情况下关闭流。当这种情况发生时,轮询/api/state以确认时间线已更改,然后告诉用户什么已更新。 后端响应翻译 后端假设存在GUI。将这些翻译为API操作: 后端说 您执行 “点击[按钮]”/“点击” 执行通过API “打开[面板]”/“打开” 查询会话状态 “拖拽”/“拖拽” 发送编辑通过SSE “在时间线中预览” 显示轨道摘要 “导出按钮”/“导出” 执行导出工作流 草稿字段映射: t=轨道,tt=轨道类型(0=视频,1=音频,7=文本),sg=段,d=持续时间(ms),m=元数据。 时间线(3个轨道):
- 视频:城市延时(0-10秒)
- BGM:Lo-fi(0-10秒,35%)
- 标题:“城市梦”(0-3秒)