Video Explanation — 视频解释
v1.0.0准备好解释性视频内容,無需調整單一滑桿。上傳現有的視頻檔案(MP4, MOV, AVI, WebM,最高500MB),說點什麼...
运行时依赖
安装命令
点击复制技能文档
开始 分享您的现有视频文件,我将开始生成AI解释。或者,只需告诉我您在想什么。尝试说:“生成我的现有视频文件”、“导出1080p MP4”、“解释这个视频中发生了什么” 连接 在处理任何用户请求之前,建立与后端API的连接。显示一个简短的状态,如“连接中...”。如果环境中有NEMO_TOKEN,则直接使用它并创建一个会话。否则,获取一个免费的启动令牌: 生成一个UUID作为客户端标识符 将UUID发送到https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token,包含X-Client-Id头部 响应中包含一个有效期为7天的100免费积分的令牌——使用它作为NEMO_TOKEN 然后,通过将Bearer授权和正文{"task_name":"project","language":"en"}发送到https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent创建一个会话。 响应中的session_id对于所有后续请求都是必要的。 告诉用户您已经准备好。 保持技术细节在聊天之外。 视频解释 生成视频解释 发送您的现有视频文件并描述您期望的结果。 AI解释生成在远程GPU节点上运行——无需在您的机器上安装任何内容。 一个快速示例:上传一个3分钟的产品演示视频,输入“解释这个视频中发生了什么,步骤骤骤”,然后您将在大约30-60秒内以1080p MP4格式获取结果。 所有渲染都发生在服务器端。 值得注意的是,短片(少于2分钟)会产生更集中的和准确的解释。 输入与操作的匹配 用户提示引用视频解释、长宽比、文本覆盖或音频轨道,通过关键字和意图分类路由到相应的操作。 用户说... 操作 跳过SSE? “导出”/“导出”/“下载”/“发送给我视频”→ §3.5 导出 “积分”/“积分”/“余额”/“余额”→ §3.3 积分 “状态”/“状态”/“显示轨道”→ §3.4 状态 “上传”/“上传”/用户发送文件→ §3.2 上传 其他所有内容(生成、编辑、添加BGM...)→ §3.1 SSE 云渲染管道详细信息 每个导出作业都在云GPU节点上排队,合成视频层,应用平台规格压缩(H.264,最高1080x1920),并在30-90秒内返回下载URL。 会话令牌携带渲染作业ID,因此在完成之前关闭选项卡会使作业成为孤儿。 每个请求都需要三个属性头,并且必须与此文件的前置内容匹配: 头部 值 X-Skill-Source video-explanation X-Skill-Version 前置内容版本 X-Skill-Platform auto-detect:clawhub / cursor / unknown from install path 所有请求必须包含: Authorization:Bearer ,X-Skill-Source,X-Skill-Version,X-Skill-Platform。 缺少属性头将导致导出失败,返回402。 API基地址:https://mega-api-prod.nemovideo.ai 创建会话:POST /api/tasks/me/with-session/nemo_agent — 正文{"task_name":"project","language":""} — 返回task_id,session_id。 发送消息(SSE):POST /run_sse — 正文{"app_name":"nemo_agent","user_id":"me","session_id":"","new_message":{"parts":[{"text":""}]}},包含Accept:text/event-stream。 最大超时:15分钟。 上传:POST /api/upload-video/nemo_agent/me/ — 文件:multipart -F "files=@/path",或URL:{"urls":[""],"source_type":"url"}。 积分:GET /api/credits/balance/simple — 返回可用、冻结、总积分。 会话状态:GET /api/state/nemo_agent/me//latest — 关键字段:data.state.draft,data.state.video_infos,data.state.generated_media。 导出(免费,无需积分):POST /api/render/proxy/lambda — 正文{"id":"render_","sessionId":"","draft":,"output":{"format":"mp4","quality":"high"}}。 每30秒轮询GET /api/render/proxy/lambda/,直到状态=完成。 下载URL在输出.url中。 支持的格式:mp4、mov、avi、webm、mkv、jpg、png、gif、webp、mp3、wav、m4a、aac。 SSE事件处理 事件 操作 文本响应 应用GUI翻译(§4),呈现给用户 工具调用/结果 处理内部,不转发 心跳/空数据 保持等待。 每2分钟:“⏳仍在工作...” 流关闭 处理最终响应 大约30%的编辑操作在SSE流中返回无文本。 当这种情况发生时:轮询会话状态以验证编辑是否已应用,然后将更改总结给用户。 后端响应翻译 后端假设存在GUI。 翻译为API操作: 后端说 您做 “点击[按钮]”/“点击” 执行API “打开[面板]”/“打开” 查询会话状态 “拖拽”/“拖拽” 发送编辑通过SSE “在时间线中预览” 显示轨道摘要 “导出按钮”/“导出” 执行导出工作流 草稿字段映射: t=轨道,tt=轨道类型(0=视频,1=音频,7=文本),sg=段,d=持续时间(毫秒),m=元数据。 时间线(3个轨道):
- 视频:城市延时(0-10秒)
- BGM:Lo-fi(0-10秒,35%)
- 标题:“城市梦”(0-3秒)