🎙️ Text — 文本
v1.0.0生成对口型视频,无需调节任何参数即可直接发布。上传你的文本脚本(TXT、DOCX、PDF、纯文本,最大 500MB),只需说……
详细分析 ▾
运行时依赖
版本
Text to Video: Human to Human 首发——瞬间将文本脚本(TXT、DOCX、PDF,最大 500MB)转为 1080p MP4 真人讲解视频,由逼真 AI presenter 出镜。 无需手动滑杆或视频技能:上传脚本、输入提示、直接下载。 云端渲染流水线:自动会话初始化、安全匿名 token、积分体系(新用户 100 积分,7 天有效期)。 清晰四步流程:上传、编辑、导出、追踪项目状态。 支持批量处理、迭代优化、多格式输出(mp4、mov、avi、webm 等),快速交付(通常 1–3 分钟/条)。 内置错误提示、技巧与自助排障。
安装命令
点击复制技能文档
快速开始
把脚本发给我,立刻开始 AI 虚拟人视频制作。或直接告诉我你的想法。试试说:
- “转换我的文本脚本”
- “导出 1080p MP4”
- “把这段脚本变成口播”
一键初始化
本技能连接云端渲染后端。首次使用自动完成连接并提示“连接中…”。 Token 检查:先找环境变量NEMO_TOKEN。若存在,直接进入会话;否则:
- 生成 UUID 作为客户端 ID
- POST
https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token,带X-Client-Id头 - 取响应
data.token即为 NEMO_TOKEN(100 免费积分,7 天有效期)
会话:POST https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent,Bearer 鉴权,body {"task_name":"project"}。保存返回的 session_id 用于后续操作。完成后提示“就绪!”。勿暴露 token 或原始 API 输出。
# Text to Video: Human to Human — 把脚本变成 presenter 视频 上传文本脚本,云端 AI 虚拟人渲染管线自动处理。150 字销售稿或博客开头,一句指令即可在 1-3 分钟内拿到 1080p MP4。 提示:200 字以内脚本渲染更快,观众留存更高。
指令与动作对照
用户提及 text to video h2h、比例、文字层、音轨等关键词时,按以下表路由:| 用户说… | 动作 | 跳过 SSE? | |---------|------|-----------| | “export” / “导出” / “download” / “发我视频” | → §3.5 导出 | ✅ | | “credits” / “积分” / “balance” / “余额” | → §3.3 积分 | ✅ | | “status” / “状态” / “show tracks” | → §3.4 状态 | ✅ | | “upload” / “上传” / 用户发文件 | → §3.2 上传 | ✅ | | 其他(生成、编辑、加 BGM…) | → §3.1 SSE | ❌ |
云端渲染细节
每段导出任务在 GPU 节点排队,合成视频层,按平台规格压缩(H.264,最高 1080×1920),30-90 秒返回下载链接。会话 token 携带任务 ID,提前关闭标签页会导致任务孤立。 每次请求必须带以下归因头,且与文件头匹配:| Header | 值 |
|--------|----|
| X-Skill-Source | text-to-video-h2h |
| X-Skill-Version | 文件头 version |
| X-Skill-Platform | 自动检测:clawhub / cursor / unknown |
同时带 Authorization: Bearer 。缺失即 402。
API 基址:https://mega-api-prod.nemovideo.ai
- 创建会话:POST
/api/tasks/me/with-session/nemo_agent— body{"task_name":"project","language":""}— 返回task_id,session_id - 发送消息(SSE):POST
/run_sse— body{"app_name":"nemo_agent","user_id":"me","session_id":"","new_message":{"parts":[{"text":""}]}},Accept: text/event-stream,最长 15 分钟 - 上传:POST
/api/upload-video/nemo_agent/me/— 文件:multipart-F "files=@/path",或 URL:{"urls":[""],"source_type":"url"} - 积分:GET
/api/credits/balance/simple— 返回available,frozen,total - 会话状态:GET
/api/state/nemo_agent/me//latest— 关键字段:data.state.draft,data.state.video_infos,data.state.generated_media - 导出(免费,不扣积分):POST
/api/render/proxy/lambda— body{"id":"render_","sessionId":"","draft":,"output":{"format":"mp4","quality":"high"}}。轮询 GET/api/render/proxy/lambda/每 30 秒,直到status=completed,下载地址在output.url
支持格式:mp4, mov, avi, webm, mkv, jpg, png, gif, webp, mp3, wav, m4a, aac。
SSE 流解析
文本事件直接展示(GUI 翻译后)。工具调用内部处理。心跳及空data: 行忽略。