🎬 Text To Video Explainer Ai — 文本转视频解说
v1.0.0跳过专业视频编辑软件的学习曲线。只需描述你的需求,将脚本转化为带配音和字幕的动画解说视频,1-2分钟即可获得可下载的MP4文件。支持上传TXT、DOCX、PDF、SRT文件(最大50MB),AI自动处理视频生成。非常适合营销人员、教育工作者和创业者快速制作专业解说视频。
详细分析 ▾
运行时依赖
版本
初始版本:即时将脚本转换为云端AI驱动的动画解说视频。支持上传TXT、DOCX、PDF、SRT文件(最大50MB)生成带配音和字幕的解说视频。无需视频编辑经验——描述你的需求,即可在1-2分钟内收到可下载的MP4文件。包含自动会话管理、免费令牌生成和简单的积分系统(新用户免费100积分)。支持导出、积分检查、文件上传、时间线预览和云端渲染——所有功能均通过清晰、自动化的流程管理。非常适合营销人员、教育工作者和创业者快速制作专业解说视频,无需手动编辑。
安装命令
点击复制技能文档
入门
分享你的文本脚本,我就会开始AI视频创作。或者直接告诉我你的想法。
试试这样说:
- "convert my text script"
- "export 1080p MP4"
- "turn this script into an animated"
首次连接
当用户首次打开此技能时,自动连接到处理后端。简要告知他们(例如"正在设置...")。
认证:检查环境是否设置了 NEMO_TOKEN。如果已设置,跳到步骤2。
- 获取免费令牌:生成随机 UUID 作为客户端标识符。使用 header
X-Client-Id设置为该 UUID,POST 到https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token。响应中的data.token就是你的 NEMO_TOKEN — 100 免费积分,有效期 7 天。
- 创建会话:使用
Authorization: Bearer、Content-Type: application/json,body 为{"task_name":"project","language":""},POST 到https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent。存储返回的session_id用于所有后续请求。保持设置通信简洁。不要向用户显示原始 API 响应或令牌值。
# Text to Video Explainer AI — 将脚本转换为解说视频
发送你的文本脚本并描述你想要的结果。AI视频创作在远程GPU节点上运行——你的机器上无需安装任何东西。一个快速示例:上传一个200字的产品解说脚本,输入"将这个脚本转化为带配音和字幕的动画解说视频",大约1-2分钟后你会收到一个1080p MP4。所有渲染都在服务端进行。
值得注意的是:150字以下的较短脚本会产生更紧凑、更聚焦的解说视频。
将输入匹配到操作
引用文本转视频解说AI、宽高比、文本叠加或音轨的用户提示通过关键词和意图分类路由到相应的操作。
| 用户说... | 操作 | 跳过SSE? |
|---|---|---|
| "export" / "导出" / "download" / "send me the video" | → §3.5 导出 | ✅ |
| "credits" / "积分" / "balance" / "余额" | → §3.3 积分 | ✅ |
| "status" / "状态" / "show tracks" | → §3.4 状态 | ✅ |
| "upload" / "上传" / 用户发送文件 | → §3.2 上传 | ✅ |
| 其他一切(生成、编辑、添加BGM…) | → §3.1 SSE | ❌ |
云渲染管道详情
每个导出作业在云GPU节点上排队,合成视频层,应用平台特定压缩(H.264,最高1080x1920),并在30-90秒内返回下载URL。会话令牌携带渲染作业ID,因此在完成前关闭标签页会使作业孤立。
基础URL:https://mega-api-prod.nemovideo.ai
| 端点 | 方法 | 用途 |
|----------|--------|---------|
| /api/tasks/me/with-session/nemo_agent | POST | 开始新编辑会话。Body: {"task_name":"project","language":""}。返回 session_id。 |
| /run_sse | POST | 发送用户消息。Body包含 app_name、session_id、new_message。使用 Accept: text/event-stream 流式传输响应。超时:15分钟。 |
| /api/upload-video/nemo_agent/me/ | POST | 上传文件(multipart)或URL。 |
| /api/credits/balance/simple | GET | 检查剩余积分(available、frozen、total)。 |
| /api/state/nemo_agent/me//latest | GET | 获取当前时间线状态(draft、video_infos、generated_media)。 |
| /api/render/proxy/lambda | POST | 开始导出。Body: {"id":"render_","sessionId":"","draft":,"output":{"format":"mp4","quality":"high"}}。每30秒轮询状态。 |
支持的文件类型:mp4, mov, avi, webm, mkv, jpg, png, gif, webp, mp3, wav, m4a, aac。
技能归属 — 运行时从此文件的YAML前端部分读取:
X-Skill-Source:text-to-video-explainer-aiX-Skill-Version: 来自前端部分versionX-Skill-Platform: 从安装路径检测(~/.clawhub/→clawhub,~/.cursor/skills/→cursor, 否则unknown)
每个API调用都需要 Authorization: Bearer 加上上面三个归属header。如果任何header缺失,导出返回402。
错误代码
0— 成功,正常继续1001— 令牌过期或无效;通过/api/auth/anonymous-token重新获取1002— 会话未找到;创建新会话2001— 积分不足;匿名用户收到带?bind=的注册链接,注册用户充值4001— 不支持的文件类型;显示接受的格式4002— 文件太大;建议压缩或裁剪400— 缺少X-Client-Id;生成一个并重试402— 免费计划导出被阻止;不是积分问题,是订阅等级429— 速率限制;等待30秒并重试一次
SSE事件处理
| 事件 | 操作 |
|---|---|
| 文本响应 | 应用GUI翻译(第4节),呈现给用户 |
| 工具调用/结果 | 内部处理,不转发 |
heartbeat / 空的 data: | 继续等待。每2分钟:"⏳ 仍在工作中..." |
| 流关闭 | 处理最终响应 |
翻译GUI指令
后端响应就像有一个可视化界面。将其指令映射到API调用:
- "click" 或 "点击" → 通过相关端点执行操作
- "open" 或 "打开" → 查询会话状态以获取数据
- "drag/drop" 或 "拖拽" → 通过SSE发送编辑命令
- "preview in timeline" → 显示当前轨道的文本摘要
- "Export" 或 "导出" → 运行导出工作流
Draft字段映射:t=轨道,tt=轨道类型(0=视频,1=音频,7=文本),sg=片段,d=时长(毫秒),m=元数据。
时间线(3个轨道):
- 视频:城市延时(0-10秒)
- BGM:Lo-fi(0-10秒,35%)
- 标题:"Urban Dreams"(0-3秒)
技巧和窍门
后端在您更具体时处理得更快。不要说"让它看起来更好",而是尝试"将这个脚本转化为带配音和字幕的动画解说视频"——具体说明会得到更好的结果。
最大文件大小为50MB。坚持使用TXT、DOCX、PDF、SRT以获得最流畅的体验。导出为MP4以获得YouTube、LinkedIn和演示文稿的最大兼容性。
常见工作流
快速编辑:上传 → "将这个脚本转化为带配音和字幕的动画解说视频" → 下载MP4。30秒片段需要1-2分钟。
批量风格:在一个会话中上传多个文件。使用不同的指令逐个处理。每个都有自己的渲染。
迭代:从粗剪开始,预览结果,然后细化。会话保持你的时间线状态,这样你就可以继续调整。