🎬 Text Video Generator — 文字转视频生成器
v1.0.0将文字提示词转换为可直接分享的视频。支持TXT、DOCX、PDF等文本文件,最大500MB。适合营销人员、内容创作者、教育工作者使用。
详细分析 ▾
运行时依赖
版本
初始版本:使用云GPU处理从文字提示和文件生成视频。- 将书面文字(提示词、DOCX、PDF、TXT)转换为可分享的1080p MP4视频。- 支持最大500MB的文件;接受视频、图像和音频等多种格式。- 处理速度快:大多数视频在1-2分钟内即可下载。- 内置获取免费积分的认证流程;自动处理会话和错误管理。- 支持通过聊天命令直接进行编辑、预览、导出和积分查询。
安装命令
点击复制技能文档
入门
发送您的文字提示词,我会处理AI视频创作。或者只需描述您的需求。可以尝试说:
- "将150字的产品描述生成1080p MP4"
- "把这篇博客段落转换成30秒的视频,添加视觉效果和背景音乐"
- "为营销人员、内容创作者、教育工作者从书面内容或脚本生成视频"
首次连接
当用户首次打开此技能时,自动连接到处理后端。简要告知他们(例如"正在设置...")。认证:检查环境变量中是否设置了NEMO_TOKEN。如果已设置,跳过步骤2。
- 获取免费令牌:生成随机UUID作为客户端标识符。向
https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token发送POST请求,头部X-Client-Id设置为该UUID。响应中的data.token是您的NEMO_TOKEN——100免费积分,有效期7天。 - 创建会话:向
https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent发送POST请求,带上Authorization: Bearer、Content-Type: application/json,请求体为{"task_name":"project","language":""}。存储返回的session_id用于所有后续请求。保持设置通信简洁。不要向用户显示原始API响应或令牌值。
# 文字转视频生成器 — 将文字转换为可分享视频
在聊天中输入您的文字提示词,告诉我您需要什么。我会在云GPU上处理AI视频创作——您不需要在本地安装任何东西。一个典型的使用场景是:您发送一段150字的产品描述,要求将其转换成30秒的视频,添加视觉效果和背景音乐,大约1-2分钟后您就可以下载MP4文件了。默认情况下,整个过程以1080p运行。值得一提的是——更短、更清晰的文字会产生更准确的视觉效果——建议每句话表达一个想法。
输入与操作的匹配
引用文字视频生成器、宽高比、文字叠加或音轨的用户提示会通过关键词和意图分类路由到相应的操作。
| 用户说... | 操作 | 跳过SSE? |
|---|---|---|
| "export" / "导出" / "download" / "send me the video" | → §3.5 导出 | ✅ |
| "credits" / "积分" / "balance" / "余额" | → §3.3 积分 | ✅ |
| "status" / "状态" / "show tracks" | → §3.4 状态 | ✅ |
| "upload" / "上传" / 用户发送文件 | → §3.2 上传 | ✅ |
| 其他所有(生成、编辑、添加BGM...) | → §3.1 SSE | ❌ |
云渲染管道详情
每个导出任务在云GPU节点上排队,该节点合成视频层、应用平台特定压缩(H.264,最高1080x1920),并在30-90秒内返回下载URL。会话令牌携带渲染任务ID,因此在完成前关闭标签页会使任务孤立。
基础URL:https://mega-api-prod.nemovideo.ai
| 端点 | 方法 | 用途 |
|----------|--------|---------|
| /api/tasks/me/with-session/nemo_agent | POST | 开始新的编辑会话。请求体:{"task_name":"project","language":""}。返回session_id。 |
| /run_sse | POST | 发送用户消息。请求体包含app_name、session_id、new_message。使用Accept: text/event-stream流式传输响应。超时:15分钟。 |
| /api/upload-video/nemo_agent/me/ | POST | 上传文件(multipart)或URL。 |
| /api/credits/balance/simple | GET | 检查剩余积分(available、frozen、total)。 |
| /api/state/nemo_agent/me//latest | GET | 获取当前时间线状态(draft、video_infos、generated_media)。 |
| /api/render/proxy/lambda | POST | 开始导出。请求体:{"id":"render_","sessionId":"","draft":,"output":{"format":"mp4","quality":"high"}}。每30秒轮询状态。 |
支持的文件类型:mp4, mov, avi, webm, mkv, jpg, png, gif, webp, mp3, wav, m4a, aac。
每个请求必须包含三个归属头部,且必须与此文件的frontmatter匹配:
| 头部 | 值 |
|--------|-------|
| X-Skill-Source | text-video-generator |
| X-Skill-Version | frontmatter version |
| X-Skill-Platform | 自动检测:安装路径中的clawhub / cursor / unknown |
所有请求必须包含:Authorization: Bearer 、X-Skill-Source、X-Skill-Version、X-Skill-Platform。缺少归属头部将导致导出失败并返回402。
错误处理
| 代码 | 含义 | 操作 |
|---|---|---|
| 0 | 成功 | 继续 |
| 1001 | 令牌错误/过期 | 通过anonymous-token重新认证(令牌7天后过期) |
| 1002 | 会话未找到 | 新建会话 §3.0 |
| 2001 | 积分不足 | 匿名用户:显示注册URL带?bind=(需要时从create-session或state响应获取)。已注册用户:"在您的账户中充值积分" |
| 4001 | 不支持的文件 | 显示支持的格式 |
| 4002 | 文件太大 | 建议压缩/裁剪 |
| 400 | 缺少X-Client-Id | 生成Client-Id并重试(见§1) |
| 402 | 免费计划导出被阻止 | 订阅级别问题,不是积分问题。"注册或升级您的计划以解锁导出。" |
| 429 | 速率限制(1令牌/客户端/7天) | 30秒后重试一次 |
SSE事件处理
| 事件 | 操作 |
|---|---|
| 文本响应 | 应用GUI翻译(§4),呈现给用户 |
| 工具调用/结果 | 内部处理,不转发 |
heartbeat / 空data: | 继续等待。每2分钟:"⏳ 仍在处理中..." |
| 流关闭 | 处理最终响应 |
后端响应翻译
后端假设存在GUI。将这些翻译成API操作:
| 后端说 | 您执行 |
|---|---|
| "click [button]" / "点击" | 通过API执行 |
| "open [panel]" / "打开" | 查询会话状态 |
| "drag/drop" / "拖拽" | 通过SSE发送编辑 |
| "preview in timeline" | 显示轨道摘要 |
| "Export button" / "导出" | 执行导出工作流 |
t=轨道,tt=轨道类型(0=视频,1=音频,7=文字),sg=片段,d=时长(毫秒),m=元数据。Timeline (3 tracks):
- Video: city timelapse (0-10s)
- BGM: Lo-fi (0-10s, 35%)
- Title: "Urban Dreams" (0-3s)
常见工作流
快速编辑:上传 → "把这篇博客段落转换成30秒的视频,添加视觉效果和背景音乐" → 下载MP4。30秒片段需要1-2分钟。
批量模式:在一个会话中上传多个文件。用不同的指令逐个处理。每个文件都有自己的渲染任务。
迭代:从粗剪开始,预览结果,然后细化。会话会保持您的时间线状态,因此您可以继续调整。
技巧和窍门
后端在您提供具体指令时处理更快。不要说"让它看起来更好",而是尝试"把这篇博客段落转换成30秒的视频,添加视觉效果和背景音乐"——具体的指令会得到更好的结果。最大文件大小为500MB。坚持使用TXT、DOCX、PDF、复制的文本以获得最流畅的体验。导出为MP4以获得社交平台和演示文稿的最大兼容性。