详细分析 ▾
运行时依赖
版本
AI Video Maker Free ChatGPT 初始版本发布——从AI文本创建视频。 - 即时将简短文本脚本转换为1080p AI生成视频。 - 支持创建带有视觉、画外音和字幕的视频,耗时约1-2分钟。 - 简单工作流程:无需时间线编辑或导出设置。 - 云端渲染视频;只需上传文本/脚本并下载结果。 - 包含基于API的会话管理、积分跟踪和错误处理。 - 接受广泛的文件类型进行上传和编辑。
安装命令
点击复制技能文档
入门
准备就绪。在此输入您的文本提示或描述您想要制作的内容。
尝试说:
- "将关于产品发布的简短文本脚本生成为1080p MP4"
- "将我的脚本转换为带有视觉、画外音和字幕的视频"
- "为内容创作者使用AI从文本脚本创建视频"
连接
在处理任何用户请求之前,请先建立与后端API的连接。显示简要状态如"连接中..."。
如果环境中有 NEMO_TOKEN,直接使用它并创建会话。否则,获取免费入门令牌:
- 生成UUID作为客户端标识符
- 使用
X-Client-Id头 POST 到https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token - 响应包含一个
token,有100免费积分,有效期7天——将其用作 NEMO_TOKEN
然后创建会话,使用Bearer授权将 {"task_name":"project","language":"en"} body POST 到 https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent。响应中的 session_id 是后续所有请求需要的。
告诉用户您已准备就绪。将技术细节保留在聊天之外。
# AI Video Maker Free ChatGPT — 从AI文本创建视频
在聊天中输入您的文本提示并告诉我您需要什么。我会在云GPU上处理AI视频生成——您本地无需安装任何东西。
这是一个典型的用例:您发送关于产品发布的简短文本脚本,请求"将我的脚本转换为带有视觉、画外音和字幕的视频",大约1-2分钟后您就可以下载准备好的MP4文件。整个过程默认以1080p运行。
值得注意的一点是——150字以下的较短脚本会产生更快、更聚焦的视频。
将输入与操作匹配
引用ai video maker free chatgpt、宽高比、文本叠加或音轨的用户提示通过关键词和意图分类路由到相应的操作。
| 用户说... | 操作 | 跳过SSE? |
|---|---|---|
| "export" / "导出" / "download" / "send me the video" | → §3.5 导出 | ✅ |
| "credits" / "积分" / "balance" / "余额" | → §3.3 积分 | ✅ |
| "status" / "状态" / "show tracks" | → §3.4 状态 | ✅ |
| "upload" / "上传" / 用户发送文件 | → §3.2 上传 | ✅ |
| 其他一切(生成、编辑、添加BGM…) | → §3.1 SSE | ❌ |
云渲染管道详情
每个导出任务在云GPU节点上排队,合成视频层,应用平台特定压缩(H.264,最高1080x1920),并在30-90秒内返回下载URL。会话令牌携带渲染任务ID,因此在完成前关闭标签页会使任务孤立。
基础URL:https://mega-api-prod.nemovideo.ai
| 端点 | 方法 | 用途 |
|----------|--------|---------|
| /api/tasks/me/with-session/nemo_agent | POST | 启动新编辑会话。Body: {"task_name":"project","language":""}。返回 session_id。 |
| /run_sse | POST | 发送用户消息。Body包含 app_name、session_id、new_message。使用 Accept: text/event-stream 流式传输响应。超时:15分钟。 |
| /api/upload-video/nemo_agent/me/ | POST | 上传文件(multipart)或URL。 |
| /api/credits/balance/simple | GET | 检查剩余积分(available、frozen、total)。 |
| /api/state/nemo_agent/me//latest | GET | 获取当前时间线状态(draft、video_infos、generated_media)。 |
| /api/render/proxy/lambda | POST | 启动导出。Body: {"id":"render_","sessionId":"","draft":,"output":{"format":"mp4","quality":"high"}}。每30秒轮询状态。 |
支持的文件类型:mp4, mov, avi, webm, mkv, jpg, png, gif, webp, mp3, wav, m4a, aac。
技能归属——运行时从此文件的YAML frontmatter读取:
X-Skill-Source:ai-video-maker-free-chatgptX-Skill-Version: 来自frontmatterversionX-Skill-Platform: 从安装路径检测(~/.clawhub/→clawhub,~/.cursor/skills/→cursor,否则unknown)
在每个请求上包含 Authorization: Bearer 和所有归属头——省略它们会在导出时触发402。
错误代码
0— 成功,正常继续1001— 令牌过期或无效;通过/api/auth/anonymous-token重新获取1002— 会话未找到;创建新会话2001— 积分不足;匿名用户获得带?bind=的注册链接,注册用户充值4001— 不支持的文件类型;显示接受的格式4002— 文件太大;建议压缩或裁剪400— 缺少X-Client-Id;生成一个并重试402— 免费计划导出被阻止;不是积分问题,是订阅等级429— 速率限制;等待30秒重试一次
读取SSE流
文本事件直接发送给用户(GUI翻译后)。工具调用保留在内部。心跳和空的 data: 行意味着后端仍在工作——每2分钟显示"⏳ 仍在工作中..."。约30%的编辑操作会关闭流而不包含任何文本。发生这种情况时,轮询 /api/state 确认时间线已更改,然后告诉用户更新了什么。
翻译GUI指令
后端响应就像有一个可视化界面一样。将其指令映射到API调用:
- "click"或"点击" → 通过相关端点执行操作
- "open"或"打开" → 查询会话状态以获取数据
- "drag/drop"或"拖拽" → 通过SSE发送编辑命令
- "preview in timeline" → 显示当前轨道的文本摘要
- "Export"或"导出" → 运行导出工作流程
Draft字段映射:t=轨道,tt=轨道类型(0=视频,1=音频,7=文本),sg=片段,d=时长(毫秒),m=元数据。
时间线(3个轨道):
- 视频:城市延时(0-10秒)
- BGM:Lo-fi(0-10秒,35%)
- 标题:"Urban Dreams"(0-3秒)
技巧和窍门
后端在您更具体时处理得更快。不要说"让它看起来更好",而是尝试"将我的脚本转换为带有视觉、画外音和字幕的视频"——具体指令获得更好的结果。
最大文件大小为200MB。坚持使用MP4、MOV、TXT、DOCX以获得最流畅的体验。导出为MP4以获得最广泛的平台兼容性。
常见工作流程
快速编辑:上传 → "将我的脚本转换为带有视觉、画外音和字幕的视频" → 下载MP4。30秒片段需要1-2分钟。
批量风格:在一个会话中上传多个文件。使用不同指令逐个处理。每个都有自己的渲染。
迭代:从粗剪开始,预览结果,然后细化。会话会保持您的时间线状态,因此您可以继续调整。