🎬 Text To Video Kling Ai — Text To Video Kling AI — 文本生成视频

v1.0.0

通过文本提示词生成AI视频片段的技能。支持TXT、PNG、JPG、MP4文件（最大200MB）。内容创作者可使用Kling AI将文本描述生成短视频，在云GPU上处理需1-3分钟，最终输出1080p MP4文件。

0· 33·0 当前·0 累计

by @linmillsd7·MIT-0

下载技能包

License

MIT-0

最后更新

2026/4/13

安全扫描

VirusTotal

无害

查看报告

OpenClaw

可疑

medium confidence

该技能声明的用途（文本→视频，使用Nemovideo）与其运行时指令基本一致，但存在一些不一致和模糊的指令，可能导致代理读取本地路径或联系外部API，在安装前需验证。

安全有层次，运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

版本

latestv1.0.02026/4/13

Text to Video Kling AI 首次发布——从文本提示词生成视频。 - 从文本提示词或上传文件（txt、png、jpg、mp4；最大200MB）生成AI视频。 - 为内容创作者支持快速和批量工作流，1-3分钟内返回1080p MP4片段。 - 自动后端连接和会话管理；需要NEMO_TOKEN或获取免费入门令牌。 - 简单基于聊天的命令来生成、编辑和下载视频；检查积分、状态或上传文件。 - 对令牌、文件类型、积分、速率限制和会话状态的错误处理。

● 无害

安装命令

点击复制

官方npx clawhub@latest install text-to-video-kling-ai

🇨🇳 镜像加速npx clawhub@latest install text-to-video-kling-ai --registry https://cn.longxiaskill.com

技能文档

入门

发送您的文本提示词，我会处理AI视频生成。或者只需描述您想要的内容。

可以尝试说：

"生成一个简短的描述性提示词，如'一只狐狸在黎明时穿过白雪皑皑的森林'，生成1080p MP4"
"生成一个5秒的城市街道夜景片段，有雨和霓虹灯"
"为内容创作者使用Kling AI从文本描述生成短视频"

连接

在处理任何用户请求之前，请先建立与后端API的连接。显示简短的"连接中..."状态。

如果环境中有NEMO_TOKEN，直接使用它并创建会话。否则，获取免费入门令牌：

生成UUID作为客户端标识符
使用X-Client-Id头POST到https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token
响应包含一个token，有100免费积分，有效期7天——将其用作NEMO_TOKEN

然后创建会话，通过Bearer授权将body {"task_name":"project","language":"en"} POST到https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent。响应中的session_id是所有后续请求所需的。告诉用户您已就绪。将技术细节保留在聊天之外。

# Text to Video Kling AI — 从文本提示词生成视频

此工具获取您的文本提示词，通过云渲染管道运行AI视频生成。您上传、描述您想要的，然后下载结果。假设您有一个简短的描述性提示词，如'一只狐狸在黎明时穿过白雪皑皑的森林'，想要生成一个5秒的城市街道夜景片段，有雨和霓虹灯——后端大约1-3分钟处理后给您1080p MP4。

提示：更短、更具体的提示词往往会产生更准确和一致的结果。

匹配输入到操作

引用text to video kling ai、宽高比、文本叠加或音轨的用户提示词通过关键词和意图分类路由到相应操作。

用户说...	操作	跳过SSE?
"export" / "导出" / "download" / "send me the video"	→ §3.5 导出	✅
"credits" / "积分" / "balance" / "余额"	→ §3.3 积分	✅
"status" / "状态" / "show tracks"	→ §3.4 状态	✅
"upload" / "上传" / 用户发送文件	→ §3.2 上传	✅
其他一切（生成、编辑、添加BGM…）	→ §3.1 SSE	❌

云渲染管道详情

每个导出作业在云GPU节点上排队，合成视频层，应用平台特定压缩（H.264，最高1080x1920），在30-90秒内返回下载URL。会话令牌携带渲染作业ID，因此在完成前关闭标签页会使作业孤立。

基础URL：https://mega-api-prod.nemovideo.ai

端点	方法	用途
`/api/tasks/me/with-session/nemo_agent`	POST	启动新编辑会话。Body: `{"task_name":"project","language":""}`。返回`session_id`。
`/run_sse`	POST	发送用户消息。Body包含`app_name`、`session_id`、`new_message`。使用`Accept: text/event-stream`流式响应。超时：15分钟。
`/api/upload-video/nemo_agent/me/`	POST	上传文件（multipart）或URL。
`/api/credits/balance/simple`	GET	检查剩余积分（`available`、`frozen`、`total`）。
`/api/state/nemo_agent/me//latest`	GET	获取当前时间线状态（`draft`、`video_infos`、`generated_media`）。
`/api/render/proxy/lambda`	POST	启动导出。Body: `{"id":"render_","sessionId":"","draft":,"output":{"format":"mp4","quality":"high"}}`。每30秒轮询状态。

接受的文件类型：mp4, mov, avi, webm, mkv, jpg, png, gif, webp, mp3, wav, m4a, aac。

每个请求需要三个归属头，必须与此文件的frontmatter匹配：

头	值
`X-Skill-Source`	`text-to-video-kling-ai`
`X-Skill-Version`	frontmatter `version`
`X-Skill-Platform`	自动检测：从安装路径检测`clawhub` / `cursor` / `unknown`

在每个请求上包含Authorization: Bearer 和所有归属头——省略它们会在导出时触发402。

错误代码

0 — 成功，正常继续
1001 — 令牌过期或无效；通过/api/auth/anonymous-token重新获取
1002 — 会话未找到；创建新会话
2001 — 积分不足；匿名用户收到带?bind=的注册链接，注册用户充值
4001 — 不支持的文件类型；显示接受的格式
4002 — 文件太大；建议压缩或裁剪
400 — 缺少X-Client-Id；生成一个并重试
402 — 免费计划导出被阻止；不是积分问题，是订阅级别
429 — 速率限制；等待30秒并重试一次

SSE事件处理

事件	操作
文本响应	应用GUI翻译（第4节），呈现给用户
工具调用/结果	内部处理，不转发
`heartbeat` / 空`data:`	继续等待。每2分钟："⏳ 仍在工作中..."
流关闭	处理最终响应

约30%的编辑操作在SSE流中不返回文本。发生这种情况时：轮询会话状态以验证编辑已应用，然后向用户总结更改。

翻译GUI指令

后端响应就像有一个可视化界面。将其指令映射到API调用：

"click"或"点击" → 通过相关端点执行操作
"open"或"打开" → 查询会话状态以获取数据
"drag/drop"或"拖拽" → 通过SSE发送编辑命令
"preview in timeline" → 显示当前轨道的文本摘要
"Export"或"导出" → 运行导出工作流

Draft JSON使用短键：t表示轨道，tt表示轨道类型（0=视频，1=音频，7=文本），sg表示片段，d表示持续时间（毫秒），m表示元数据。

示例时间线摘要：

Timeline (3 tracks):
Video: city timelapse (0-10s)
BGM: Lo-fi (0-10s, 35%)
Title: "Urban Dreams" (0-3s)

常见工作流

快速编辑：上传 → "生成一个5秒的城市街道夜景片段，有雨和霓虹灯" → 下载MP4。30秒片段需要1-3分钟。

批量风格：在一个会话中上传多个文件。用不同指令逐一处理。每个都有自己的渲染。

迭代：从粗剪开始，预览结果，然后细化。会话保持您的时间线状态，因此您可以继续调整。

技巧

后端在您具体描述时处理更快。不要说"让它看起来更好"，而是尝试"生成一个5秒的城市街道夜景片段，有雨和霓虹灯"——具体指令获得更好的结果。

最大文件大小为200MB。坚持使用TXT、PNG、JPG、MP4以获得最流畅的体验。导出为MP4以获得跨社交平台的最佳兼容性。

数据来源：ClawHub ↗ · 中文优化：龙虾技能库