运行时依赖
安装命令
点击复制技能文档
名称:image-to-ppt-pro 描述:| 将任意图片(PPT截图、幻灯片照片、设计稿)复刻成完全可编辑的 .pptx 文件,像素级还原布局、配色、文字和图形元素。 当用户说以下任何内容时,立即使用本 skill: "根据图片/截图生成/制作 PPT" "把这张图做成可编辑的幻灯片" "复刻/还原这页 PPT" "一模一样地生成 PPT" "把截图转成 pptx" 上传了 PPT 截图或幻灯片图片,并要求生成可编辑文件 即使用户没有明确说"一模一样",只要他们上传图片并希望输出 .pptx,也应触发本 skill。 PPT Replicator Skill 将图片复刻为可编辑 .pptx 文件的完整工作流。 依赖 npm install -g pptxgenjs pip install Pillow numpy pytesseract --break-system-packages -q # LibreOffice + pdftoppm(来自 poppler-utils) 工作流总览 Step -1 图片类型判断 ← 必做!决定走策略 A 还是策略 B ↓ ├─── 策略 A:纯代码复刻 (图片以平面几何图形为主) │ Step 0 透视矫正 ← 照片必做;截图跳过 │ Step 1 数据提取 ← 颜色 + OCR 文字 + 形状识别 │ Step 2 看图规划 ← 划分区域,记录坐标 │ Step 3 看图写代码 ← 逐块编码 │ Step 3.5 Pre-flight Check ← ★ 执行前纸面验证,发现问题就地修正 │ Step 4 生成 pptx │ Step 5 视觉 QA + 矫正循环(最多 3 次) │ Step 6 交付 │ └─── 策略 B:数学近似绘制 (图片含 3D/光影/曲线排列,但可几何分解) Step 0 透视矫正 ← 照片必做;截图跳过 Step 1 数据提取 ← 颜色 + OCR 文字 + 层次分解 Step B2 分层规划 ← 将复杂图形分解为可叠加的几何层 Step B3 写代码 ← 透明度 + 数学坐标 + 多图形叠加 Step 3.5 Pre-flight Check ← ★ 执行前纸面验证,发现问题就地修正 Step 4 生成 pptx Step 5 视觉 QA + 矫正循环(最多 3 次) Step 6 交付 两条路的核心区别:策略 A 直接还原平面图形;策略 B 不追求像素级还原,用几何图形叠加 + 透明度 + 数学坐标,近似还原复杂视觉,换取 100% 可编辑性。 Step 3.5 的价值:脚本写完后先做纸面验证,在执行前拦截越界、重叠、文字溢出等问题,大幅减少 Step 5 矫正循环次数。 全局铁律(每行代码都要遵守) 铁律一:文字 margin 必须为 0 所有 addText 调用,无论是标题、正文、节点内文字,必须加 margin: 0。 铁律二:文字框坐标必须与图形坐标完全一致 图形内的文字,文本框的 x/y/w/h 必须与底层图形完全相同,不得有任何偏移。 铁律三:文字框尺寸锁死,不允许依赖自动扩展 文字框的 w 和 h 必须明确设置为对应图形的尺寸。文字如果放不下,调小字号或调整换行,不得靠文本框自动撑大来解决。 铁律四:绘制顺序必须是底层 → 上层 背景色 大块背景矩形(标题栏、页脚、内容区底色) 内容图形(节点形状、连接线、装饰) 图形内文字(每个图形画完立即画对应文字,不要等全部图形画完再统一加文字) 铁律五:文字方向必须与原图一致 看图时先判断文字方向,再写代码: 判断条件 文字方向 代码写法 文字框宽度 > 高度,文字左→右正常阅读 横排(默认) 不加任何方向属性 文字框高度 > 宽度 × 3,文字从上往下,每个汉字正立 竖排(中文) vert: "eaVert" 整个文字块整体旋转了 90° 或 270° 旋转横排 rotate: 270(或 90) 图片类型判断(必做) 看图后先回答这两个问题,决定走哪条路。 判断一:走策略 A? 以下全部满足 → 走策略 A: 条件 说明 所有图形都是平面基础形状 矩形、圆角矩形、菱形、椭圆、直线、箭头 无光影渐变、无透明度层次 每个元素纯色填充,颜色边界清晰 无沿曲线排列的元素 所有元素按行列或流程图排列 典型场景:流程图、架构图、组织图、数据表格。直接进入 Step 0,无需告知用户。 判断二:走策略 B? 有以下任一信号,但同时可以几何分解 → 走策略 B: 有复杂视觉信号(任一) 且可以几何分解(全部满足) 3D 透视 / 等轴测图形 图形可用三角形、椭圆、矩形近似 光晕 / 扇形光束 / 渐变背景 用透明度差异可模拟层次感 沿圆弧路径排列的装饰元素 可用数学参数方程计算各元素坐标 多层叠加的立体效果 可用"大形状 + 白色遮盖"实现挖空圆环 判断口诀:把图形在脑中"拍平"——如果拍平后能用三角形 + 椭圆 + 矩形 + 透明度组合重建,就走策略 B。 典型场景:圆形供应链平台图、漏斗 + 光晕组合、仪表盘示意图。 告知用户: "这张图包含 \[具体描述],将采用「数学近似绘制」策略:用几何图形叠加 + 透明度模拟光影层次,所有元素完全可编辑,视觉还原度约 75\~85%(放弃像素级光影细节,保留整体视觉结构)。" 策略 B:数学近似绘制(详细步骤) 核心思想:不追求像素级还原,将复杂视觉图形分解为若干「几何层」,用透明度差异模拟光影层次,用数学参数方程计算沿曲线排列元素的坐标,换取 100% 可编辑性。 实战验证:对于复杂的圆形供应链平台图,实际可做到: 扇形光束 → 5个不同透明度三角形 3D 圆台 → 3~4个嵌套椭圆 + 白色椭圆挖空 圆弧装饰圈 → 52个小矩形按参数方程排列 立体塔楼 → 9根不同高度 + 不同透明度的矩形柱 全部代码生成,零图片,100% 可编辑 Step B2:分层规划 看图时将复杂图形从底层到顶层分解为若干几何层,每层对应一种近似方法: 层 原图效果 近似方法 第1层 背景光晕 / 扇形光束 N 个三角形,同色不同透明度,从中心向外展开 第2层 圆形平台底色 大椭圆(半透明)+ 小白色椭圆(挖空内圈) 第3层 沿圆弧排列的装饰元素 小矩形,坐标用椭圆参数方程计算 第4层 中央柱状 / 塔形结构 矩形组,中心最高最深色,向两侧渐矮渐透明 第5层 指向标签的引线 折线(竖线 + 横线两段 LINE 拼接) 第6层 所有文字标签 addText,坐标精确对应原图位置 分层