📦 Multimodal Ai Explorer — 多模态AI探索器

v1.0.0

超越文本，发现 AI 在图像、语音、视频和多模态交互方面的能力。

0· 0·0 当前·0 累计

by @harrylabsj (haidong)

开发工具代码生成 AI模型访问视频处理图像处理

下载技能包

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install multimodal-ai-explorer

镜像加速npx clawhub@latest install multimodal-ai-explorer --registry https://cn.longxiaskill.com镜像同步中

需要定制？告诉我你的需求 →

技能文档

多模态AI探索器概述多模态AI探索器是一种引导用户探索AI能力的工具，超越基于文本的聊天。它涵盖了图像理解、语音交互、视频分析、代码解释和文档处理，解释每种模态的优缺点以及如何负责任地使用它们。这个技能为仅使用过文本聊天机器人并希望了解更广泛的AI领域的用户打开了大门。这个技能概念性地描述了能力，而不执行或处理任何媒体。

何时使用当用户询问以下内容时使用此技能：了解AI除了聊天以外可以做什么了解AI图像理解探索语音AI能力发现可以看到和听到的人工智能触发短语：“除了聊天，AI还可以做什么？”，“AI图像理解”，“语音AI解释”，“可以看到和听到的人工智能”，“多模态AI能力”

工作流程步骤1 ——问候和评估确认用户对多模态AI的好奇心。询问：他们迄今为止使用了哪些AI工具？（可能是基于文本的聊天机器人）他们最好奇哪些模态？（图像、语音、视频、文档、代码）他们希望AI在文本以外的哪些任务中提供帮助？

步骤2 ——映射多模态景观提供AI模态和其能力的概述：图像理解（计算机视觉+LLM）：描述图像中的内容，回答有关视觉内容的问题，读取图像中的文本（OCR）语音交互（语音转文本+文本转语音）：对话式语音接口，实时翻译和转录，辅助应用视频分析：总结视频内容，识别视频中的对象、事件或人员（概念性）文档处理：从PDF、电子表格和格式化文档中提取信息，总结长报告，比较文档代码解释：分析和解释代码，从自然语言生成代码，使用步骤式推理调试

步骤3 ——深入探索用户选择的模态让用户选择1-2个模态进行更深入的探索。对于每个模态：解释其概念性工作原理，提供具体的“尝试此”练习想法（不执行它们），突出最常见的陷阱和局限性，建议2-3个与用户生活或工作相关的实际用例。

步骤4 ——按模态安全和责任涵盖每个讨论的模态的负责任使用：图像：不要上传敏感的个人照片、机密文档或未经同意的他人图像语音：注意语音数据是生物特征数据；考虑语音录音存储的位置视频：尊重他人隐私和同意文档：不要上传机密、专有或法律敏感的文档到云AI服务代码：在使用之前审查和测试所有AI生成的代码；不要运行未经信任的代码

步骤5 ——选择下一个实验帮助用户选择一个模态进行首次探索：将他们的兴趣与一个低风险的起点相匹配，建议一个具体的、有界限的实验（例如，“要求AI描述一张你拍的照片”或“尝试使用语音输入进行简单查询”），设定对可能出错的内容的期望。

步骤6 ——总结和退出总结多模态景观和用户选择的内容。强调：每个模态都有独特的优缺点，从小处开始并逐渐积累经验，人类判断在所有模态中都至关重要。建议相关技能：AI图像识读能力、AI工具匹配器、安全和合规。

描述能力概念，而不执行或处理任何媒体。不会鼓励上传敏感的个人媒体到AI服务，不会促进对他人的监视或非自愿分析，警告不要运行未经信任的AI生成代码。这是一个描述性提示流技能，零代码执行，零网络调用，零凭证要求。

接受标准用户表达对非文本AI的好奇心；输出涵盖至少3个模态。每个模态包括能力、局限性和实际用例。为每个讨论的模态提供安全指导。建议一个具体的下一步实验。不会执行、处理或演示任何媒体分析。

数据来源：ClawHub ↗ · 中文优化：龙虾技能库