运行时依赖
安装命令
点击复制技能文档
从特定URL提取干净的内容。适合于您知道要从哪些页面提取内容的情况。 前置条件 Tavily API Key(必需)- 在https://tavily.com获取您的Key 在~/.claude/settings.json中添加: { "env": { "TAVILY_API_KEY": "tvly-your-api-key-here" } } 快速开始 使用脚本 ./scripts/extract.sh '' 示例: # 单个URL ./scripts/extract.sh '{"urls": ["https://example.com/article"]}' # 多个URL ./scripts/extract.sh '{"urls": ["https://example.com/page1", "https://example.com/page2"]}' # 带查询焦点和块的提取 ./scripts/extract.sh '{"urls": ["https://example.com/docs"], "query": "authentication API", "chunks_per_source": 3}' # 高级JS页面提取 ./scripts/extract.sh '{"urls": ["https://app.example.com"], "extract_depth": "advanced", "timeout": 60}' 基本提取 curl --request POST \ --url https://api.tavily.com/extract \ --header "Authorization: Bearer $TAVILY_API_KEY" \ --header 'Content-Type: application/json' \ --data '{ "urls": ["https://example.com/article"] }' 多个URL带查询焦点 curl --request POST \ --url https://api.tavily.com/extract \ --header "Authorization: Bearer $TAVILY_API_KEY" \ --header 'Content-Type: application/json' \ --data '{ "urls": [ "https://example.com/ml-healthcare", "https://example.com/ai-diagnostics" ], "query": "AI diagnostic tools accuracy", "chunks_per_source": 3 }' API参考 端点 POST https://api.tavily.com/extract 头部 头部 名称 值 Authorization Bearer Content-Type application/json 请求体 字段 类型 默认值 描述 urls 数组 必需 URL列表(最多20个) query 字符串 null 按相关性重新排列块 chunks_per_source 整数 3 每个URL的块数(1-5,需要查询) extract_depth 字符串 "basic" 基本或高级(用于JS页面) format 字符串 "markdown" markdown或文本 include_images 布尔值 false 包含图像URL timeout 浮点数 不同 最大等待时间(1-60秒) 响应格式 { "results": [ { "url": "https://example.com/article", "raw_content": "# Article Title\n\nContent..." } ], "failed_results": [], "response_time": 2.3 } 提取深度 深度 何时使用 basic 简单文本提取,速度更快 advanced 动态/JS渲染页面,表格,结构化数据 示例 单个URL提取 curl --request POST \ --url https://api.tavily.com/extract \ --header "Authorization: Bearer $TAVILY_API_KEY" \ --header 'Content-Type: application/json' \ --data '{ "urls": ["https://docs.python.org/3/tutorial/classes.html"], "extract_depth": "basic" }' 带查询的目标提取 curl --request POST \ --url https://api.tavily.com/extract \ --header "Authorization: Bearer $TAVILY_API_KEY" \ --header 'Content-Type: application/json' \ --data '{ "urls": [ "https://example.com/react-hooks", "https://example.com/react-state" ], "query": "useState and useEffect patterns", "chunks_per_source": 2 }' JavaScript密集页面 curl --request POST \ --url https://api.tavily.com/extract \ --header "Authorization: Bearer $TAVILY_API_KEY" \ --header 'Content-Type: application/json' \ --data '{ "urls": ["https://app.example.com/dashboard"], "extract_depth": "advanced", "timeout": 60 }' 批量提取 curl --request POST \ --url https://api.tavily.com/extract \ --header "Authorization: Bearer $TAVILY_API_KEY" \ --header 'Content-Type: application/json' \ --data '{ "urls": [ "https://example.com/page1", "https://example.com/page2", "https://example.com/page3", "https://example.com/page4", "https://example.com/page5" ], "extract_depth": "basic" }' 提示 每个请求最多20个URL - 批量处理更大的列表 使用查询 + chunks_per_source仅获取相关内容 先尝试基本提取,如果内容缺失则回退到高级提取 为慢速页面设置更长的超时时间(最多60秒) 检查failed_results以获取无法提取的URL