Files
skill-seekers-reference/README.zh-CN.md
yusyus 6bb7078fbc docs: update all documentation for 12 LLM platforms and 18 agents
- README.md + 11 i18n READMEs: 5→12 LLM platforms, 11→18 agents, new platform/agent tables
- CLAUDE.md: updated --target list, adaptor directory tree
- CHANGELOG.md: added v3.4.0 entry with all Phase 1-4 changes
- docs/reference/CLI_REFERENCE.md: new --target and --agent options
- docs/reference/FEATURE_MATRIX.md: updated all platform counts and tables
- docs/user-guide/04-packaging.md: new platform and agent rows
- docs/FAQ.md: expanded platform/agent answers
- docs/zh-CN/*: synchronized Chinese documentation

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
2026-03-21 20:42:31 +03:00

40 KiB
Raw Blame History

MseeP.ai 安全评估徽章

Skill Seekers

English | 简体中文 | 日本語 | 한국어 | Español | Français | Deutsch | Português | Türkçe | العربية | हिन्दी | Русский

⚠️ 机器翻译声明

本文档由 AI 自动翻译生成。虽然我们努力确保翻译质量,但可能存在不准确或不自然的表述。

欢迎通过 GitHub Issue #260 帮助改进翻译!您的反馈对我们非常宝贵。

版本 许可证: MIT Python 3.10+ MCP 集成 测试通过 项目看板 PyPI 版本 PyPI - 下载量 PyPI - Python 版本 官方网站 关注 Twitter GitHub Stars

🧠 AI 系统的数据层。 Skill Seekers 将文档网站、GitHub 仓库、PDF、视频、Jupyter 笔记本、Wiki 等 17 种以上来源类型转换为结构化知识资产——可在几分钟内为 AI 技能Claude、Gemini、OpenAI、RAG 流水线LangChain、LlamaIndex、Pinecone和 AI 编程助手Cursor、Windsurf、Cline提供支持。

🌐 访问 SkillSeekersWeb.com - 浏览 24+ 个预设配置,分享您的配置,访问完整文档!

📋 查看开发路线图和任务 - 10 个类别的 134 个任务,选择任意一个参与贡献!

🧠 AI 系统的数据层

Skill Seekers 是通用预处理层,位于原始文档和所有使用它的 AI 系统之间。无论您是在构建 Claude 技能、LangChain RAG 流水线,还是 Cursor .cursorrules 文件——数据准备工作完全相同。只需执行一次,即可导出到所有目标平台。

# 一条命令 → 结构化知识资产
skill-seekers create https://docs.react.dev/
# 或: skill-seekers create facebook/react
# 或: skill-seekers create ./my-project

# 导出到任意 AI 系统
skill-seekers package output/react --target claude      # → Claude AI 技能 (ZIP)
skill-seekers package output/react --target langchain   # → LangChain Documents
skill-seekers package output/react --target llama-index # → LlamaIndex TextNodes
skill-seekers package output/react --target cursor      # → .cursorrules

可构建的输出

输出 目标 应用场景
Claude 技能 (ZIP + YAML) --target claude Claude Code、Claude API
Gemini 技能 (tar.gz) --target gemini Google Gemini
OpenAI / Custom GPT (ZIP) --target openai GPT-4o、自定义助手
LangChain Documents --target langchain QA 链、智能体、检索器
LlamaIndex TextNodes --target llama-index 查询引擎、对话引擎
Haystack Documents --target haystack 企业级 RAG 流水线
Pinecone 就绪 (Markdown) --target markdown 向量上传
ChromaDB / FAISS / Qdrant --format chroma/faiss/qdrant 本地向量数据库
Cursor .cursorrules --target claude → 复制 Cursor IDE AI 上下文
Windsurf / Cline / Continue --target claude → 复制 VS Code、IntelliJ、Vim

为什么选择 Skill Seekers

  • 快 99% — 数天的手动数据准备 → 1545 分钟
  • 🎯 AI 技能质量 — 500+ 行的 SKILL.md 文件,包含示例、模式和指南
  • 📊 RAG 就绪的分块 — 智能分块保留代码块并维护上下文
  • 🔄 17 种来源类型 — 将文档 + GitHub + PDF + 视频 + 笔记本 + Wiki 等合并为一个知识资产
  • 🌐 一次准备,导出所有目标 — 无需重新抓取即可导出到 16 个平台
  • 🎬 视频 — 从 YouTube 和本地视频提取代码、字幕和结构化知识
  • 久经考验 — 2,540+ 测试24+ 框架预设,生产就绪

快速开始

pip install skill-seekers

# 从任意来源构建 AI 技能
skill-seekers create https://docs.django.com/    # 文档网站
skill-seekers create django/django               # GitHub 仓库
skill-seekers create ./my-codebase               # 本地项目
skill-seekers create manual.pdf                  # PDF 文件
skill-seekers create manual.docx                 # Word 文档
skill-seekers create book.epub                   # EPUB 电子书
skill-seekers create notebook.ipynb              # Jupyter 笔记本
skill-seekers create page.html                   # 本地 HTML
skill-seekers create api-spec.yaml               # OpenAPI/Swagger 规范
skill-seekers create guide.adoc                  # AsciiDoc 文档
skill-seekers create slides.pptx                 # PowerPoint 演示文稿

# 视频YouTube、Vimeo 或本地文件 — 需要 skill-seekers[video]
skill-seekers video --url https://www.youtube.com/watch?v=... --name mytutorial
# 首次使用?自动安装 GPU 感知的视觉依赖:
skill-seekers video --setup

# 根据用途导出
skill-seekers package output/django --target claude     # Claude AI 技能
skill-seekers package output/django --target langchain  # LangChain RAG
skill-seekers package output/django --target cursor     # Cursor IDE 上下文

完整示例:

什么是 Skill Seekers

Skill Seekers 是 AI 系统的数据层,将 17 种来源类型——文档网站、GitHub 仓库、PDF、视频、Jupyter 笔记本、Word/EPUB/AsciiDoc 文档、OpenAPI/Swagger 规范、PowerPoint 演示文稿、RSS/Atom 订阅源、Man 手册页、Confluence 维基、Notion 页面、Slack/Discord 聊天记录等——转换为适用于所有 AI 目标的结构化知识资产:

使用场景 获得的内容 示例
AI 技能 完整的 SKILL.md + 参考文件 Claude Code、Gemini、GPT
RAG 流水线 带丰富元数据的分块文档 LangChain、LlamaIndex、Haystack
向量数据库 预格式化的待上传数据 Pinecone、Chroma、Weaviate、FAISS
AI 编程助手 IDE AI 自动读取的上下文文件 Cursor、Windsurf、Cline、Continue.dev

Skill Seekers 通过以下步骤代替数天的手动预处理工作:

  1. 采集 — 文档、GitHub 仓库、本地代码库、PDF、视频、Jupyter 笔记本、Wiki 等 17 种以上来源类型
  2. 分析 — 深度 AST 解析、模式检测、API 提取
  3. 结构化 — 带元数据的分类参考文件
  4. 增强 — AI 驱动的 SKILL.md 生成Claude、Gemini 或本地)
  5. 导出 — 从一个资产导出到 16 种平台专用格式

为什么使用 Skill Seekers

面向 AI 技能构建者Claude、Gemini、OpenAI

  • 🎯 生产级技能 — 500+ 行的 SKILL.md 文件,包含代码示例、模式和指南
  • 🔄 增强工作流 — 应用 security-focusarchitecture-comprehensive 或自定义 YAML 预设
  • 🎮 任意领域 — 游戏引擎Godot、Unity、框架React、Django、内部工具
  • 🔧 团队协作 — 将内部文档 + 代码整合为单一事实来源
  • 📚 高质量 — AI 增强,包含示例、快速参考和导航指南

面向 RAG 构建者和 AI 工程师

  • 🤖 RAG 就绪数据 — 预分块的 LangChain Documents、LlamaIndex TextNodes、Haystack Documents
  • 🚀 快 99% — 数天的预处理 → 1545 分钟
  • 📊 智能元数据 — 类别、来源、类型 → 更高的检索精度
  • 🔄 多源支持 — 在一个流水线中合并文档 + GitHub + PDF
  • 🌐 平台无关 — 无需重新抓取即可导出到任意向量数据库或框架

面向 AI 编程助手用户

  • 💻 Cursor / Windsurf / Cline — 自动生成 .cursorrules / .windsurfrules / .clinerules
  • 🎯 持久上下文 — AI "了解"您的框架,无需重复提示
  • 📚 始终最新 — 文档更新时可在几分钟内更新上下文

核心功能

🌐 文档抓取

  • llms.txt 支持 - 自动检测并使用 LLM 就绪文档文件(快 10 倍)
  • 通用抓取器 - 适用于任意文档网站
  • 智能分类 - 按主题自动组织内容
  • 代码语言检测 - 识别 Python、JavaScript、C++、GDScript 等
  • 24+ 即用预设 - Godot、React、Vue、Django、FastAPI 等

📄 PDF 支持

  • 基础 PDF 提取 - 从 PDF 提取文本、代码和图片
  • 扫描件 OCR - 从扫描文档提取文本
  • 密码保护 PDF - 处理加密 PDF
  • 表格提取 - 提取复杂表格
  • 并行处理 - 大型 PDF 快 3 倍
  • 智能缓存 - 重复运行快 50%

🎬 视频提取

  • YouTube 和本地视频 - 从视频提取字幕、代码和结构化知识
  • 视觉帧分析 - 屏幕 OCR 提取代码编辑器、终端和幻灯片内容
  • GPU 自动检测 - 自动安装正确的 PyTorch 版本CUDA/ROCm/MPS/CPU
  • AI 增强 - 两阶段增强:清理 OCR + 生成精美 SKILL.md
  • 时间裁剪 - 提取视频的特定片段(--start-time--end-time
  • 播放列表支持 - 批量处理 YouTube 播放列表中的所有视频

🐙 GitHub 仓库分析

  • 深度代码分析 - 支持 Python、JavaScript、TypeScript、Java、C++、Go 的 AST 解析
  • API 提取 - 函数、类、方法及参数和类型
  • 仓库元数据 - README、文件树、语言统计、星标/分支数
  • GitHub Issues 和 PR - 获取带标签和里程碑的开放/已关闭 issues
  • CHANGELOG 和发布 - 自动提取版本历史
  • 冲突检测 - 对比文档化 API 与实际代码实现
  • MCP 集成 - 自然语言:"抓取 GitHub 仓库 facebook/react"

🔄 统一多源抓取

  • 合并多个来源 - 在一个技能中混合文档 + GitHub + PDF
  • 冲突检测 - 自动发现文档与代码之间的差异
  • 智能合并 - 基于规则或 AI 驱动的冲突解决
  • 透明报告 - 带 ⚠️ 警告的并排对比
  • 文档差距分析 - 识别过时文档和未文档化功能
  • 单一事实来源 - 一个技能同时展示意图(文档)和现实(代码)
  • 向后兼容 - 遗留单源配置继续有效

🤖 多 LLM 平台支持

  • 12 个 LLM 平台 - Claude AI、Google Gemini、OpenAI ChatGPT、MiniMax AI、通用 Markdown、OpenCode、Kimi、DeepSeek、Qwen、OpenRouter、Together AI、Fireworks AI
  • 通用抓取 - 相同文档适用于所有平台
  • 平台专用打包 - 针对每个 LLM 的优化格式
  • 一键导出 - --target 标志选择平台
  • 可选依赖 - 仅安装所需内容
  • 100% 向后兼容 - 现有 Claude 工作流无需更改
平台 格式 上传 增强 API Key 自定义端点
Claude AI ZIP + YAML 自动 ANTHROPIC_API_KEY ANTHROPIC_BASE_URL
Google Gemini tar.gz 自动 GOOGLE_API_KEY -
OpenAI ChatGPT ZIP + Vector Store 自动 OPENAI_API_KEY -
通用 Markdown ZIP 手动 - -
# Claude默认 - 无需更改!)
skill-seekers package output/react/
skill-seekers upload react.zip

# Google Gemini
pip install skill-seekers[gemini]
skill-seekers package output/react/ --target gemini
skill-seekers upload react-gemini.tar.gz --target gemini

# OpenAI ChatGPT
pip install skill-seekers[openai]
skill-seekers package output/react/ --target openai
skill-seekers upload react-openai.zip --target openai

# 通用 Markdown通用导出
skill-seekers package output/react/ --target markdown
🔧 Claude 兼容 API 的环境变量(如 GLM-4.7

Skill Seekers 支持任意 Claude 兼容的 API 端点:

# 选项 1官方 Anthropic API默认
export ANTHROPIC_API_KEY=sk-ant-...

# 选项 2GLM-4.7 Claude 兼容 API
export ANTHROPIC_API_KEY=your-glm-47-api-key
export ANTHROPIC_BASE_URL=https://glm-4-7-endpoint.com/v1

# 所有 AI 增强功能将使用配置的端点
skill-seekers enhance output/react/
skill-seekers analyze --directory . --enhance

注意:设置 ANTHROPIC_BASE_URL 允许您使用任意 Claude 兼容的 API 端点,例如 GLM-4.7(智谱 AI或其他兼容服务。

安装:

# 安装 Gemini 支持
pip install skill-seekers[gemini]

# 安装 OpenAI 支持
pip install skill-seekers[openai]

# 安装所有 LLM 平台
pip install skill-seekers[all-llms]

🔗 RAG 框架集成

  • LangChain Documents - 直接导出为 Document 格式,包含 page_content + 元数据

  • LlamaIndex TextNodes - 导出为带唯一 ID + 嵌入的 TextNode 格式

  • Pinecone 就绪格式 - 针对向量数据库上传进行优化

快速导出:

# LangChain DocumentsJSON
skill-seekers package output/django --target langchain
# → output/django-langchain.json

# LlamaIndex TextNodesJSON
skill-seekers package output/django --target llama-index
# → output/django-llama-index.json

# Markdown通用
skill-seekers package output/django --target markdown
# → output/django-markdown/SKILL.md + references/

完整 RAG 流水线指南: RAG 流水线文档


🧠 AI 编程助手集成

将任意框架文档转换为 4+ 种 AI 助手的专家编程上下文:

  • Cursor IDE - 为 AI 驱动的代码建议生成 .cursorrules

  • Windsurf - 使用 .windsurfrules 自定义 Windsurf AI 助手上下文

  • ClineVS Code - VS Code 智能体的系统提示 + MCP

  • Continue.dev - 与 IDE 无关的 AI 上下文服务器

快速导出(适用于 AI 编程工具):

# 适用于任意 AI 编程助手Cursor、Windsurf、Cline、Continue.dev
skill-seekers scrape --config configs/django.json
skill-seekers package output/django --target claude

# 复制到项目(以 Cursor 为例)
cp output/django-claude/SKILL.md my-project/.cursorrules

# 或用于 Windsurf
cp output/django-claude/SKILL.md my-project/.windsurf/rules/django.md

# 或用于 Cline
cp output/django-claude/SKILL.md my-project/.clinerules

集成中心: 所有 AI 系统集成


🌊 三流 GitHub 架构

  • 三流分析 - 将 GitHub 仓库拆分为代码流、文档流和洞察流
  • 统一代码库分析器 - 同时适用于 GitHub URL 和本地路径
  • C3.x 分析深度 - 选择"basic"12 分钟)或"c3x"2060 分钟)分析
  • 增强路由生成 - GitHub 元数据、README 快速入门、常见问题
  • Issue 集成 - 来自 GitHub Issues 的常见问题和解决方案
  • 智能路由关键词 - GitHub 标签权重加倍,提升主题检测效果

三流说明:

  • 流 1代码 - 深度 C3.x 分析(模式、示例、指南、配置、架构)
  • 流 2文档 - 仓库文档README、CONTRIBUTING、docs/*.md
  • 流 3洞察 - 社区知识Issues、标签、Stars、Forks
from skill_seekers.cli.unified_codebase_analyzer import UnifiedCodebaseAnalyzer

# 使用三流分析 GitHub 仓库
analyzer = UnifiedCodebaseAnalyzer()
result = analyzer.analyze(
    source="https://github.com/facebook/react",
    depth="c3x",  # 或 "basic" 快速分析
    fetch_github_metadata=True
)

print(f"设计模式: {len(result.code_analysis['c3_1_patterns'])}")
print(f"Stars: {result.github_insights['metadata']['stars']}")

完整文档三流实现总结

🔐 智能速率限制管理与配置

  • 多 Token 配置系统 - 管理多个 GitHub 账号(个人、工作、开源)
    • 安全配置存储在 ~/.config/skill-seekers/config.json(权限 600
    • 每个配置文件的速率限制策略:promptwaitswitchfail
    • 智能回退链CLI 参数 → 环境变量 → 配置文件 → 提示
  • 交互式配置向导 - 美观的终端 UI轻松设置
  • 智能速率限制处理器 - 不再无限等待!
    • 实时倒计时,自动切换配置文件
    • 四种策略prompt询问、wait倒计时、switch切换、fail中止
  • 断点续传 - 继续中断的任务
  • CI/CD 支持 - --non-interactive 标志用于自动化

快速设置:

# 一次性配置5 分钟)
skill-seekers config --github

# 为私有仓库使用特定配置文件
skill-seekers github --repo mycompany/private-repo --profile work

# CI/CD 模式(快速失败,无提示)
skill-seekers github --repo owner/repo --non-interactive

🎯 Bootstrap 技能 - 自托管

将 skill-seekers 自身作为 Claude Code 技能生成:

./scripts/bootstrap_skill.sh
cp -r output/skill-seekers ~/.claude/skills/

🔐 私有配置仓库

  • 基于 Git 的配置源 - 从私有/团队 Git 仓库获取配置
  • 多源管理 - 注册无限数量的 GitHub、GitLab、Bitbucket 仓库
  • 团队协作 - 在 35 人团队间共享自定义配置
  • 企业支持 - 扩展到 500+ 开发者
  • 安全认证 - 环境变量 tokenGITHUB_TOKEN、GITLAB_TOKEN

🤖 代码库分析C3.x

C3.4:配置模式提取(含 AI 增强)

  • 9 种配置格式 - JSON、YAML、TOML、ENV、INI、Python、JavaScript、Dockerfile、Docker Compose
  • 7 种模式类型 - 数据库、API、日志、缓存、邮件、认证、服务器配置
  • AI 增强 - 可选双模式 AI 分析API + LOCAL
  • 安全分析 - 发现硬编码的密钥和暴露的凭证

C3.3AI 增强操作指南

  • 全面 AI 增强 - 将基础指南转换为专业教程
  • 5 项自动改进 - 步骤说明、故障排除、前提条件、后续步骤、使用场景
  • 双模式支持 - API 模式Claude API或 LOCAL 模式Claude Code CLI
  • LOCAL 模式零成本 - 使用您的 Claude Code Max 计划免费增强

使用方法:

# 快速分析12 分钟,仅基础功能)
skill-seekers analyze --directory tests/ --quick

# 全面分析(含 AI2060 分钟)
skill-seekers analyze --directory tests/ --comprehensive

# 含 AI 增强
skill-seekers analyze --directory tests/ --enhance

完整文档: docs/HOW_TO_GUIDES.md

🔄 增强工作流预设

可重用的 YAML 定义增强流水线,控制 AI 如何将原始文档转换为精心打磨的技能。

  • 5 个内置预设defaultminimalsecurity-focusarchitecture-comprehensiveapi-documentation
  • 用户自定义预设 — 将自定义工作流添加到 ~/.config/skill-seekers/workflows/
  • 多工作流链式 — 在一条命令中链式使用两个或更多工作流
  • 完整 CLI 管理 — 列出、查看、复制、添加、删除和验证工作流
# 应用单个工作流
skill-seekers create ./my-project --enhance-workflow security-focus

# 链式多个工作流(按顺序应用)
skill-seekers create ./my-project \
  --enhance-workflow security-focus \
  --enhance-workflow minimal

# 管理预设
skill-seekers workflows list                          # 列出所有(内置 + 用户)
skill-seekers workflows show security-focus           # 显示 YAML 内容
skill-seekers workflows copy security-focus           # 复制到用户目录以便编辑
skill-seekers workflows add ./my-workflow.yaml        # 安装自定义预设
skill-seekers workflows remove my-workflow            # 删除用户预设
skill-seekers workflows validate security-focus       # 验证预设结构

# 同时复制多个
skill-seekers workflows copy security-focus minimal api-documentation

# 同时添加多个文件
skill-seekers workflows add ./wf-a.yaml ./wf-b.yaml

# 同时删除多个
skill-seekers workflows remove my-wf-a my-wf-b

YAML 预设格式:

name: security-focus
description: "安全重点审查:漏洞、认证、数据处理"
version: "1.0"
stages:
  - name: vulnerabilities
    type: custom
    prompt: "审查 OWASP Top 10 和常见安全漏洞..."
  - name: auth-review
    type: custom
    prompt: "检查认证和授权模式..."
    uses_history: true

性能与规模

  • 异步模式 - 使用 async/await 抓取速度快 23 倍(使用 --async 标志)
  • 大型文档支持 - 通过智能拆分处理 10K40K+ 页文档
  • 路由器/Hub 技能 - 智能路由到专用子技能
  • 并行抓取 - 同时处理多个技能
  • 检查点/续传 - 长时间抓取永不丢失进度
  • 缓存系统 - 抓取一次,即时重建

质量保证

  • 全面测试 - 2,540+ 测试,全面覆盖

📦 安装

# 基础安装文档抓取、GitHub 分析、PDF、打包
pip install skill-seekers

# 包含所有 LLM 平台支持
pip install skill-seekers[all-llms]

# 包含 MCP 服务器
pip install skill-seekers[mcp]

# 全部功能
pip install skill-seekers[all]

需要帮助选择? 运行设置向导:

skill-seekers-setup

安装选项

安装命令 功能
pip install skill-seekers 抓取、GitHub 分析、PDF、所有平台
pip install skill-seekers[gemini] + Google Gemini 支持
pip install skill-seekers[openai] + OpenAI ChatGPT 支持
pip install skill-seekers[all-llms] + 所有 LLM 平台
pip install skill-seekers[mcp] + MCP 服务器
pip install skill-seekers[video] + YouTube/Vimeo 字幕和元数据提取
pip install skill-seekers[video-full] + Whisper 转录和视觉帧提取
pip install skill-seekers[jupyter] + Jupyter 笔记本提取
pip install skill-seekers[ocr] + OCR 支持PDF 扫描件、视觉帧)
pip install skill-seekers[confluence] + Confluence 维基支持
pip install skill-seekers[notion] + Notion 页面支持
pip install skill-seekers[all] 全部功能

视频视觉依赖GPU 感知): 安装 skill-seekers[video-full] 后,运行 skill-seekers video --setup 自动检测您的 GPU 并安装正确的 PyTorch 版本 + easyocr。这是安装视觉提取依赖的推荐方式。


🚀 一键安装工作流

从配置到上传技能的最快方式——全自动化:

# 从官方配置安装 React 技能(自动上传到 Claude
skill-seekers install --config react

# 从本地配置文件安装
skill-seekers install --config configs/custom.json

# 安装但不上传(仅打包)
skill-seekers install --config django --no-upload

# 预览工作流而不执行
skill-seekers install --config react --dry-run

执行阶段:

📥 阶段 1获取配置如果提供配置名称
📖 阶段 2抓取文档
✨ 阶段 3AI 增强
📦 阶段 4打包技能
☁️  阶段 5上传到 Claude可选需要 API Key

📊 功能矩阵

Skill Seekers 支持 12 个 LLM 平台17 种来源类型5 种技能模式,功能完全对等。

平台: Claude AI、Google Gemini、OpenAI ChatGPT、MiniMax AI、通用 Markdown、OpenCode、Kimi、DeepSeek、Qwen、OpenRouter、Together AI、Fireworks AI 来源类型: 文档网站、GitHub 仓库、PDF、Word、EPUB、视频、本地代码库、Jupyter 笔记本、本地 HTML、OpenAPI/Swagger 规范、AsciiDoc 文档、PowerPoint 演示文稿、RSS/Atom 订阅源、Man 手册页、Confluence 维基、Notion 页面、Slack/Discord 聊天记录 技能模式: 文档、GitHub、PDF、统一多源、本地仓库

完整信息请查看 完整功能矩阵

快速平台对比

功能 Claude Gemini OpenAI Markdown
格式 ZIP + YAML tar.gz ZIP + Vector ZIP
上传 API API API 手动
增强 Sonnet 4 2.0 Flash GPT-4o
所有技能模式

使用示例

文档抓取

# 抓取文档网站
skill-seekers scrape --config configs/react.json

# 快速抓取(无需配置)
skill-seekers scrape --url https://react.dev --name react

# 异步模式(快 3 倍)
skill-seekers scrape --config configs/godot.json --async --workers 8

PDF 提取

# 基础 PDF 提取
skill-seekers pdf --pdf docs/manual.pdf --name myskill

# 高级功能
skill-seekers pdf --pdf docs/manual.pdf --name myskill \
    --extract-tables \        # 提取表格
    --parallel \              # 快速并行处理
    --workers 8               # 使用 8 个 CPU 核心

# 扫描 PDF需要: pip install pytesseract Pillow
skill-seekers pdf --pdf docs/scanned.pdf --name myskill --ocr

视频提取

# 安装视频支持
pip install skill-seekers[video]        # 字幕 + 元数据
pip install skill-seekers[video-full]   # + Whisper 转录 + 视觉帧提取

# 自动检测 GPU 并安装视觉依赖PyTorch + easyocr
skill-seekers video --setup

# 从 YouTube 视频提取
skill-seekers video --url https://www.youtube.com/watch?v=dQw4w9WgXcQ --name mytutorial

# 从 YouTube 播放列表提取
skill-seekers video --playlist https://www.youtube.com/playlist?list=... --name myplaylist

# 从本地视频文件提取
skill-seekers video --video-file recording.mp4 --name myrecording

# 使用视觉帧分析提取(需要 video-full 依赖)
skill-seekers video --url https://www.youtube.com/watch?v=... --name mytutorial --visual

# 使用 AI 增强(清理 OCR + 生成精美 SKILL.md
skill-seekers video --url https://www.youtube.com/watch?v=... --visual --enhance-level 2

# 裁剪视频的特定片段支持秒数、MM:SS、HH:MM:SS 格式)
skill-seekers video --url https://www.youtube.com/watch?v=... --start-time 1:30 --end-time 5:00

# 使用 Vision API 处理低置信度 OCR 帧(需要 ANTHROPIC_API_KEY
skill-seekers video --url https://www.youtube.com/watch?v=... --visual --vision-ocr

# 从之前提取的数据重建技能(跳过下载)
skill-seekers video --from-json output/mytutorial/video_data/extracted_data.json --name mytutorial

完整指南: 参见 docs/VIDEO_GUIDE.md 了解完整 CLI 参考、 视觉流水线详情、AI 增强选项和故障排除。

GitHub 仓库分析

# 基础仓库抓取
skill-seekers github --repo facebook/react

# 配置认证(更高速率限制)
export GITHUB_TOKEN=ghp_your_token_here
skill-seekers github --repo facebook/react

# 自定义包含内容
skill-seekers github --repo django/django \
    --include-issues \        # 提取 GitHub Issues
    --max-issues 100 \        # 限制 issue 数量
    --include-changelog       # 提取 CHANGELOG.md

统一多源抓取

将文档 + GitHub + PDF 合并为一个带冲突检测的统一技能:

# 使用现有统一配置
skill-seekers unified --config configs/react_unified.json

# 或创建统一配置
cat > configs/myframework_unified.json << 'EOF'
{
  "name": "myframework",
  "merge_mode": "rule-based",
  "sources": [
    {
      "type": "documentation",
      "base_url": "https://docs.myframework.com/",
      "max_pages": 200
    },
    {
      "type": "github",
      "repo": "owner/myframework",
      "code_analysis_depth": "surface"
    }
  ]
}
EOF

skill-seekers unified --config configs/myframework_unified.json

冲突检测自动发现:

  • 🔴 代码中缺失(高):已文档化但未实现
  • 🟡 文档中缺失(中):已实现但未文档化
  • ⚠️ 签名不匹配:参数/类型不同
  • 描述不匹配:解释不同

完整指南: 参见 docs/UNIFIED_SCRAPING.md

私有配置仓库

使用私有 Git 仓库在团队间共享自定义配置:

# 使用 MCP 工具注册团队私有仓库
add_config_source(
    name="team",
    git_url="https://github.com/mycompany/skill-configs.git",
    token_env="GITHUB_TOKEN"
)

# 从团队仓库获取配置
fetch_config(source="team", config_name="internal-api")

支持的平台:

  • GitHubGITHUB_TOKEN、GitLabGITLAB_TOKEN、GiteaGITEA_TOKEN、BitbucketBITBUCKET_TOKEN

完整指南: 参见 docs/GIT_CONFIG_SOURCES.md

工作原理

graph LR
    A[文档网站] --> B[Skill Seekers]
    B --> C[抓取器]
    B --> D[AI 增强]
    B --> E[打包器]
    C --> F[有序参考文件]
    D --> F
    F --> E
    E --> G[Claude 技能 .zip]
    G --> H[上传到 Claude AI]
  1. 检测 llms.txt - 优先检查 llms-full.txt、llms.txt、llms-small.txt
  2. 抓取:提取文档中的所有页面
  3. 分类将内容组织为主题API、指南、教程等
  4. 增强AI 分析文档并创建包含示例的完整 SKILL.md
  5. 打包:将所有内容打包为 Claude 就绪的 .zip 文件

📋 前提条件

开始前,请确保您具备:

  1. Python 3.10 或更高版本 - 下载 | 检查:python3 --version
  2. Git - 下载 | 检查:git --version
  3. 1530 分钟用于首次设置

首次使用?从这里开始:防弹快速入门指南 🎯


📤 上传技能到 Claude

技能打包完成后,需要将其上传到 Claude

选项 1自动上传基于 API

# 设置 API Key一次性
export ANTHROPIC_API_KEY=sk-ant-...

# 打包并自动上传
skill-seekers package output/react/ --upload

# 或上传已有的 .zip
skill-seekers upload output/react.zip

选项 2手动上传无需 API Key

# 打包技能
skill-seekers package output/react/
# → 创建 output/react.zip

# 然后手动上传:
# - 访问 https://claude.ai/skills
# - 点击"上传技能"
# - 选择 output/react.zip

选项 3MCPClaude Code

在 Claude Code 中,直接询问:
"打包并上传 React 技能"

🤖 安装到 AI 代理

Skill Seekers 可自动将技能安装到 18 个 AI 编程代理。

# 安装到特定代理
skill-seekers install-agent output/react/ --agent cursor

# 一次性安装到所有代理
skill-seekers install-agent output/react/ --agent all

# 预览而不安装
skill-seekers install-agent output/react/ --agent cursor --dry-run

支持的代理

代理 路径 类型
Claude Code ~/.claude/skills/ 全局
Cursor .cursor/skills/ 项目
VS Code / Copilot .github/skills/ 项目
Amp ~/.amp/skills/ 全局
Goose ~/.config/goose/skills/ 全局
OpenCode ~/.opencode/skills/ 全局
Windsurf ~/.windsurf/skills/ 全局
Roo Code .roo/skills/ 项目
Cline .cline/skills/ 项目
Aider ~/.aider/skills/ 全局
Bolt .bolt/skills/ 项目
Kilo Code .kilo/skills/ 项目
Continue ~/.continue/skills/ 全局
Kimi Code ~/.kimi/skills/ 全局

🔌 MCP 集成27 个工具)

Skill Seekers 提供 MCP 服务器,可在 Claude Code、Cursor、Windsurf、VS Code + Cline 或 IntelliJ IDEA 中使用。

# stdio 模式Claude Code、VS Code + Cline
python -m skill_seekers.mcp.server_fastmcp

# HTTP 模式Cursor、Windsurf、IntelliJ
python -m skill_seekers.mcp.server_fastmcp --transport http --port 8765

# 一次性自动配置所有代理
./setup_mcp.sh

所有 27 个工具:

  • 核心9 个): list_configsgenerate_configvalidate_configestimate_pagesscrape_docspackage_skillupload_skillenhance_skillinstall_skill
  • 扩展11 个): scrape_githubscrape_pdfscrape_genericunified_scrapemerge_sourcesdetect_conflictsadd_config_sourcefetch_configlist_config_sourcesremove_config_sourcesplit_config
  • 向量数据库4 个): export_to_chromaexport_to_weaviateexport_to_faissexport_to_qdrant
  • 云存储3 个): cloud_uploadcloud_downloadcloud_list

scrape_generic 支持 10 种新来源类型Jupyter 笔记本、本地 HTML、OpenAPI/Swagger 规范、AsciiDoc 文档、PowerPoint 演示文稿、RSS/Atom 订阅源、Man 手册页、Confluence 维基、Notion 页面、Slack/Discord 聊天记录。

完整指南: docs/MCP_SETUP.md


⚙️ 配置

可用预设24+

# 列出所有预设
skill-seekers list-configs
类别 预设
Web 框架 reactvueangularsveltenextjs
Python djangoflaskfastapisqlalchemypytest
游戏开发 godotpygameunity
工具与 DevOps dockerkubernetesterraformansible
统一(文档 + GitHub react-unifiedvue-unifiednextjs-unified

创建您自己的配置

# 选项 1交互式
skill-seekers scrape --interactive

# 选项 2复制并编辑预设
cp configs/react.json configs/myframework.json
nano configs/myframework.json
skill-seekers scrape --config configs/myframework.json

配置文件结构

{
  "name": "myframework",
  "description": "何时使用此技能",
  "base_url": "https://docs.myframework.com/",
  "selectors": {
    "main_content": "article",
    "title": "h1",
    "code_blocks": "pre code"
  },
  "url_patterns": {
    "include": ["/docs", "/guide"],
    "exclude": ["/blog", "/about"]
  },
  "categories": {
    "getting_started": ["intro", "quickstart"],
    "api": ["api", "reference"]
  },
  "rate_limit": 0.5,
  "max_pages": 500
}

配置存储位置

工具按以下顺序搜索:

  1. 提供的确切路径
  2. ./configs/(当前目录)
  3. ~/.config/skill-seekers/configs/(用户配置目录)
  4. SkillSeekersWeb.com API预设配置

📊 创建的内容

output/
├── godot_data/              # 抓取的原始数据
│   ├── pages/              # JSON 文件(每页一个)
│   └── summary.json        # 概览
│
└── godot/                   # 技能文件
    ├── SKILL.md            # 含真实示例的增强版
    ├── references/         # 分类文档
    │   ├── index.md
    │   ├── getting_started.md
    │   ├── scripting.md
    │   └── ...
    ├── scripts/            # 空(可添加自己的脚本)
    └── assets/             # 空(可添加自己的资源)

🐛 故障排除

未提取到内容?

  • 检查您的 main_content 选择器
  • 尝试:articlemaindiv[role="main"]

数据存在但不使用?

# 强制重新抓取
rm -rf output/myframework_data/
skill-seekers scrape --config configs/myframework.json

分类不理想?

编辑配置中的 categories 部分,使用更好的关键词。

想要更新文档?

# 删除旧数据并重新抓取
rm -rf output/godot_data/
skill-seekers scrape --config configs/godot.json

增强不工作?

# 检查 API Key 是否设置
echo $ANTHROPIC_API_KEY

# 尝试 LOCAL 模式(使用 Claude Code Max无需 API Key
skill-seekers enhance output/react/ --mode LOCAL

# 监控后台增强状态
skill-seekers enhance-status output/react/ --watch

GitHub 速率限制问题?

# 设置 GitHub Token5000 次/小时 vs 匿名 60 次/小时)
export GITHUB_TOKEN=ghp_your_token_here

# 或配置多个配置文件
skill-seekers config --github

📈 性能

任务 时间 备注
抓取(同步) 1545 分钟 仅首次,基于线程
抓取(异步) 515 分钟 --async 标志快 23 倍
构建 13 分钟 从缓存快速重建
重建 <1 分钟 使用 --skip-scrape
增强LOCAL 3060 秒 使用 Claude Code Max
增强API 2040 秒 需要 API Key
打包 510 秒 最终 .zip 创建

📚 文档

入门指南

指南

集成指南


📝 许可证

MIT 许可证 - 详见 LICENSE 文件


祝您构建技能愉快! 🚀