From 9e405df9d07d9423cf8feead3b9c13344917e14e Mon Sep 17 00:00:00 2001 From: yusyus Date: Sun, 15 Mar 2026 16:27:05 +0300 Subject: [PATCH] docs: add README translations for 10 languages (12 total) Add machine-translated README files for Japanese, Korean, Spanish, French, German, Portuguese (BR), Turkish, Arabic, Hindi, and Russian. Update language selector in English and Chinese READMEs to link all 12 versions. New files: README.{ja,ko,es,fr,de,pt-BR,tr,ar,hi,ru}.md Modified: README.md, README.zh-CN.md (language selector bar) --- README.ar.md | 1056 ++++++++++++++++++++++++++++++++++++++++++ README.de.md | 1058 ++++++++++++++++++++++++++++++++++++++++++ README.es.md | 1168 ++++++++++++++++++++++++++++++++++++++++++++++ README.fr.md | 1183 +++++++++++++++++++++++++++++++++++++++++++++++ README.hi.md | 1178 ++++++++++++++++++++++++++++++++++++++++++++++ README.ja.md | 1048 +++++++++++++++++++++++++++++++++++++++++ README.ko.md | 1058 ++++++++++++++++++++++++++++++++++++++++++ README.md | 2 +- README.pt-BR.md | 1168 ++++++++++++++++++++++++++++++++++++++++++++++ README.ru.md | 1056 ++++++++++++++++++++++++++++++++++++++++++ README.tr.md | 1182 ++++++++++++++++++++++++++++++++++++++++++++++ README.zh-CN.md | 2 +- 12 files changed, 11157 insertions(+), 2 deletions(-) create mode 100644 README.ar.md create mode 100644 README.de.md create mode 100644 README.es.md create mode 100644 README.fr.md create mode 100644 README.hi.md create mode 100644 README.ja.md create mode 100644 README.ko.md create mode 100644 README.pt-BR.md create mode 100644 README.ru.md create mode 100644 README.tr.md diff --git a/README.ar.md b/README.ar.md new file mode 100644 index 0000000..ba3b175 --- /dev/null +++ b/README.ar.md @@ -0,0 +1,1056 @@ +

+ Skill Seekers +

+ +# Skill Seekers + +[English](README.md) | [简体中文](README.zh-CN.md) | [日本語](README.ja.md) | [한국어](README.ko.md) | [Español](README.es.md) | [Français](README.fr.md) | [Deutsch](README.de.md) | [Português](README.pt-BR.md) | [Türkçe](README.tr.md) | العربية | [हिन्दी](README.hi.md) | [Русский](README.ru.md) + +> ⚠️ **إشعار الترجمة الآلية** +> +> تمت ترجمة هذا المستند تلقائيًا بواسطة الذكاء الاصطناعي. على الرغم من حرصنا على جودة الترجمة، قد تتضمن تعبيرات غير دقيقة. + +[![الإصدار](https://img.shields.io/badge/version-3.2.0-blue.svg)](https://github.com/yusufkaraaslan/Skill_Seekers/releases) +[![الرخصة: MIT](https://img.shields.io/badge/License-MIT-yellow.svg)](https://opensource.org/licenses/MIT) +[![Python 3.10+](https://img.shields.io/badge/python-3.10+-blue.svg)](https://www.python.org/downloads/) +[![تكامل MCP](https://img.shields.io/badge/MCP-Integrated-blue.svg)](https://modelcontextprotocol.io) +[![الاختبارات](https://img.shields.io/badge/Tests-2540%2B%20Passing-brightgreen.svg)](tests/) +[![لوحة المشروع](https://img.shields.io/badge/Project-Board-purple.svg)](https://github.com/users/yusufkaraaslan/projects/2) +[![إصدار PyPI](https://badge.fury.io/py/skill-seekers.svg)](https://pypi.org/project/skill-seekers/) +[![PyPI - التنزيلات](https://img.shields.io/pypi/dm/skill-seekers.svg)](https://pypi.org/project/skill-seekers/) +[![PyPI - إصدار Python](https://img.shields.io/pypi/pyversions/skill-seekers.svg)](https://pypi.org/project/skill-seekers/) +[![الموقع الرسمي](https://img.shields.io/badge/Website-skillseekersweb.com-blue.svg)](https://skillseekersweb.com/) +[![متابعة على Twitter](https://img.shields.io/twitter/follow/_yUSyUS_?style=social)](https://x.com/_yUSyUS_) +[![نجوم GitHub](https://img.shields.io/github/stars/yusufkaraaslan/Skill_Seekers?style=social)](https://github.com/yusufkaraaslan/Skill_Seekers) + +**🧠 طبقة البيانات لأنظمة الذكاء الاصطناعي.** يحوّل Skill Seekers مواقع التوثيق ومستودعات GitHub وملفات PDF والفيديوهات ودفاتر Jupyter والويكي وأكثر من 17 نوعًا من المصادر إلى أصول معرفية منظمة — جاهزة لتشغيل مهارات الذكاء الاصطناعي (Claude وGemini وOpenAI) وخطوط أنابيب RAG (مثل LangChain وLlamaIndex وPinecone) ومساعدات البرمجة بالذكاء الاصطناعي (مثل Cursor وWindsurf وCline) في دقائق بدلاً من ساعات. + +> 🌐 **[زيارة SkillSeekersWeb.com](https://skillseekersweb.com/)** - تصفح أكثر من 24 إعدادًا مسبقًا، وشارك إعداداتك، واطّلع على التوثيق الكامل! + +> 📋 **[عرض خارطة الطريق والمهام](https://github.com/users/yusufkaraaslan/projects/2)** - 134 مهمة عبر 10 فئات، اختر أيًا منها للمساهمة! + +## 🧠 طبقة البيانات لأنظمة الذكاء الاصطناعي + +**Skill Seekers هو طبقة المعالجة المسبقة العامة** التي تقع بين التوثيق الخام وجميع أنظمة الذكاء الاصطناعي التي تستهلكه. سواء كنت تبني مهارات Claude أو خط أنابيب RAG باستخدام LangChain أو ملف `.cursorrules` لـ Cursor — فإن تحضير البيانات متطابق. تقوم بذلك مرة واحدة وتصدّر إلى جميع المنصات المستهدفة. + +```bash +# أمر واحد → أصل معرفي منظم +skill-seekers create https://docs.react.dev/ +# أو: skill-seekers create facebook/react +# أو: skill-seekers create ./my-project + +# التصدير إلى أي نظام ذكاء اصطناعي +skill-seekers package output/react --target claude # → مهارة Claude AI (ZIP) +skill-seekers package output/react --target langchain # → LangChain Documents +skill-seekers package output/react --target llama-index # → LlamaIndex TextNodes +skill-seekers package output/react --target cursor # → .cursorrules +``` + +### المخرجات التي يتم بناؤها + +| المخرج | الهدف | ما يشغّله | +|--------|-------|----------| +| **مهارة Claude** (ZIP + YAML) | `--target claude` | Claude Code وClaude API | +| **مهارة Gemini** (tar.gz) | `--target gemini` | Google Gemini | +| **OpenAI / Custom GPT** (ZIP) | `--target openai` | GPT-4o والمساعدات المخصصة | +| **LangChain Documents** | `--target langchain` | سلاسل الأسئلة والأجوبة والوكلاء والمسترجعات | +| **LlamaIndex TextNodes** | `--target llama-index` | محركات الاستعلام ومحركات المحادثة | +| **Haystack Documents** | `--target haystack` | خطوط أنابيب RAG للمؤسسات | +| **Pinecone جاهز** (Markdown) | `--target markdown` | رفع المتجهات | +| **ChromaDB / FAISS / Qdrant** | `--format chroma/faiss/qdrant` | قواعد بيانات المتجهات المحلية | +| **Cursor** `.cursorrules` | `--target claude` → نسخ | سياق الذكاء الاصطناعي في Cursor IDE | +| **Windsurf / Cline / Continue** | `--target claude` → نسخ | VS Code وIntelliJ وVim | + +### لماذا هذا مهم + +- ⚡ **أسرع بنسبة 99%** — أيام من التحضير اليدوي → 15–45 دقيقة +- 🎯 **جودة مهارات الذكاء الاصطناعي** — ملفات SKILL.md بأكثر من 500 سطر تتضمن أمثلة وأنماط وأدلة +- 📊 **تقسيم جاهز لـ RAG** — تقسيم ذكي يحافظ على كتل الكود ويصون السياق +- 🎬 **الفيديو** — استخراج الكود والنصوص والمعرفة المنظمة من يوتيوب والفيديوهات المحلية +- 🔄 **متعدد المصادر** — دمج 17 نوعًا من المصادر (توثيق وGitHub وPDF وفيديو ودفاتر Jupyter وويكي والمزيد) في أصل معرفي واحد +- 🌐 **تحضير واحد لكل الأهداف** — تصدير نفس الأصل إلى 16 منصة دون إعادة الاستخراج +- ✅ **مُختبر بإحكام** — أكثر من 2,540 اختبارًا و24 إعدادًا مسبقًا للأطر البرمجية، جاهز للإنتاج + +## البدء السريع + +```bash +pip install skill-seekers + +# بناء مهارة ذكاء اصطناعي من أي مصدر +skill-seekers create https://docs.django.com/ # موقع توثيق +skill-seekers create django/django # مستودع GitHub +skill-seekers create ./my-codebase # مشروع محلي +skill-seekers create manual.pdf # ملف PDF +skill-seekers create manual.docx # مستند Word +skill-seekers create book.epub # كتاب إلكتروني EPUB +skill-seekers create notebook.ipynb # دفتر Jupyter +skill-seekers create page.html # ملف HTML محلي +skill-seekers create api-spec.yaml # مواصفات OpenAPI/Swagger +skill-seekers create guide.adoc # مستند AsciiDoc +skill-seekers create slides.pptx # عرض PowerPoint + +# الفيديو (YouTube أو Vimeo أو ملف محلي — يتطلب skill-seekers[video]) +skill-seekers video --url https://www.youtube.com/watch?v=... --name mytutorial +# أول مرة؟ تثبيت تلقائي للمكونات المرئية المتوافقة مع GPU: +skill-seekers video --setup + +# التصدير حسب الاستخدام +skill-seekers package output/django --target claude # مهارة Claude AI +skill-seekers package output/django --target langchain # LangChain RAG +skill-seekers package output/django --target cursor # سياق Cursor IDE +``` + +**أمثلة كاملة:** +- [مهارة Claude AI](examples/claude-skill/) - مهارة لـ Claude Code +- [خط أنابيب LangChain RAG](examples/langchain-rag-pipeline/) - سلسلة أسئلة وأجوبة مبنية على Chroma +- [سياق Cursor IDE](examples/cursor-react-skill/) - برمجة ذكية مدركة للإطار البرمجي + +## ما هو Skill Seekers؟ + +Skill Seekers هو **طبقة البيانات لأنظمة الذكاء الاصطناعي** التي تحوّل 17 نوعًا من المصادر — مواقع التوثيق ومستودعات GitHub وملفات PDF والفيديوهات ودفاتر Jupyter ومستندات Word/EPUB/AsciiDoc ومواصفات OpenAPI/Swagger وعروض PowerPoint وخلاصات RSS/Atom وصفحات Man وويكي Confluence وصفحات Notion ومحادثات Slack/Discord والمزيد — إلى أصول معرفية منظمة لكل منصة ذكاء اصطناعي: + +| حالة الاستخدام | ما تحصل عليه | أمثلة | +|---------------|-------------|-------| +| **مهارات الذكاء الاصطناعي** | ملف SKILL.md شامل + مراجع | Claude Code وGemini وGPT | +| **خطوط أنابيب RAG** | مستندات مقسمة مع بيانات وصفية غنية | LangChain وLlamaIndex وHaystack | +| **قواعد بيانات المتجهات** | بيانات مُنسقة مسبقًا جاهزة للرفع | Pinecone وChroma وWeaviate وFAISS | +| **مساعدات البرمجة بالذكاء الاصطناعي** | ملفات سياق يقرأها الذكاء الاصطناعي في بيئة التطوير تلقائيًا | Cursor وWindsurf وCline وContinue.dev | + +يحل Skill Seekers محل أيام التحضير اليدوي من خلال: + +1. **الاستيعاب** — التوثيق ومستودعات GitHub وقواعد الكود المحلية وملفات PDF والفيديوهات ودفاتر Jupyter والويكي وأكثر من 17 نوعًا من المصادر +2. **التحليل** — تحليل AST العميق واكتشاف الأنماط واستخراج واجهات API +3. **الهيكلة** — ملفات مرجعية مُصنفة مع بيانات وصفية +4. **التعزيز** — توليد SKILL.md مدعوم بالذكاء الاصطناعي (Claude أو Gemini أو محلي) +5. **التصدير** — 16 تنسيقًا خاصًا بكل منصة من أصل واحد + +## لماذا تستخدم Skill Seekers؟ + +### لبنّائي مهارات الذكاء الاصطناعي (Claude وGemini وOpenAI) + +- 🎯 **مهارات بجودة إنتاجية** — ملفات SKILL.md بأكثر من 500 سطر تتضمن أمثلة كود وأنماط وأدلة +- 🔄 **سير عمل التعزيز** — تطبيق `security-focus` أو `architecture-comprehensive` أو إعدادات YAML مخصصة +- 🎮 **أي مجال** — محركات الألعاب (Godot وUnity) والأطر البرمجية (React وDjango) والأدوات الداخلية +- 🔧 **الفرق** — دمج التوثيق الداخلي + الكود في مصدر حقيقة واحد +- 📚 **جودة عالية** — معززة بالذكاء الاصطناعي مع أمثلة ومرجع سريع ودليل تنقل + +### لبنّائي RAG ومهندسي الذكاء الاصطناعي + +- 🤖 **بيانات جاهزة لـ RAG** — مستندات LangChain `Documents` مُقسمة مسبقًا وLlamaIndex `TextNodes` وHaystack `Documents` +- 🚀 **أسرع بنسبة 99%** — أيام من المعالجة المسبقة → 15–45 دقيقة +- 📊 **بيانات وصفية ذكية** — فئات ومصادر وأنواع → دقة استرجاع أعلى +- 🔄 **متعدد المصادر** — دمج التوثيق + GitHub + PDF في خط أنابيب واحد +- 🌐 **مستقل عن المنصة** — التصدير إلى أي قاعدة بيانات متجهات أو إطار عمل دون إعادة الاستخراج + +### لمستخدمي مساعدات البرمجة بالذكاء الاصطناعي + +- 💻 **Cursor / Windsurf / Cline** — توليد `.cursorrules` / `.windsurfrules` / `.clinerules` تلقائيًا +- 🎯 **سياق دائم** — الذكاء الاصطناعي "يعرف" أطرك البرمجية دون تكرار التوجيهات +- 📚 **محدّث دائمًا** — تحديث السياق في دقائق عند تغير التوثيق + +## الميزات الرئيسية + +### 🌐 استخراج التوثيق +- ✅ **دعم llms.txt** - اكتشاف واستخدام ملفات التوثيق الجاهزة لنماذج اللغة تلقائيًا (أسرع 10 مرات) +- ✅ **مُستخرج عام** - يعمل مع أي موقع توثيق +- ✅ **تصنيف ذكي** - تنظيم المحتوى حسب الموضوع تلقائيًا +- ✅ **اكتشاف لغة الكود** - التعرف على Python وJavaScript وC++ وGDScript وغيرها +- ✅ **أكثر من 24 إعدادًا مسبقًا جاهزًا** - Godot وReact وVue وDjango وFastAPI والمزيد + +### 📄 دعم PDF +- ✅ **استخراج PDF الأساسي** - استخراج النصوص والكود والصور من ملفات PDF +- ✅ **OCR للمستندات الممسوحة** - استخراج النص من المستندات الممسوحة ضوئيًا +- ✅ **ملفات PDF المحمية بكلمة مرور** - التعامل مع ملفات PDF المشفرة +- ✅ **استخراج الجداول** - استخراج الجداول المعقدة +- ✅ **المعالجة المتوازية** - أسرع 3 مرات لملفات PDF الكبيرة +- ✅ **التخزين المؤقت الذكي** - أسرع 50% عند إعادة التشغيل + +### 🎬 استخراج الفيديو +- ✅ **YouTube والفيديوهات المحلية** - استخراج النصوص والكود والمعرفة المنظمة من الفيديوهات +- ✅ **تحليل الإطارات المرئية** - استخراج OCR من محررات الكود والطرفيات والشرائح والمخططات +- ✅ **اكتشاف GPU تلقائي** - تثبيت إصدار PyTorch الصحيح تلقائيًا (CUDA/ROCm/MPS/CPU) +- ✅ **تعزيز بالذكاء الاصطناعي** - مرحلتان: تنظيف مخرجات OCR + توليد SKILL.md مصقول +- ✅ **قص زمني** - استخراج أقسام محددة باستخدام `--start-time` و`--end-time` +- ✅ **دعم قوائم التشغيل** - معالجة جميع فيديوهات قائمة تشغيل YouTube دفعة واحدة + +### 🐙 تحليل مستودعات GitHub +- ✅ **تحليل كود عميق** - تحليل AST لـ Python وJavaScript وTypeScript وJava وC++ وGo +- ✅ **استخراج واجهات API** - الدوال والأصناف والتوابع مع المعاملات والأنواع +- ✅ **بيانات المستودع الوصفية** - README وشجرة الملفات وتوزيع اللغات والنجوم/التفريعات +- ✅ **GitHub Issues وPR** - جلب المشكلات المفتوحة/المغلقة مع التصنيفات والمراحل +- ✅ **CHANGELOG والإصدارات** - استخراج سجل الإصدارات تلقائيًا +- ✅ **اكتشاف التعارضات** - مقارنة واجهات API الموثقة مع التنفيذ الفعلي للكود +- ✅ **تكامل MCP** - لغة طبيعية: "استخرج مستودع GitHub facebook/react" + +### 🔄 الاستخراج الموحد متعدد المصادر +- ✅ **دمج مصادر متعددة** - خلط التوثيق + GitHub + PDF في مهارة واحدة +- ✅ **اكتشاف التعارضات** - اكتشاف التناقضات بين التوثيق والكود تلقائيًا +- ✅ **دمج ذكي** - حل التعارضات قائم على القواعد أو مدعوم بالذكاء الاصطناعي +- ✅ **تقارير شفافة** - مقارنة جنبًا إلى جنب مع تحذيرات ⚠️ +- ✅ **تحليل فجوات التوثيق** - تحديد التوثيق القديم والميزات غير الموثقة +- ✅ **مصدر حقيقة واحد** - مهارة واحدة تعرض كلاً من النية (التوثيق) والواقع (الكود) +- ✅ **التوافق مع الإصدارات السابقة** - إعدادات المصدر الواحد القديمة تعمل بشكل طبيعي + +### 🤖 دعم منصات LLM المتعددة +- ✅ **4 منصات LLM** - Claude AI وGoogle Gemini وOpenAI ChatGPT وMarkdown العام +- ✅ **استخراج عام** - نفس التوثيق يعمل لجميع المنصات +- ✅ **تعبئة خاصة بكل منصة** - تنسيقات محسّنة لكل نموذج لغوي +- ✅ **تصدير بأمر واحد** - علامة `--target` لاختيار المنصة +- ✅ **تبعيات اختيارية** - تثبيت ما تحتاجه فقط +- ✅ **توافق 100% مع الإصدارات السابقة** - سير عمل Claude الحالي لا يتغير + +| المنصة | التنسيق | الرفع | التعزيز | API Key | نقطة نهاية مخصصة | +|--------|---------|-------|---------|---------|-----------------| +| **Claude AI** | ZIP + YAML | ✅ تلقائي | ✅ نعم | ANTHROPIC_API_KEY | ANTHROPIC_BASE_URL | +| **Google Gemini** | tar.gz | ✅ تلقائي | ✅ نعم | GOOGLE_API_KEY | - | +| **OpenAI ChatGPT** | ZIP + Vector Store | ✅ تلقائي | ✅ نعم | OPENAI_API_KEY | - | +| **Markdown العام** | ZIP | ❌ يدوي | ❌ لا | - | - | + +```bash +# Claude (الافتراضي - لا حاجة لتغييرات!) +skill-seekers package output/react/ +skill-seekers upload react.zip + +# Google Gemini +pip install skill-seekers[gemini] +skill-seekers package output/react/ --target gemini +skill-seekers upload react-gemini.tar.gz --target gemini + +# OpenAI ChatGPT +pip install skill-seekers[openai] +skill-seekers package output/react/ --target openai +skill-seekers upload react-openai.zip --target openai + +# Markdown العام (تصدير عام) +skill-seekers package output/react/ --target markdown +``` + +
+🔧 متغيرات البيئة لواجهات API المتوافقة مع Claude (مثل GLM-4.7) + +يدعم Skill Seekers أي نقطة نهاية API متوافقة مع Claude: + +```bash +# الخيار 1: واجهة Anthropic الرسمية (الافتراضي) +export ANTHROPIC_API_KEY=sk-ant-... + +# الخيار 2: GLM-4.7 واجهة API متوافقة مع Claude +export ANTHROPIC_API_KEY=your-glm-47-api-key +export ANTHROPIC_BASE_URL=https://glm-4-7-endpoint.com/v1 + +# جميع ميزات التعزيز بالذكاء الاصطناعي ستستخدم نقطة النهاية المُعدّة +skill-seekers enhance output/react/ +skill-seekers analyze --directory . --enhance +``` + +**ملاحظة**: تعيين `ANTHROPIC_BASE_URL` يتيح لك استخدام أي نقطة نهاية API متوافقة مع Claude، مثل GLM-4.7 أو خدمات أخرى متوافقة. + +
+ +**التثبيت:** +```bash +# تثبيت دعم Gemini +pip install skill-seekers[gemini] + +# تثبيت دعم OpenAI +pip install skill-seekers[openai] + +# تثبيت جميع منصات LLM +pip install skill-seekers[all-llms] +``` + +### 🔗 تكامل أطر RAG + +- ✅ **LangChain Documents** - تصدير مباشر بتنسيق `Document` مع `page_content` + بيانات وصفية + - مناسب لـ: سلاسل الأسئلة والأجوبة والمسترجعات ومخازن المتجهات والوكلاء + - مثال: [خط أنابيب LangChain RAG](examples/langchain-rag-pipeline/) + - دليل: [تكامل LangChain](docs/integrations/LANGCHAIN.md) + +- ✅ **LlamaIndex TextNodes** - تصدير بتنسيق `TextNode` مع معرّفات فريدة + تضمينات + - مناسب لـ: محركات الاستعلام ومحركات المحادثة وسياق التخزين + - مثال: [محرك استعلام LlamaIndex](examples/llama-index-query-engine/) + - دليل: [تكامل LlamaIndex](docs/integrations/LLAMA_INDEX.md) + +- ✅ **تنسيق Pinecone الجاهز** - محسّن لرفع البيانات إلى قواعد بيانات المتجهات + - مناسب لـ: البحث المتجهي الإنتاجي والبحث الدلالي والبحث الهجين + - مثال: [رفع Pinecone](examples/pinecone-upsert/) + - دليل: [تكامل Pinecone](docs/integrations/PINECONE.md) + +**تصدير سريع:** +```bash +# LangChain Documents (JSON) +skill-seekers package output/django --target langchain +# → output/django-langchain.json + +# LlamaIndex TextNodes (JSON) +skill-seekers package output/django --target llama-index +# → output/django-llama-index.json + +# Markdown (عام) +skill-seekers package output/django --target markdown +# → output/django-markdown/SKILL.md + references/ +``` + +**دليل خط أنابيب RAG الكامل:** [توثيق خطوط أنابيب RAG](docs/integrations/RAG_PIPELINES.md) + +--- + +### 🧠 تكامل مساعدات البرمجة بالذكاء الاصطناعي + +تحويل توثيق أي إطار برمجي إلى سياق برمجي خبير لأكثر من 4 مساعدات ذكاء اصطناعي: + +- ✅ **Cursor IDE** - توليد `.cursorrules` لاقتراحات الكود المدعومة بالذكاء الاصطناعي + - مناسب لـ: توليد كود خاص بالإطار البرمجي وأنماط متسقة + - دليل: [تكامل Cursor](docs/integrations/CURSOR.md) + - مثال: [مهارة Cursor React](examples/cursor-react-skill/) + +- ✅ **Windsurf** - تخصيص سياق مساعد Windsurf AI باستخدام `.windsurfrules` + - مناسب لـ: مساعدة الذكاء الاصطناعي المدمجة في بيئة التطوير والبرمجة التدفقية + - دليل: [تكامل Windsurf](docs/integrations/WINDSURF.md) + - مثال: [سياق Windsurf FastAPI](examples/windsurf-fastapi-context/) + +- ✅ **Cline (VS Code)** - موجهات النظام + MCP لوكيل VS Code + - مناسب لـ: توليد الكود الذكي في VS Code + - دليل: [تكامل Cline](docs/integrations/CLINE.md) + - مثال: [مساعد Cline Django](examples/cline-django-assistant/) + +- ✅ **Continue.dev** - خوادم سياق مستقلة عن بيئة التطوير + - مناسب لـ: بيئات تطوير متعددة (VS Code وJetBrains وVim) ومزودي LLM مخصصين + - دليل: [تكامل Continue](docs/integrations/CONTINUE_DEV.md) + - مثال: [سياق Continue العام](examples/continue-dev-universal/) + +**تصدير سريع (لأدوات البرمجة بالذكاء الاصطناعي):** +```bash +# لأي مساعد برمجة بالذكاء الاصطناعي (Cursor وWindsurf وCline وContinue.dev) +skill-seekers scrape --config configs/django.json +skill-seekers package output/django --target claude + +# نسخ إلى مشروعك (مثال لـ Cursor) +cp output/django-claude/SKILL.md my-project/.cursorrules + +# أو لـ Windsurf +cp output/django-claude/SKILL.md my-project/.windsurf/rules/django.md + +# أو لـ Cline +cp output/django-claude/SKILL.md my-project/.clinerules +``` + +**مركز التكامل:** [جميع تكاملات أنظمة الذكاء الاصطناعي](docs/integrations/INTEGRATIONS.md) + +--- + +### 🌊 بنية GitHub ثلاثية التدفقات +- ✅ **تحليل ثلاثي التدفقات** - تقسيم مستودعات GitHub إلى تدفقات الكود والتوثيق والرؤى +- ✅ **محلل قاعدة كود موحد** - يعمل مع عناوين URL الخاصة بـ GitHub والمسارات المحلية +- ✅ **C3.x كعمق تحليل** - اختر 'basic' (1–2 دقيقة) أو 'c3x' (20–60 دقيقة) +- ✅ **توليد موجّه مُحسّن** - بيانات GitHub الوصفية وبداية سريعة من README والمشاكل الشائعة +- ✅ **تكامل المشكلات** - المشاكل والحلول الأكثر شيوعًا من GitHub Issues +- ✅ **كلمات مفتاحية ذكية للتوجيه** - أوزان تصنيفات GitHub مضاعفة لاكتشاف أفضل للمواضيع + +**شرح التدفقات الثلاثة:** +- **التدفق 1: الكود** - تحليل C3.x العميق (أنماط وأمثلة وأدلة وإعدادات وبنية معمارية) +- **التدفق 2: التوثيق** - توثيق المستودع (README وCONTRIBUTING وdocs/*.md) +- **التدفق 3: الرؤى** - المعرفة المجتمعية (المشكلات والتصنيفات والنجوم والتفريعات) + +```python +from skill_seekers.cli.unified_codebase_analyzer import UnifiedCodebaseAnalyzer + +# تحليل مستودع GitHub بالتدفقات الثلاثة +analyzer = UnifiedCodebaseAnalyzer() +result = analyzer.analyze( + source="https://github.com/facebook/react", + depth="c3x", # أو "basic" للتحليل السريع + fetch_github_metadata=True +) + +print(f"أنماط التصميم: {len(result.code_analysis['c3_1_patterns'])}") +print(f"النجوم: {result.github_insights['metadata']['stars']}") +``` + +**التوثيق الكامل**: [ملخص تنفيذ التدفقات الثلاثة](docs/IMPLEMENTATION_SUMMARY_THREE_STREAM.md) + +### 🔐 إدارة حدود المعدل الذكية والإعدادات +- ✅ **نظام إعداد متعدد الرموز** - إدارة حسابات GitHub متعددة (شخصي وعمل ومفتوح المصدر) + - تخزين آمن للإعدادات في `~/.config/skill-seekers/config.json` (صلاحيات 600) + - استراتيجيات حد المعدل لكل ملف تعريف: `prompt` و`wait` و`switch` و`fail` + - سلسلة احتياطية ذكية: معامل CLI → متغير بيئة → ملف إعداد → موجه +- ✅ **معالج إعداد تفاعلي** - واجهة طرفية جميلة للإعداد السهل +- ✅ **معالج حدود المعدل الذكي** - لا مزيد من الانتظار غير المحدود! + - عد تنازلي في الوقت الفعلي مع تبديل تلقائي للملفات التعريفية + - أربع استراتيجيات: prompt (استفسار) وwait (عد تنازلي) وswitch (تبديل) وfail (إيقاف) +- ✅ **الاستئناف** - متابعة المهام المتوقفة +- ✅ **دعم CI/CD** - علامة `--non-interactive` للأتمتة + +**إعداد سريع:** +```bash +# إعداد لمرة واحدة (5 دقائق) +skill-seekers config --github + +# استخدام ملف تعريف محدد للمستودعات الخاصة +skill-seekers github --repo mycompany/private-repo --profile work + +# وضع CI/CD (فشل سريع، بدون موجهات) +skill-seekers github --repo owner/repo --non-interactive +``` + +### 🎯 مهارة Bootstrap - الاستضافة الذاتية + +توليد skill-seekers نفسه كمهارة Claude Code لاستخدامه داخل Claude: + +```bash +./scripts/bootstrap_skill.sh +cp -r output/skill-seekers ~/.claude/skills/ +``` + +### 🔐 مستودعات الإعدادات الخاصة +- ✅ **مصادر إعداد مبنية على Git** - جلب الإعدادات من مستودعات Git خاصة/فرقية +- ✅ **إدارة متعددة المصادر** - تسجيل عدد غير محدود من مستودعات GitHub وGitLab وBitbucket +- ✅ **تعاون الفرق** - مشاركة الإعدادات المخصصة بين فرق من 3–5 أشخاص +- ✅ **دعم المؤسسات** - التوسع إلى أكثر من 500 مطور +- ✅ **مصادقة آمنة** - رموز متغيرات البيئة (GITHUB_TOKEN وGITLAB_TOKEN) + +### 🤖 تحليل قاعدة الكود (C3.x) + +**C3.4: استخراج أنماط الإعداد (مع تعزيز الذكاء الاصطناعي)** +- ✅ **9 تنسيقات إعداد** - JSON وYAML وTOML وENV وINI وPython وJavaScript وDockerfile وDocker Compose +- ✅ **7 أنواع أنماط** - قاعدة بيانات وAPI وتسجيل وذاكرة مؤقتة وبريد إلكتروني ومصادقة وإعدادات الخادم +- ✅ **تعزيز بالذكاء الاصطناعي** - تحليل ذكاء اصطناعي اختياري بوضعين (API + LOCAL) +- ✅ **تحليل أمني** - اكتشاف المفاتيح المضمنة في الكود وبيانات الاعتماد المكشوفة + +**C3.3: أدلة إرشادية معززة بالذكاء الاصطناعي** +- ✅ **تعزيز شامل بالذكاء الاصطناعي** - تحويل الأدلة الأساسية إلى دروس احترافية +- ✅ **5 تحسينات تلقائية** - وصف الخطوات واستكشاف الأخطاء والمتطلبات المسبقة والخطوات التالية وحالات الاستخدام +- ✅ **دعم الوضعين** - وضع API (واجهة Claude) أو وضع LOCAL (Claude Code CLI) +- ✅ **بدون تكلفة في الوضع المحلي** - تعزيز مجاني باستخدام خطة Claude Code Max + +**الاستخدام:** +```bash +# تحليل سريع (1–2 دقيقة، الميزات الأساسية فقط) +skill-seekers analyze --directory tests/ --quick + +# تحليل شامل (مع الذكاء الاصطناعي، 20–60 دقيقة) +skill-seekers analyze --directory tests/ --comprehensive + +# مع تعزيز الذكاء الاصطناعي +skill-seekers analyze --directory tests/ --enhance +``` + +**التوثيق الكامل:** [docs/HOW_TO_GUIDES.md](docs/HOW_TO_GUIDES.md#ai-enhancement-new) + +### 🔄 إعدادات سير عمل التعزيز المسبقة + +خطوط أنابيب تعزيز قابلة لإعادة الاستخدام مُعرّفة بـ YAML تتحكم في كيفية تحويل الذكاء الاصطناعي لتوثيقك الخام إلى مهارة مصقولة. + +- ✅ **5 إعدادات مسبقة مُضمّنة** — `default` و`minimal` و`security-focus` و`architecture-comprehensive` و`api-documentation` +- ✅ **إعدادات مخصصة** — إضافة سير عمل مخصص إلى `~/.config/skill-seekers/workflows/` +- ✅ **سلسلة سير عمل متعددة** — ربط اثنين أو أكثر من سير العمل في أمر واحد +- ✅ **إدارة كاملة عبر CLI** — عرض ونسخ وإضافة وحذف والتحقق من سير العمل + +```bash +# تطبيق سير عمل واحد +skill-seekers create ./my-project --enhance-workflow security-focus + +# ربط عدة أسلوب عمل (تُطبق بالترتيب) +skill-seekers create ./my-project \ + --enhance-workflow security-focus \ + --enhance-workflow minimal + +# إدارة الإعدادات المسبقة +skill-seekers workflows list # عرض الكل (مُضمّنة + مخصصة) +skill-seekers workflows show security-focus # عرض محتوى YAML +skill-seekers workflows copy security-focus # نسخ إلى مجلد المستخدم للتعديل +skill-seekers workflows add ./my-workflow.yaml # تثبيت إعداد مخصص +skill-seekers workflows remove my-workflow # حذف إعداد مخصص +skill-seekers workflows validate security-focus # التحقق من بنية الإعداد + +# نسخ عدة إعدادات دفعة واحدة +skill-seekers workflows copy security-focus minimal api-documentation + +# إضافة عدة ملفات دفعة واحدة +skill-seekers workflows add ./wf-a.yaml ./wf-b.yaml + +# حذف عدة إعدادات دفعة واحدة +skill-seekers workflows remove my-wf-a my-wf-b +``` + +**تنسيق إعداد YAML المسبق:** +```yaml +name: security-focus +description: "مراجعة أمنية: الثغرات والمصادقة ومعالجة البيانات" +version: "1.0" +stages: + - name: vulnerabilities + type: custom + prompt: "مراجعة OWASP Top 10 والثغرات الأمنية الشائعة..." + - name: auth-review + type: custom + prompt: "فحص أنماط المصادقة والتفويض..." + uses_history: true +``` + +### ⚡ الأداء والتوسع +- ✅ **الوضع غير المتزامن** - استخراج أسرع 2–3 مرات مع async/await (استخدم علامة `--async`) +- ✅ **دعم التوثيق الكبير** - معالجة أكثر من 10 آلاف–40 ألف صفحة بالتقسيم الذكي +- ✅ **مهارات الموجّه/المحور** - توجيه ذكي إلى مهارات فرعية متخصصة +- ✅ **استخراج متوازٍ** - معالجة عدة مهارات في وقت واحد +- ✅ **نقاط التفتيش/الاستئناف** - لا فقدان للتقدم في عمليات الاستخراج الطويلة +- ✅ **نظام التخزين المؤقت** - استخراج مرة واحدة وإعادة البناء فورًا + +### ✅ ضمان الجودة +- ✅ **اختبار كامل** - أكثر من 2,540 اختبارًا بتغطية شاملة + +--- + +## 📦 التثبيت + +```bash +# التثبيت الأساسي (استخراج التوثيق وتحليل GitHub وPDF والتعبئة) +pip install skill-seekers + +# مع دعم جميع منصات LLM +pip install skill-seekers[all-llms] + +# مع خادم MCP +pip install skill-seekers[mcp] + +# كل شيء +pip install skill-seekers[all] +``` + +**تحتاج مساعدة في الاختيار؟** شغّل معالج الإعداد: +```bash +skill-seekers-setup +``` + +### خيارات التثبيت + +| أمر التثبيت | الميزات | +|------------|---------| +| `pip install skill-seekers` | الاستخراج وتحليل GitHub وPDF وجميع المنصات | +| `pip install skill-seekers[gemini]` | + دعم Google Gemini | +| `pip install skill-seekers[openai]` | + دعم OpenAI ChatGPT | +| `pip install skill-seekers[all-llms]` | + جميع منصات LLM | +| `pip install skill-seekers[mcp]` | + خادم MCP | +| `pip install skill-seekers[video]` | + استخراج نصوص وبيانات YouTube/Vimeo | +| `pip install skill-seekers[video-full]` | + نسخ Whisper + استخراج الإطارات المرئية | +| `pip install skill-seekers[jupyter]` | + دعم دفاتر Jupyter | +| `pip install skill-seekers[pptx]` | + دعم PowerPoint | +| `pip install skill-seekers[confluence]` | + دعم ويكي Confluence | +| `pip install skill-seekers[notion]` | + دعم صفحات Notion | +| `pip install skill-seekers[rss]` | + دعم خلاصات RSS/Atom | +| `pip install skill-seekers[chat]` | + دعم تصدير محادثات Slack/Discord | +| `pip install skill-seekers[asciidoc]` | + دعم مستندات AsciiDoc | +| `pip install skill-seekers[all]` | تفعيل كل شيء | + +> **المكونات المرئية للفيديو (مدركة لـ GPU):** بعد تثبيت `skill-seekers[video-full]`، شغّل +> `skill-seekers video --setup` لاكتشاف GPU تلقائيًا وتثبيت إصدار PyTorch +> الصحيح + easyocr. هذه هي الطريقة الموصى بها لتثبيت مكونات الاستخراج المرئي. + +--- + +## 🚀 سير عمل التثبيت بأمر واحد + +**أسرع طريقة من الإعداد إلى المهارة المرفوعة — أتمتة كاملة:** + +```bash +# تثبيت مهارة React من الإعدادات الرسمية (رفع تلقائي إلى Claude) +skill-seekers install --config react + +# التثبيت من ملف إعداد محلي +skill-seekers install --config configs/custom.json + +# التثبيت بدون رفع (تعبئة فقط) +skill-seekers install --config django --no-upload + +# معاينة سير العمل بدون تنفيذ +skill-seekers install --config react --dry-run +``` + +**المراحل المنفذة:** +``` +📥 المرحلة 1: جلب الإعداد (إذا تم توفير اسم إعداد) +📖 المرحلة 2: استخراج التوثيق +✨ المرحلة 3: تعزيز بالذكاء الاصطناعي +📦 المرحلة 4: تعبئة المهارة +☁️ المرحلة 5: الرفع إلى Claude (اختياري، يتطلب API Key) +``` + +--- + +## 📊 مصفوفة الميزات + +يدعم Skill Seekers **4 منصات LLM** و**17 نوعًا من المصادر** مع تكافؤ كامل في الميزات عبر جميع الأهداف. + +**المنصات:** Claude AI وGoogle Gemini وOpenAI ChatGPT وMarkdown العام +**أنواع المصادر:** مواقع التوثيق ومستودعات GitHub وPDF وWord (.docx) وEPUB والفيديو وقواعد الكود المحلية ودفاتر Jupyter وHTML المحلي وOpenAPI/Swagger وAsciiDoc وPowerPoint (.pptx) وخلاصات RSS/Atom وصفحات Man وويكي Confluence وصفحات Notion ومحادثات Slack/Discord + +انظر [مصفوفة الميزات الكاملة](docs/FEATURE_MATRIX.md) لدعم المنصات والميزات بالتفصيل. + +### مقارنة سريعة بين المنصات + +| الميزة | Claude | Gemini | OpenAI | Markdown | +|--------|--------|--------|--------|----------| +| التنسيق | ZIP + YAML | tar.gz | ZIP + Vector | ZIP | +| الرفع | ✅ API | ✅ API | ✅ API | ❌ يدوي | +| التعزيز | ✅ Sonnet 4 | ✅ 2.0 Flash | ✅ GPT-4o | ❌ لا يوجد | +| جميع أوضاع المهارات | ✅ | ✅ | ✅ | ✅ | + +--- + +## أمثلة الاستخدام + +### استخراج التوثيق + +```bash +# استخراج موقع توثيق +skill-seekers scrape --config configs/react.json + +# استخراج سريع (بدون إعداد) +skill-seekers scrape --url https://react.dev --name react + +# الوضع غير المتزامن (أسرع 3 مرات) +skill-seekers scrape --config configs/godot.json --async --workers 8 +``` + +### استخراج PDF + +```bash +# استخراج PDF أساسي +skill-seekers pdf --pdf docs/manual.pdf --name myskill + +# ميزات متقدمة +skill-seekers pdf --pdf docs/manual.pdf --name myskill \ + --extract-tables \ # استخراج الجداول + --parallel \ # معالجة متوازية سريعة + --workers 8 # استخدام 8 أنوية CPU + +# ملفات PDF الممسوحة ضوئيًا (يتطلب: pip install pytesseract Pillow) +skill-seekers pdf --pdf docs/scanned.pdf --name myskill --ocr +``` + +### استخراج الفيديو + +```bash +# تثبيت دعم الفيديو +pip install skill-seekers[video] # النصوص + البيانات الوصفية +pip install skill-seekers[video-full] # + نسخ Whisper + استخراج الإطارات المرئية + +# اكتشاف GPU تلقائي وتثبيت المكونات المرئية (PyTorch + easyocr) +skill-seekers video --setup + +# الاستخراج من فيديو YouTube +skill-seekers video --url https://www.youtube.com/watch?v=dQw4w9WgXcQ --name mytutorial + +# الاستخراج من قائمة تشغيل YouTube +skill-seekers video --playlist https://www.youtube.com/playlist?list=... --name myplaylist + +# الاستخراج من ملف فيديو محلي +skill-seekers video --video-file recording.mp4 --name myrecording + +# الاستخراج مع تحليل الإطارات المرئية (يتطلب مكونات video-full) +skill-seekers video --url https://www.youtube.com/watch?v=... --name mytutorial --visual + +# مع تعزيز الذكاء الاصطناعي (تنظيف OCR + توليد SKILL.md مصقول) +skill-seekers video --url https://www.youtube.com/watch?v=... --visual --enhance-level 2 + +# قص مقطع محدد من الفيديو (يدعم الثواني وMM:SS وHH:MM:SS) +skill-seekers video --url https://www.youtube.com/watch?v=... --start-time 1:30 --end-time 5:00 + +# استخدام Vision API لإطارات OCR منخفضة الثقة (يتطلب ANTHROPIC_API_KEY) +skill-seekers video --url https://www.youtube.com/watch?v=... --visual --vision-ocr + +# إعادة بناء المهارة من بيانات مستخرجة سابقًا (تخطي التنزيل) +skill-seekers video --from-json output/mytutorial/video_data/extracted_data.json --name mytutorial +``` + +> **الدليل الكامل:** انظر [docs/VIDEO_GUIDE.md](docs/VIDEO_GUIDE.md) لمرجع CLI الكامل +> وتفاصيل خط الأنابيب المرئي وخيارات تعزيز الذكاء الاصطناعي واستكشاف الأخطاء. + +### تحليل مستودعات GitHub + +```bash +# استخراج المستودع الأساسي +skill-seekers github --repo facebook/react + +# مع المصادقة (حدود معدل أعلى) +export GITHUB_TOKEN=ghp_your_token_here +skill-seekers github --repo facebook/react + +# تخصيص ما يتم تضمينه +skill-seekers github --repo django/django \ + --include-issues \ # استخراج GitHub Issues + --max-issues 100 \ # تحديد عدد المشكلات + --include-changelog # استخراج CHANGELOG.md +``` + +### الاستخراج الموحد متعدد المصادر + +**دمج التوثيق + GitHub + PDF في مهارة موحدة واحدة مع اكتشاف التعارضات:** + +```bash +# استخدام الإعدادات الموحدة الموجودة +skill-seekers unified --config configs/react_unified.json + +# أو إنشاء إعداد موحد +cat > configs/myframework_unified.json << 'EOF' +{ + "name": "myframework", + "merge_mode": "rule-based", + "sources": [ + { + "type": "documentation", + "base_url": "https://docs.myframework.com/", + "max_pages": 200 + }, + { + "type": "github", + "repo": "owner/myframework", + "code_analysis_depth": "surface" + } + ] +} +EOF + +skill-seekers unified --config configs/myframework_unified.json +``` + +**اكتشاف التعارضات يجد تلقائيًا:** +- 🔴 **مفقود في الكود** (عالي): موثق ولكن غير منفّذ +- 🟡 **مفقود في التوثيق** (متوسط): منفّذ ولكن غير موثق +- ⚠️ **عدم تطابق التوقيع**: معاملات/أنواع مختلفة +- ℹ️ **عدم تطابق الوصف**: شروحات مختلفة + +**الدليل الكامل:** انظر [docs/UNIFIED_SCRAPING.md](docs/UNIFIED_SCRAPING.md). + +### مستودعات الإعدادات الخاصة + +**مشاركة الإعدادات المخصصة عبر الفرق باستخدام مستودعات Git خاصة:** + +```bash +# استخدام أدوات MCP لتسجيل مستودع الفريق الخاص +add_config_source( + name="team", + git_url="https://github.com/mycompany/skill-configs.git", + token_env="GITHUB_TOKEN" +) + +# جلب الإعداد من مستودع الفريق +fetch_config(source="team", config_name="internal-api") +``` + +**المنصات المدعومة:** +- GitHub (`GITHUB_TOKEN`) وGitLab (`GITLAB_TOKEN`) وGitea (`GITEA_TOKEN`) وBitbucket (`BITBUCKET_TOKEN`) + +**الدليل الكامل:** انظر [docs/GIT_CONFIG_SOURCES.md](docs/GIT_CONFIG_SOURCES.md). + +## كيف يعمل + +```mermaid +graph LR + A[موقع التوثيق] --> B[Skill Seekers] + B --> C[المُستخرج] + B --> D[تعزيز الذكاء الاصطناعي] + B --> E[المُعبئ] + C --> F[مراجع منظمة] + D --> F + F --> E + E --> G[مهارة Claude .zip] + G --> H[الرفع إلى Claude AI] +``` + +0. **اكتشاف llms.txt** - التحقق أولاً من llms-full.txt وllms.txt وllms-small.txt +1. **الاستخراج**: سحب جميع الصفحات من التوثيق +2. **التصنيف**: تنظيم المحتوى حسب المواضيع (API وأدلة ودروس وغيرها) +3. **التعزيز**: يحلل الذكاء الاصطناعي التوثيق وينشئ SKILL.md شاملاً مع أمثلة +4. **التعبئة**: تجميع كل شيء في ملف `.zip` جاهز لـ Claude + +## 📋 المتطلبات المسبقة + +**قبل البدء، تأكد من توفر:** + +1. **Python 3.10 أو أحدث** - [تنزيل](https://www.python.org/downloads/) | التحقق: `python3 --version` +2. **Git** - [تنزيل](https://git-scm.com/) | التحقق: `git --version` +3. **15–30 دقيقة** للإعداد الأولي + +**مستخدم جديد؟** → **[ابدأ من هنا: دليل البدء السريع المُحكم](BULLETPROOF_QUICKSTART.md)** 🎯 + +--- + +## 📤 رفع المهارات إلى Claude + +بعد تعبئة المهارة، تحتاج إلى رفعها إلى Claude: + +### الخيار 1: الرفع التلقائي (عبر API) + +```bash +# تعيين API Key (مرة واحدة) +export ANTHROPIC_API_KEY=sk-ant-... + +# التعبئة والرفع تلقائيًا +skill-seekers package output/react/ --upload + +# أو رفع ملف .zip موجود +skill-seekers upload output/react.zip +``` + +### الخيار 2: الرفع اليدوي (بدون API Key) + +```bash +# تعبئة المهارة +skill-seekers package output/react/ +# → ينشئ output/react.zip + +# ثم ارفع يدويًا: +# - اذهب إلى https://claude.ai/skills +# - انقر "رفع المهارة" +# - اختر output/react.zip +``` + +### الخيار 3: MCP (Claude Code) + +``` +في Claude Code، اطلب ببساطة: +"عبّئ وارفع مهارة React" +``` + +--- + +## 🤖 التثبيت في وكلاء الذكاء الاصطناعي + +يمكن لـ Skill Seekers تثبيت المهارات تلقائيًا في أكثر من 10 وكلاء برمجة بالذكاء الاصطناعي. + +```bash +# التثبيت في وكيل محدد +skill-seekers install-agent output/react/ --agent cursor + +# التثبيت في جميع الوكلاء دفعة واحدة +skill-seekers install-agent output/react/ --agent all + +# المعاينة بدون تثبيت +skill-seekers install-agent output/react/ --agent cursor --dry-run +``` + +### الوكلاء المدعومون + +| الوكيل | المسار | النوع | +|--------|--------|-------| +| **Claude Code** | `~/.claude/skills/` | عام | +| **Cursor** | `.cursor/skills/` | مشروع | +| **VS Code / Copilot** | `.github/skills/` | مشروع | +| **Amp** | `~/.amp/skills/` | عام | +| **Goose** | `~/.config/goose/skills/` | عام | +| **OpenCode** | `~/.opencode/skills/` | عام | +| **Windsurf** | `~/.windsurf/skills/` | عام | + +--- + +## 🔌 تكامل MCP (26 أداة) + +يأتي Skill Seekers مع خادم MCP للاستخدام من Claude Code وCursor وWindsurf وVS Code + Cline أو IntelliJ IDEA. + +```bash +# وضع stdio (Claude Code وVS Code + Cline) +python -m skill_seekers.mcp.server_fastmcp + +# وضع HTTP (Cursor وWindsurf وIntelliJ) +python -m skill_seekers.mcp.server_fastmcp --transport http --port 8765 + +# إعداد تلقائي لجميع الوكلاء دفعة واحدة +./setup_mcp.sh +``` + +**جميع الأدوات الـ 26:** +- **أساسية (9):** `list_configs` و`generate_config` و`validate_config` و`estimate_pages` و`scrape_docs` و`package_skill` و`upload_skill` و`enhance_skill` و`install_skill` +- **موسعة (10):** `scrape_github` و`scrape_pdf` و`unified_scrape` و`merge_sources` و`detect_conflicts` و`add_config_source` و`fetch_config` و`list_config_sources` و`remove_config_source` و`split_config` +- **قواعد بيانات المتجهات (4):** `export_to_chroma` و`export_to_weaviate` و`export_to_faiss` و`export_to_qdrant` +- **السحابة (3):** `cloud_upload` و`cloud_download` و`cloud_list` + +**الدليل الكامل:** [docs/MCP_SETUP.md](docs/MCP_SETUP.md) + +--- + +## ⚙️ الإعدادات + +### الإعدادات المسبقة المتاحة (أكثر من 24) + +```bash +# عرض جميع الإعدادات المسبقة +skill-seekers list-configs +``` + +| الفئة | الإعدادات المسبقة | +|-------|-----------------| +| **أطر الويب** | `react` و`vue` و`angular` و`svelte` و`nextjs` | +| **Python** | `django` و`flask` و`fastapi` و`sqlalchemy` و`pytest` | +| **تطوير الألعاب** | `godot` و`pygame` و`unity` | +| **الأدوات وDevOps** | `docker` و`kubernetes` و`terraform` و`ansible` | +| **موحدة (توثيق + GitHub)** | `react-unified` و`vue-unified` و`nextjs-unified` والمزيد | + +### إنشاء إعدادك الخاص + +```bash +# الخيار 1: تفاعلي +skill-seekers scrape --interactive + +# الخيار 2: نسخ وتعديل إعداد مسبق +cp configs/react.json configs/myframework.json +nano configs/myframework.json +skill-seekers scrape --config configs/myframework.json +``` + +### بنية ملف الإعداد + +```json +{ + "name": "myframework", + "description": "متى تستخدم هذه المهارة", + "base_url": "https://docs.myframework.com/", + "selectors": { + "main_content": "article", + "title": "h1", + "code_blocks": "pre code" + }, + "url_patterns": { + "include": ["/docs", "/guide"], + "exclude": ["/blog", "/about"] + }, + "categories": { + "getting_started": ["intro", "quickstart"], + "api": ["api", "reference"] + }, + "rate_limit": 0.5, + "max_pages": 500 +} +``` + +### مكان تخزين الإعدادات + +تبحث الأداة بالترتيب التالي: +1. المسار الدقيق المُقدّم +2. `./configs/` (المجلد الحالي) +3. `~/.config/skill-seekers/configs/` (مجلد إعدادات المستخدم) +4. واجهة SkillSeekersWeb.com (الإعدادات المسبقة) + +--- + +## 📊 ما يتم إنشاؤه + +``` +output/ +├── godot_data/ # البيانات الخام المستخرجة +│ ├── pages/ # ملفات JSON (واحد لكل صفحة) +│ └── summary.json # نظرة عامة +│ +└── godot/ # المهارة + ├── SKILL.md # معزز بأمثلة حقيقية + ├── references/ # توثيق مُصنّف + │ ├── index.md + │ ├── getting_started.md + │ ├── scripting.md + │ └── ... + ├── scripts/ # فارغ (أضف نصوصك البرمجية) + └── assets/ # فارغ (أضف مواردك) +``` + +--- + +## 🐛 استكشاف الأخطاء وإصلاحها + +### لم يتم استخراج أي محتوى؟ +- تحقق من مُحدد `main_content` +- جرّب: `article` أو `main` أو `div[role="main"]` + +### البيانات موجودة لكن لا تُستخدم؟ +```bash +# فرض إعادة الاستخراج +rm -rf output/myframework_data/ +skill-seekers scrape --config configs/myframework.json +``` + +### التصنيفات غير جيدة؟ +عدّل قسم `categories` في الإعداد بكلمات مفتاحية أفضل. + +### تريد تحديث التوثيق؟ +```bash +# حذف البيانات القديمة وإعادة الاستخراج +rm -rf output/godot_data/ +skill-seekers scrape --config configs/godot.json +``` + +### التعزيز لا يعمل؟ +```bash +# التحقق من تعيين API Key +echo $ANTHROPIC_API_KEY + +# جرّب الوضع المحلي (يستخدم Claude Code Max، لا يحتاج API Key) +skill-seekers enhance output/react/ --mode LOCAL + +# مراقبة حالة التعزيز في الخلفية +skill-seekers enhance-status output/react/ --watch +``` + +### مشاكل حدود معدل GitHub؟ +```bash +# تعيين GitHub Token (5000 طلب/ساعة مقابل 60 طلب/ساعة بدون مصادقة) +export GITHUB_TOKEN=ghp_your_token_here + +# أو إعداد ملفات تعريف متعددة +skill-seekers config --github +``` + +--- + +## 📈 الأداء + +| المهمة | الوقت | ملاحظات | +|--------|-------|---------| +| الاستخراج (متزامن) | 15–45 دقيقة | المرة الأولى فقط، قائم على الخيوط | +| الاستخراج (غير متزامن) | 5–15 دقيقة | أسرع 2–3 مرات مع علامة `--async` | +| البناء | 1–3 دقائق | إعادة بناء سريعة من التخزين المؤقت | +| إعادة البناء | أقل من دقيقة | مع `--skip-scrape` | +| التعزيز (محلي) | 30–60 ثانية | يستخدم Claude Code Max | +| التعزيز (API) | 20–40 ثانية | يتطلب API Key | +| الفيديو (النصوص) | 1–3 دقائق | YouTube/محلي، النصوص فقط | +| الفيديو (مرئي) | 5–15 دقيقة | + استخراج إطارات OCR | +| التعبئة | 5–10 ثوانٍ | إنشاء ملف .zip النهائي | + +--- + +## 📚 التوثيق + +### أدلة البدء +- **[BULLETPROOF_QUICKSTART.md](BULLETPROOF_QUICKSTART.md)** - 🎯 **ابدأ من هنا إذا كنت جديدًا!** +- **[QUICKSTART.md](QUICKSTART.md)** - بدء سريع للمستخدمين ذوي الخبرة +- **[TROUBLESHOOTING.md](TROUBLESHOOTING.md)** - المشاكل الشائعة وحلولها +- **[docs/QUICK_REFERENCE.md](docs/QUICK_REFERENCE.md)** - ورقة مرجعية سريعة + +### الأدلة +- **[docs/LARGE_DOCUMENTATION.md](docs/LARGE_DOCUMENTATION.md)** - معالجة أكثر من 10 آلاف–40 ألف صفحة +- **[ASYNC_SUPPORT.md](ASYNC_SUPPORT.md)** - دليل الوضع غير المتزامن (أسرع 2–3 مرات) +- **[docs/ENHANCEMENT_MODES.md](docs/ENHANCEMENT_MODES.md)** - دليل أوضاع التعزيز بالذكاء الاصطناعي +- **[docs/MCP_SETUP.md](docs/MCP_SETUP.md)** - إعداد تكامل MCP +- **[docs/UNIFIED_SCRAPING.md](docs/UNIFIED_SCRAPING.md)** - الاستخراج متعدد المصادر +- **[docs/VIDEO_GUIDE.md](docs/VIDEO_GUIDE.md)** - الدليل الكامل لاستخراج الفيديو + +### أدلة التكامل +- **[docs/integrations/LANGCHAIN.md](docs/integrations/LANGCHAIN.md)** - LangChain RAG +- **[docs/integrations/CURSOR.md](docs/integrations/CURSOR.md)** - Cursor IDE +- **[docs/integrations/WINDSURF.md](docs/integrations/WINDSURF.md)** - Windsurf IDE +- **[docs/integrations/CLINE.md](docs/integrations/CLINE.md)** - Cline (VS Code) +- **[docs/integrations/RAG_PIPELINES.md](docs/integrations/RAG_PIPELINES.md)** - جميع خطوط أنابيب RAG + +--- + +## 📝 الرخصة + +رخصة MIT - انظر ملف [LICENSE](LICENSE) للتفاصيل + +--- + +بناء مهارات سعيد! 🚀 + +--- + +## 🔒 الأمان + +[![شارة تقييم أمان MseeP.ai](https://mseep.net/pr/yusufkaraaslan-skill-seekers-badge.png)](https://mseep.ai/app/yusufkaraaslan-skill-seekers) diff --git a/README.de.md b/README.de.md new file mode 100644 index 0000000..f575353 --- /dev/null +++ b/README.de.md @@ -0,0 +1,1058 @@ +

+ Skill Seekers +

+ +# Skill Seekers + +[English](README.md) | [简体中文](README.zh-CN.md) | [日本語](README.ja.md) | [한국어](README.ko.md) | [Español](README.es.md) | [Français](README.fr.md) | Deutsch | [Português](README.pt-BR.md) | [Türkçe](README.tr.md) | [العربية](README.ar.md) | [हिन्दी](README.hi.md) | [Русский](README.ru.md) + +> ⚠️ **Hinweis zur maschinellen Übersetzung** +> +> Dieses Dokument wurde automatisch durch KI übersetzt. Trotz Bemühungen um Qualität können ungenaue Ausdrücke vorkommen. +> +> Gerne können Sie über [GitHub Issue #260](https://github.com/yusufkaraaslan/Skill_Seekers/issues/260) zur Verbesserung der Übersetzung beitragen! Ihr Feedback ist uns sehr wertvoll. + +[![Version](https://img.shields.io/badge/version-3.2.0-blue.svg)](https://github.com/yusufkaraaslan/Skill_Seekers/releases) +[![Lizenz: MIT](https://img.shields.io/badge/License-MIT-yellow.svg)](https://opensource.org/licenses/MIT) +[![Python 3.10+](https://img.shields.io/badge/python-3.10+-blue.svg)](https://www.python.org/downloads/) +[![MCP-Integration](https://img.shields.io/badge/MCP-Integrated-blue.svg)](https://modelcontextprotocol.io) +[![Getestet](https://img.shields.io/badge/Tests-2540%2B%20Passing-brightgreen.svg)](tests/) +[![Projektboard](https://img.shields.io/badge/Project-Board-purple.svg)](https://github.com/users/yusufkaraaslan/projects/2) +[![PyPI-Version](https://badge.fury.io/py/skill-seekers.svg)](https://pypi.org/project/skill-seekers/) +[![PyPI - Downloads](https://img.shields.io/pypi/dm/skill-seekers.svg)](https://pypi.org/project/skill-seekers/) +[![PyPI - Python-Version](https://img.shields.io/pypi/pyversions/skill-seekers.svg)](https://pypi.org/project/skill-seekers/) +[![Website](https://img.shields.io/badge/Website-skillseekersweb.com-blue.svg)](https://skillseekersweb.com/) +[![Twitter Follow](https://img.shields.io/twitter/follow/_yUSyUS_?style=social)](https://x.com/_yUSyUS_) +[![GitHub Repo Stars](https://img.shields.io/github/stars/yusufkaraaslan/Skill_Seekers?style=social)](https://github.com/yusufkaraaslan/Skill_Seekers) + +**Die Datenschicht für KI-Systeme.** Skill Seekers verwandelt Dokumentationswebsites, GitHub-Repositories, PDFs, Videos, Jupyter-Notebooks, Wikis und über 10 weitere Quelltypen in strukturierte Wissensressourcen — bereit für KI-Skills (Claude, Gemini, OpenAI), RAG-Pipelines (LangChain, LlamaIndex, Pinecone) und KI-Programmierassistenten (Cursor, Windsurf, Cline) in Minuten statt Stunden. + +> **[Besuchen Sie SkillSeekersWeb.com](https://skillseekersweb.com/)** - Durchsuchen Sie über 24 vorgefertigte Konfigurationen, teilen Sie Ihre Konfigurationen und greifen Sie auf die vollständige Dokumentation zu! + +> **[Entwicklungsroadmap und Aufgaben ansehen](https://github.com/users/yusufkaraaslan/projects/2)** - 134 Aufgaben in 10 Kategorien — wählen Sie eine beliebige zum Mitwirken! + +## Die Datenschicht für KI-Systeme + +**Skill Seekers ist die universelle Vorverarbeitungsschicht**, die zwischen Rohdokumentation und jedem KI-System steht, das diese konsumiert. Ob Sie Claude-Skills, eine LangChain-RAG-Pipeline oder eine Cursor-`.cursorrules`-Datei erstellen — die Datenaufbereitung ist identisch. Sie führen sie einmal durch und exportieren für alle Zielplattformen. + +```bash +# Ein Befehl → strukturierte Wissensressource +skill-seekers create https://docs.react.dev/ +# oder: skill-seekers create facebook/react +# oder: skill-seekers create ./my-project + +# Export in jedes KI-System +skill-seekers package output/react --target claude # → Claude AI Skill (ZIP) +skill-seekers package output/react --target langchain # → LangChain Documents +skill-seekers package output/react --target llama-index # → LlamaIndex TextNodes +skill-seekers package output/react --target cursor # → .cursorrules +``` + +### Was erstellt wird + +| Ausgabe | Ziel | Einsatzbereich | +|---------|------|---------------| +| **Claude Skill** (ZIP + YAML) | `--target claude` | Claude Code, Claude API | +| **Gemini Skill** (tar.gz) | `--target gemini` | Google Gemini | +| **OpenAI / Custom GPT** (ZIP) | `--target openai` | GPT-4o, benutzerdefinierte Assistenten | +| **LangChain Documents** | `--target langchain` | QA-Chains, Agenten, Retriever | +| **LlamaIndex TextNodes** | `--target llama-index` | Query Engines, Chat Engines | +| **Haystack Documents** | `--target haystack` | Enterprise-RAG-Pipelines | +| **Pinecone-ready** (Markdown) | `--target markdown` | Vektor-Upsert | +| **ChromaDB / FAISS / Qdrant** | `--format chroma/faiss/qdrant` | Lokale Vektordatenbanken | +| **Cursor** `.cursorrules` | `--target claude` → kopieren | Cursor IDE KI-Kontext | +| **Windsurf / Cline / Continue** | `--target claude` → kopieren | VS Code, IntelliJ, Vim | + +### Warum Skill Seekers + +- **99 % schneller** — Tage manueller Datenaufbereitung → 15–45 Minuten +- **KI-Skill-Qualität** — Über 500 Zeilen SKILL.md-Dateien mit Beispielen, Mustern und Anleitungen +- **RAG-fertige Chunks** — Intelligentes Chunking bewahrt Codeblöcke und Kontext +- **17 Quelltypen** — Dokumentation + GitHub + PDF + Videos + Notebooks + Wikis u. v. m. zu einer Wissensressource vereinen +- **Einmal aufbereiten, überall exportieren** — Export auf 16 Plattformen ohne erneutes Scrapen +- **Videos** — Code, Transkripte und strukturiertes Wissen aus YouTube- und lokalen Videos extrahieren +- **Kampferprobt** — Über 2.540 Tests, 24+ Framework-Presets, produktionsreif + +## Schnellstart + +```bash +pip install skill-seekers + +# KI-Skill aus beliebiger Quelle erstellen +skill-seekers create https://docs.django.com/ # Dokumentationswebsite +skill-seekers create django/django # GitHub-Repository +skill-seekers create ./my-codebase # Lokales Projekt +skill-seekers create manual.pdf # PDF-Datei +skill-seekers create manual.docx # Word-Dokument +skill-seekers create book.epub # EPUB-E-Book +skill-seekers create notebook.ipynb # Jupyter Notebook +skill-seekers create page.html # Lokale HTML-Datei +skill-seekers create api-spec.yaml # OpenAPI/Swagger-Spezifikation +skill-seekers create guide.adoc # AsciiDoc-Dokument +skill-seekers create slides.pptx # PowerPoint-Präsentation + +# Video (YouTube, Vimeo oder lokale Datei — erfordert skill-seekers[video]) +skill-seekers video --url https://www.youtube.com/watch?v=... --name mytutorial +# Erstmalig? Automatische Installation GPU-bewusster visueller Abhängigkeiten: +skill-seekers video --setup + +# Je nach Einsatzzweck exportieren +skill-seekers package output/django --target claude # Claude AI Skill +skill-seekers package output/django --target langchain # LangChain RAG +skill-seekers package output/django --target cursor # Cursor IDE Kontext +``` + +**Vollständige Beispiele:** +- [Claude AI Skill](examples/claude-skill/) - Skill für Claude Code +- [LangChain RAG-Pipeline](examples/langchain-rag-pipeline/) - QA-Chain mit Chroma +- [Cursor IDE Kontext](examples/cursor-react-skill/) - Framework-bewusstes KI-Programmieren + +## Was ist Skill Seekers? + +Skill Seekers ist die **Datenschicht für KI-Systeme** und transformiert 17 Quelltypen — Dokumentationswebsites, GitHub-Repositories, PDFs, Videos, Jupyter-Notebooks, Word-/EPUB-/AsciiDoc-Dokumente, OpenAPI/Swagger-Spezifikationen, PowerPoint-Präsentationen, RSS/Atom-Feeds, Man-Pages, Confluence-Wikis, Notion-Seiten, Slack-/Discord-Chatexporte und mehr — in strukturierte Wissensressourcen für jedes KI-Ziel: + +| Anwendungsfall | Ergebnis | Beispiele | +|----------------|----------|-----------| +| **KI-Skills** | Umfassende SKILL.md + Referenzdateien | Claude Code, Gemini, GPT | +| **RAG-Pipelines** | Dokumenten-Chunks mit reichhaltigen Metadaten | LangChain, LlamaIndex, Haystack | +| **Vektordatenbanken** | Vorformatierte, upload-bereite Daten | Pinecone, Chroma, Weaviate, FAISS | +| **KI-Programmierassistenten** | Kontextdateien, die Ihre IDE-KI automatisch liest | Cursor, Windsurf, Cline, Continue.dev | + +Anstatt tagelange manuelle Vorverarbeitung durchzuführen, erledigt Skill Seekers dies: + +1. **Erfassen** — Dokumentation, GitHub-Repos, lokale Codebasen, PDFs, Videos, Jupyter-Notebooks, Wikis und über 17 weitere Quelltypen +2. **Analysieren** — Tiefgreifendes AST-Parsing, Mustererkennung, API-Extraktion +3. **Strukturieren** — Kategorisierte Referenzdateien mit Metadaten +4. **Verbessern** — KI-gestützte SKILL.md-Generierung (Claude, Gemini oder lokal) +5. **Exportieren** — 16 plattformspezifische Formate aus einer Ressource + +## Warum Skill Seekers nutzen? + +### Für KI-Skill-Ersteller (Claude, Gemini, OpenAI) + +- **Produktionsreife Skills** — Über 500 Zeilen SKILL.md-Dateien mit Codebeispielen, Mustern und Anleitungen +- **Verbesserungsworkflows** — `security-focus`, `architecture-comprehensive` oder eigene YAML-Presets anwenden +- **Jede Domäne** — Game-Engines (Godot, Unity), Frameworks (React, Django), interne Tools +- **Teamarbeit** — Interne Dokumentation + Code zu einer einzigen Wissensquelle vereinen +- **Hohe Qualität** — KI-verbessert mit Beispielen, Kurzreferenz und Navigationshinweisen + +### Für RAG-Entwickler und KI-Ingenieure + +- **RAG-fertige Daten** — Vorgesplittete LangChain `Documents`, LlamaIndex `TextNodes`, Haystack `Documents` +- **99 % schneller** — Tage der Vorverarbeitung → 15–45 Minuten +- **Intelligente Metadaten** — Kategorien, Quellen, Typen → höhere Abrufgenauigkeit +- **Multi-Source** — Dokumentation + GitHub + PDFs in einer Pipeline kombinieren +- **Plattformunabhängig** — Export in jede Vektordatenbank oder jedes Framework ohne erneutes Scrapen + +### Für KI-Programmierassistenten-Nutzer + +- **Cursor / Windsurf / Cline** — `.cursorrules` / `.windsurfrules` / `.clinerules` automatisch generieren +- **Dauerhafter Kontext** — Die KI „kennt" Ihre Frameworks ohne wiederholtes Prompting +- **Immer aktuell** — Kontext in Minuten aktualisieren, wenn sich die Dokumentation ändert + +## Kernfunktionen + +### Dokumentations-Scraping +- **llms.txt-Unterstützung** - Erkennt und nutzt automatisch LLM-bereite Dokumentationsdateien (10x schneller) +- **Universal-Scraper** - Funktioniert mit JEDER Dokumentationswebsite +- **Intelligente Kategorisierung** - Organisiert Inhalte automatisch nach Themen +- **Code-Spracherkennung** - Erkennt Python, JavaScript, C++, GDScript usw. +- **Über 24 fertige Presets** - Godot, React, Vue, Django, FastAPI und mehr + +### PDF-Unterstützung +- **Grundlegende PDF-Extraktion** - Text, Code und Bilder aus PDFs extrahieren +- **OCR für gescannte PDFs** - Text aus gescannten Dokumenten extrahieren +- **Passwortgeschützte PDFs** - Verschlüsselte PDFs verarbeiten +- **Tabellenextraktion** - Komplexe Tabellen aus PDFs extrahieren +- **Parallelverarbeitung** - 3x schneller bei großen PDFs +- **Intelligentes Caching** - 50 % schneller bei Wiederholungen + +### Videoextraktion +- **YouTube und lokale Videos** - Transkripte, Bildschirmcode und strukturiertes Wissen aus Videos extrahieren +- **Visuelle Frameanalyse** - OCR-Extraktion aus Code-Editoren, Terminals, Folien und Diagrammen +- **GPU-Autoerkennung** - Installiert automatisch den richtigen PyTorch-Build (CUDA/ROCm/MPS/CPU) +- **KI-Verbesserung** - Zwei Durchläufe: OCR-Artefakte bereinigen + ausgefeilte SKILL.md generieren +- **Zeitausschnitte** - Bestimmte Abschnitte mit `--start-time` und `--end-time` extrahieren +- **Playlist-Unterstützung** - Alle Videos einer YouTube-Playlist stapelweise verarbeiten + +### GitHub-Repository-Analyse +- **Tiefgreifende Codeanalyse** - AST-Parsing für Python, JavaScript, TypeScript, Java, C++, Go +- **API-Extraktion** - Funktionen, Klassen, Methoden mit Parametern und Typen +- **Repository-Metadaten** - README, Dateibaum, Sprachverteilung, Stars/Forks +- **GitHub Issues und PRs** - Offene/geschlossene Issues mit Labels und Meilensteinen abrufen +- **CHANGELOG und Releases** - Versionshistorie automatisch extrahieren +- **Konflikterkennung** - Dokumentierte APIs mit tatsächlicher Code-Implementierung vergleichen +- **MCP-Integration** - Natürliche Sprache: „Scrape GitHub Repo facebook/react" + +### Vereinheitlichtes Multi-Source-Scraping +- **Mehrere Quellen kombinieren** - Dokumentation + GitHub + PDF in einem Skill vereinen +- **Konflikterkennung** - Automatische Erkennung von Abweichungen zwischen Dokumentation und Code +- **Intelligentes Zusammenführen** - Regelbasierte oder KI-gesteuerte Konfliktlösung +- **Transparente Berichte** - Nebeneinander-Vergleich mit Warnhinweisen +- **Dokumentationslückenanalyse** - Erkennt veraltete Dokumentation und undokumentierte Funktionen +- **Einzelne Wahrheitsquelle** - Ein Skill zeigt sowohl Absicht (Dokumentation) als auch Realität (Code) +- **Abwärtskompatibel** - Bestehende Einzelquellen-Konfigurationen funktionieren weiterhin + +### Multi-LLM-Plattformunterstützung +- **4 LLM-Plattformen** - Claude AI, Google Gemini, OpenAI ChatGPT, Generisches Markdown +- **Universelles Scraping** - Dieselbe Dokumentation funktioniert für alle Plattformen +- **Plattformspezifische Paketierung** - Optimierte Formate für jedes LLM +- **Ein-Befehl-Export** - `--target`-Flag wählt die Plattform +- **Optionale Abhängigkeiten** - Nur installieren, was Sie benötigen +- **100 % abwärtskompatibel** - Bestehende Claude-Workflows bleiben unverändert + +| Plattform | Format | Upload | Verbesserung | API Key | Benutzerdefinierter Endpunkt | +|-----------|--------|--------|-------------|---------|------------------------------| +| **Claude AI** | ZIP + YAML | Auto | Ja | ANTHROPIC_API_KEY | ANTHROPIC_BASE_URL | +| **Google Gemini** | tar.gz | Auto | Ja | GOOGLE_API_KEY | - | +| **OpenAI ChatGPT** | ZIP + Vector Store | Auto | Ja | OPENAI_API_KEY | - | +| **Generisches Markdown** | ZIP | Manuell | Nein | - | - | + +```bash +# Claude (Standard - keine Änderungen nötig!) +skill-seekers package output/react/ +skill-seekers upload react.zip + +# Google Gemini +pip install skill-seekers[gemini] +skill-seekers package output/react/ --target gemini +skill-seekers upload react-gemini.tar.gz --target gemini + +# OpenAI ChatGPT +pip install skill-seekers[openai] +skill-seekers package output/react/ --target openai +skill-seekers upload react-openai.zip --target openai + +# Generisches Markdown (universeller Export) +skill-seekers package output/react/ --target markdown +``` + +
+Umgebungsvariablen für Claude-kompatible APIs (z. B. GLM-4.7) + +Skill Seekers unterstützt jeden Claude-kompatiblen API-Endpunkt: + +```bash +# Option 1: Offizielle Anthropic API (Standard) +export ANTHROPIC_API_KEY=sk-ant-... + +# Option 2: GLM-4.7 Claude-kompatible API +export ANTHROPIC_API_KEY=your-glm-47-api-key +export ANTHROPIC_BASE_URL=https://glm-4-7-endpoint.com/v1 + +# Alle KI-Verbesserungsfunktionen verwenden den konfigurierten Endpunkt +skill-seekers enhance output/react/ +skill-seekers analyze --directory . --enhance +``` + +**Hinweis**: Das Setzen von `ANTHROPIC_BASE_URL` ermöglicht die Nutzung jedes Claude-kompatiblen API-Endpunkts, wie GLM-4.7 oder anderer kompatibler Dienste. + +
+ +**Installation:** +```bash +# Mit Gemini-Unterstützung installieren +pip install skill-seekers[gemini] + +# Mit OpenAI-Unterstützung installieren +pip install skill-seekers[openai] + +# Mit allen LLM-Plattformen installieren +pip install skill-seekers[all-llms] +``` + +### RAG-Framework-Integrationen + +- **LangChain Documents** - Direkter Export ins `Document`-Format mit `page_content` + Metadaten + - Geeignet für: QA-Chains, Retriever, Vektorspeicher, Agenten + - Beispiel: [LangChain RAG-Pipeline](examples/langchain-rag-pipeline/) + - Anleitung: [LangChain-Integration](docs/integrations/LANGCHAIN.md) + +- **LlamaIndex TextNodes** - Export ins `TextNode`-Format mit eindeutigen IDs + Embeddings + - Geeignet für: Query Engines, Chat Engines, Storage Context + - Beispiel: [LlamaIndex Query Engine](examples/llama-index-query-engine/) + - Anleitung: [LlamaIndex-Integration](docs/integrations/LLAMA_INDEX.md) + +- **Pinecone-fertiges Format** - Optimiert für Vektordatenbank-Upsert + - Geeignet für: Produktions-Vektorsuche, semantische Suche, Hybridsuche + - Beispiel: [Pinecone Upsert](examples/pinecone-upsert/) + - Anleitung: [Pinecone-Integration](docs/integrations/PINECONE.md) + +**Schnellexport:** +```bash +# LangChain Documents (JSON) +skill-seekers package output/django --target langchain +# → output/django-langchain.json + +# LlamaIndex TextNodes (JSON) +skill-seekers package output/django --target llama-index +# → output/django-llama-index.json + +# Markdown (Universal) +skill-seekers package output/django --target markdown +# → output/django-markdown/SKILL.md + references/ +``` + +**Vollständige RAG-Pipeline-Anleitung:** [RAG-Pipelines-Dokumentation](docs/integrations/RAG_PIPELINES.md) + +--- + +### KI-Programmierassistenten-Integrationen + +Verwandeln Sie beliebige Framework-Dokumentation in Experten-Programmierkontext für über 4 KI-Assistenten: + +- **Cursor IDE** - `.cursorrules` für KI-gestützte Codevorschläge generieren + - Geeignet für: Framework-spezifische Codegenerierung, konsistente Muster + - Anleitung: [Cursor-Integration](docs/integrations/CURSOR.md) + - Beispiel: [Cursor React Skill](examples/cursor-react-skill/) + +- **Windsurf** - Windsurf-KI-Assistentenkontext mit `.windsurfrules` anpassen + - Geeignet für: IDE-native KI-Unterstützung, Flow-basiertes Programmieren + - Anleitung: [Windsurf-Integration](docs/integrations/WINDSURF.md) + - Beispiel: [Windsurf FastAPI Kontext](examples/windsurf-fastapi-context/) + +- **Cline (VS Code)** - System-Prompts + MCP für VS Code Agenten + - Geeignet für: Agentische Codegenerierung in VS Code + - Anleitung: [Cline-Integration](docs/integrations/CLINE.md) + - Beispiel: [Cline Django Assistent](examples/cline-django-assistant/) + +- **Continue.dev** - Kontextserver für IDE-unabhängige KI + - Geeignet für: Multi-IDE-Umgebungen (VS Code, JetBrains, Vim), benutzerdefinierte LLM-Anbieter + - Anleitung: [Continue-Integration](docs/integrations/CONTINUE_DEV.md) + - Beispiel: [Continue Universal Kontext](examples/continue-dev-universal/) + +**Schnellexport (für KI-Programmiertools):** +```bash +# Für jeden KI-Programmierassistenten (Cursor, Windsurf, Cline, Continue.dev) +skill-seekers scrape --config configs/django.json +skill-seekers package output/django --target claude + +# In Ihr Projekt kopieren (Beispiel für Cursor) +cp output/django-claude/SKILL.md my-project/.cursorrules + +# Oder für Windsurf +cp output/django-claude/SKILL.md my-project/.windsurf/rules/django.md + +# Oder für Cline +cp output/django-claude/SKILL.md my-project/.clinerules +``` + +**Integrations-Hub:** [Alle KI-System-Integrationen](docs/integrations/INTEGRATIONS.md) + +--- + +### Drei-Stream-GitHub-Architektur +- **Triple-Stream-Analyse** - GitHub-Repos in Code-, Dokumentations- und Insights-Streams aufteilen +- **Vereinheitlichter Codebase-Analyzer** - Funktioniert mit GitHub-URLs UND lokalen Pfaden +- **C3.x als Analysetiefe** - „basic" (1–2 Min.) oder „c3x" (20–60 Min.) Analyse wählen +- **Erweiterte Router-Generierung** - GitHub-Metadaten, README-Schnellstart, häufige Probleme +- **Issue-Integration** - Häufigste Probleme und Lösungen aus GitHub Issues +- **Intelligente Routing-Schlüsselwörter** - GitHub-Labels 2x gewichtet für bessere Themenerkennung + +**Drei Streams erklärt:** +- **Stream 1: Code** - Tiefgreifende C3.x-Analyse (Muster, Beispiele, Anleitungen, Konfigurationen, Architektur) +- **Stream 2: Dokumentation** - Repository-Dokumentation (README, CONTRIBUTING, docs/*.md) +- **Stream 3: Insights** - Community-Wissen (Issues, Labels, Stars, Forks) + +```python +from skill_seekers.cli.unified_codebase_analyzer import UnifiedCodebaseAnalyzer + +# GitHub-Repo mit allen drei Streams analysieren +analyzer = UnifiedCodebaseAnalyzer() +result = analyzer.analyze( + source="https://github.com/facebook/react", + depth="c3x", # oder "basic" für schnelle Analyse + fetch_github_metadata=True +) + +print(f"Designmuster: {len(result.code_analysis['c3_1_patterns'])}") +print(f"Stars: {result.github_insights['metadata']['stars']}") +``` + +**Vollständige Dokumentation**: [Drei-Stream-Implementierungszusammenfassung](docs/IMPLEMENTATION_SUMMARY_THREE_STREAM.md) + +### Intelligentes Rate-Limit-Management und Konfiguration +- **Multi-Token-Konfigurationssystem** - Mehrere GitHub-Konten verwalten (Privat, Arbeit, Open Source) + - Sichere Konfigurationsspeicherung unter `~/.config/skill-seekers/config.json` (Berechtigung 600) + - Rate-Limit-Strategien pro Profil: `prompt`, `wait`, `switch`, `fail` + - Intelligente Fallback-Kette: CLI-Argument → Umgebungsvariable → Konfigurationsdatei → Abfrage +- **Interaktiver Konfigurationsassistent** - Ansprechende Terminal-UI für einfache Einrichtung +- **Intelligenter Rate-Limit-Handler** - Kein endloses Warten mehr! + - Echtzeit-Countdown, automatischer Profilwechsel + - Vier Strategien: prompt (fragen), wait (Countdown), switch (wechseln), fail (abbrechen) +- **Wiederaufnahme-Funktion** - Unterbrochene Aufgaben fortsetzen +- **CI/CD-Unterstützung** - `--non-interactive`-Flag für Automatisierung + +**Schnelleinrichtung:** +```bash +# Einmalige Konfiguration (5 Minuten) +skill-seekers config --github + +# Spezifisches Profil für private Repositories verwenden +skill-seekers github --repo mycompany/private-repo --profile work + +# CI/CD-Modus (schnelles Abbrechen, keine Abfragen) +skill-seekers github --repo owner/repo --non-interactive +``` + +### Bootstrap-Skill - Selbst-Hosting + +Skill Seekers als Claude Code Skill generieren: + +```bash +./scripts/bootstrap_skill.sh +cp -r output/skill-seekers ~/.claude/skills/ +``` + +### Private Konfigurations-Repositories +- **Git-basierte Konfigurationsquellen** - Konfigurationen aus privaten/Team-Git-Repositories abrufen +- **Multi-Source-Verwaltung** - Unbegrenzte GitHub-, GitLab-, Bitbucket-Repositories registrieren +- **Team-Zusammenarbeit** - Benutzerdefinierte Konfigurationen in 3–5-Personen-Teams teilen +- **Enterprise-Unterstützung** - Skalierung auf 500+ Entwickler +- **Sichere Authentifizierung** - Umgebungsvariablen-Tokens (GITHUB_TOKEN, GITLAB_TOKEN) + +### Codebase-Analyse (C3.x) + +**C3.4: Konfigurationsmuster-Extraktion (mit KI-Verbesserung)** +- **9 Konfigurationsformate** - JSON, YAML, TOML, ENV, INI, Python, JavaScript, Dockerfile, Docker Compose +- **7 Mustertypen** - Datenbank-, API-, Logging-, Cache-, E-Mail-, Auth-, Server-Konfigurationen +- **KI-Verbesserung** - Optionale Dual-Modus-KI-Analyse (API + LOCAL) +- **Sicherheitsanalyse** - Hartcodierte Geheimnisse und offengelegte Anmeldedaten finden + +**C3.3: KI-verbesserte Anleitungen** +- **Umfassende KI-Verbesserung** - Grundanleitungen in professionelle Tutorials verwandeln +- **5 automatische Verbesserungen** - Schrittbeschreibungen, Fehlerbehebung, Voraussetzungen, nächste Schritte, Anwendungsfälle +- **Dual-Modus-Unterstützung** - API-Modus (Claude API) oder LOCAL-Modus (Claude Code CLI) +- **LOCAL-Modus kostenlos** - Kostenlose Verbesserung mit Ihrem Claude Code Max Plan + +**Verwendung:** +```bash +# Schnellanalyse (1–2 Minuten, nur Grundfunktionen) +skill-seekers analyze --directory tests/ --quick + +# Umfassende Analyse (mit KI, 20–60 Minuten) +skill-seekers analyze --directory tests/ --comprehensive + +# Mit KI-Verbesserung +skill-seekers analyze --directory tests/ --enhance +``` + +**Vollständige Dokumentation:** [docs/HOW_TO_GUIDES.md](docs/HOW_TO_GUIDES.md#ai-enhancement-new) + +### Verbesserungs-Workflow-Presets + +Wiederverwendbare YAML-definierte Verbesserungspipelines, die steuern, wie KI Ihre Rohdokumentation in einen ausgefeilten Skill transformiert. + +- **5 mitgelieferte Presets** — `default`, `minimal`, `security-focus`, `architecture-comprehensive`, `api-documentation` +- **Benutzerdefinierte Presets** — Eigene Workflows unter `~/.config/skill-seekers/workflows/` hinzufügen +- **Mehrere Workflows** — Zwei oder mehr Workflows in einem Befehl verketten +- **Vollständige CLI-Verwaltung** — Workflows auflisten, anzeigen, kopieren, hinzufügen, entfernen und validieren + +```bash +# Einzelnen Workflow anwenden +skill-seekers create ./my-project --enhance-workflow security-focus + +# Mehrere Workflows verketten (werden der Reihe nach angewendet) +skill-seekers create ./my-project \ + --enhance-workflow security-focus \ + --enhance-workflow minimal + +# Presets verwalten +skill-seekers workflows list # Alle auflisten (mitgeliefert + benutzerdefiniert) +skill-seekers workflows show security-focus # YAML-Inhalt anzeigen +skill-seekers workflows copy security-focus # Zum Benutzerverzeichnis kopieren (zum Bearbeiten) +skill-seekers workflows add ./my-workflow.yaml # Benutzerdefiniertes Preset installieren +skill-seekers workflows remove my-workflow # Benutzerdefiniertes Preset entfernen +skill-seekers workflows validate security-focus # Preset-Struktur validieren + +# Mehrere gleichzeitig kopieren +skill-seekers workflows copy security-focus minimal api-documentation + +# Mehrere Dateien gleichzeitig hinzufügen +skill-seekers workflows add ./wf-a.yaml ./wf-b.yaml + +# Mehrere gleichzeitig entfernen +skill-seekers workflows remove my-wf-a my-wf-b +``` + +**YAML-Preset-Format:** +```yaml +name: security-focus +description: "Sicherheitsorientierte Prüfung: Schwachstellen, Authentifizierung, Datenverarbeitung" +version: "1.0" +stages: + - name: vulnerabilities + type: custom + prompt: "Prüfung auf OWASP Top 10 und häufige Sicherheitslücken..." + - name: auth-review + type: custom + prompt: "Authentifizierungs- und Autorisierungsmuster untersuchen..." + uses_history: true +``` + +### Leistung und Skalierung +- **Async-Modus** - 2–3x schnelleres Scraping mit async/await (Flag `--async` verwenden) +- **Unterstützung großer Dokumentationen** - 10K–40K+ Seiten mit intelligentem Aufteilen verarbeiten +- **Router-/Hub-Skills** - Intelligentes Routing zu spezialisierten Sub-Skills +- **Paralleles Scraping** - Mehrere Skills gleichzeitig verarbeiten +- **Checkpoint/Wiederaufnahme** - Bei langen Scraping-Vorgängen nie den Fortschritt verlieren +- **Caching-System** - Einmal scrapen, sofort neu erstellen + +### Qualitätssicherung +- **Vollständig getestet** - Über 2.540 Tests mit umfassender Abdeckung + +--- + +## Installation + +```bash +# Basisinstallation (Dokumentations-Scraping, GitHub-Analyse, PDF, Paketierung) +pip install skill-seekers + +# Mit Unterstützung aller LLM-Plattformen +pip install skill-seekers[all-llms] + +# Mit MCP-Server +pip install skill-seekers[mcp] + +# Alles +pip install skill-seekers[all] +``` + +**Hilfe bei der Auswahl nötig?** Starten Sie den Einrichtungsassistenten: +```bash +skill-seekers-setup +``` + +### Installationsoptionen + +| Installation | Funktionen | +|-------------|-----------| +| `pip install skill-seekers` | Scraping, GitHub-Analyse, PDF, alle Plattformen | +| `pip install skill-seekers[gemini]` | + Google Gemini-Unterstützung | +| `pip install skill-seekers[openai]` | + OpenAI ChatGPT-Unterstützung | +| `pip install skill-seekers[all-llms]` | + Alle LLM-Plattformen | +| `pip install skill-seekers[mcp]` | + MCP-Server | +| `pip install skill-seekers[video]` | + YouTube-/Vimeo-Transkript- und Metadatenextraktion | +| `pip install skill-seekers[video-full]` | + Whisper-Transkription und visuelle Frameextraktion | +| `pip install skill-seekers[jupyter]` | + Jupyter-Notebook-Unterstützung | +| `pip install skill-seekers[pptx]` | + PowerPoint-Unterstützung | +| `pip install skill-seekers[confluence]` | + Confluence-Wiki-Unterstützung | +| `pip install skill-seekers[notion]` | + Notion-Seitenunterstützung | +| `pip install skill-seekers[rss]` | + RSS-/Atom-Feed-Unterstützung | +| `pip install skill-seekers[chat]` | + Slack-/Discord-Chatexport-Unterstützung | +| `pip install skill-seekers[asciidoc]` | + AsciiDoc-Dokumentunterstützung | +| `pip install skill-seekers[all]` | Alles aktiviert | + +> **Visuelle Video-Abhängigkeiten (GPU-bewusst):** Nach der Installation von `skill-seekers[video-full]` führen Sie +> `skill-seekers video --setup` aus, um Ihre GPU automatisch zu erkennen und die richtige PyTorch- +> Variante + easyocr zu installieren. Dies ist der empfohlene Weg zur Installation visueller Extraktionsabhängigkeiten. + +--- + +## Ein-Befehl-Installations-Workflow + +**Der schnellste Weg von der Konfiguration zum hochgeladenen Skill — vollständig automatisiert:** + +```bash +# React-Skill aus offiziellen Konfigurationen installieren (automatischer Upload zu Claude) +skill-seekers install --config react + +# Aus lokaler Konfigurationsdatei installieren +skill-seekers install --config configs/custom.json + +# Ohne Upload installieren (nur Paketierung) +skill-seekers install --config django --no-upload + +# Workflow ohne Ausführung in der Vorschau anzeigen +skill-seekers install --config react --dry-run +``` + +**Ausgeführte Phasen:** +``` +Phase 1: Konfiguration abrufen (falls Konfigurationsname angegeben) +Phase 2: Dokumentation scrapen +Phase 3: KI-Verbesserung +Phase 4: Skill paketieren +Phase 5: Zu Claude hochladen (optional, erfordert API Key) +``` + +--- + +## Funktionsmatrix + +Skill Seekers unterstützt **4 LLM-Plattformen**, **17 Quelltypen** und vollständige Funktionsparität für alle Ziele. + +**Plattformen:** Claude AI, Google Gemini, OpenAI ChatGPT, Generisches Markdown +**Quelltypen:** Dokumentationswebsites, GitHub-Repos, PDFs, Word (.docx), EPUB, Video, lokale Codebasen, Jupyter-Notebooks, lokales HTML, OpenAPI/Swagger, AsciiDoc, PowerPoint (.pptx), RSS-/Atom-Feeds, Man-Pages, Confluence-Wikis, Notion-Seiten, Slack-/Discord-Chatexporte + +Vollständige Informationen finden Sie in der [vollständigen Funktionsmatrix](docs/FEATURE_MATRIX.md). + +### Schneller Plattformvergleich + +| Funktion | Claude | Gemini | OpenAI | Markdown | +|----------|--------|--------|--------|----------| +| Format | ZIP + YAML | tar.gz | ZIP + Vector | ZIP | +| Upload | API | API | API | Manuell | +| Verbesserung | Sonnet 4 | 2.0 Flash | GPT-4o | Keine | +| Alle Skill-Modi | Ja | Ja | Ja | Ja | + +--- + +## Verwendungsbeispiele + +### Dokumentations-Scraping + +```bash +# Dokumentationswebsite scrapen +skill-seekers scrape --config configs/react.json + +# Schnelles Scraping (ohne Konfiguration) +skill-seekers scrape --url https://react.dev --name react + +# Mit Async-Modus (3x schneller) +skill-seekers scrape --config configs/godot.json --async --workers 8 +``` + +### PDF-Extraktion + +```bash +# Grundlegende PDF-Extraktion +skill-seekers pdf --pdf docs/manual.pdf --name myskill + +# Erweiterte Funktionen +skill-seekers pdf --pdf docs/manual.pdf --name myskill \ + --extract-tables \ # Tabellen extrahieren + --parallel \ # Schnelle Parallelverarbeitung + --workers 8 # 8 CPU-Kerne verwenden + +# Gescannte PDFs (erfordert: pip install pytesseract Pillow) +skill-seekers pdf --pdf docs/scanned.pdf --name myskill --ocr +``` + +### Videoextraktion + +```bash +# Video-Unterstützung installieren +pip install skill-seekers[video] # Transkripte + Metadaten +pip install skill-seekers[video-full] # + Whisper-Transkription + visuelle Frameextraktion + +# GPU automatisch erkennen und visuelle Abhängigkeiten installieren (PyTorch + easyocr) +skill-seekers video --setup + +# Aus YouTube-Video extrahieren +skill-seekers video --url https://www.youtube.com/watch?v=dQw4w9WgXcQ --name mytutorial + +# Aus einer YouTube-Playlist extrahieren +skill-seekers video --playlist https://www.youtube.com/playlist?list=... --name myplaylist + +# Aus einer lokalen Videodatei extrahieren +skill-seekers video --video-file recording.mp4 --name myrecording + +# Mit visueller Frameanalyse extrahieren (erfordert video-full-Abhängigkeiten) +skill-seekers video --url https://www.youtube.com/watch?v=... --name mytutorial --visual + +# Mit KI-Verbesserung (OCR bereinigen + ausgefeilte SKILL.md generieren) +skill-seekers video --url https://www.youtube.com/watch?v=... --visual --enhance-level 2 + +# Bestimmten Abschnitt eines Videos ausschneiden (unterstützt Sekunden, MM:SS, HH:MM:SS) +skill-seekers video --url https://www.youtube.com/watch?v=... --start-time 1:30 --end-time 5:00 + +# Vision API für OCR-Frames mit niedriger Konfidenz verwenden (erfordert ANTHROPIC_API_KEY) +skill-seekers video --url https://www.youtube.com/watch?v=... --visual --vision-ocr + +# Skill aus zuvor extrahierten Daten neu erstellen (Download überspringen) +skill-seekers video --from-json output/mytutorial/video_data/extracted_data.json --name mytutorial +``` + +> **Vollständige Anleitung:** Siehe [docs/VIDEO_GUIDE.md](docs/VIDEO_GUIDE.md) für die vollständige CLI-Referenz, +> Details zur visuellen Pipeline, KI-Verbesserungsoptionen und Fehlerbehebung. + +### GitHub-Repository-Analyse + +```bash +# Grundlegendes Repository-Scraping +skill-seekers github --repo facebook/react + +# Mit Authentifizierung (höhere Rate-Limits) +export GITHUB_TOKEN=ghp_your_token_here +skill-seekers github --repo facebook/react + +# Inhalte anpassen +skill-seekers github --repo django/django \ + --include-issues \ # GitHub Issues extrahieren + --max-issues 100 \ # Issue-Anzahl begrenzen + --include-changelog # CHANGELOG.md extrahieren +``` + +### Vereinheitlichtes Multi-Source-Scraping + +**Dokumentation + GitHub + PDF zu einem vereinheitlichten Skill mit Konflikterkennung kombinieren:** + +```bash +# Vorhandene vereinheitlichte Konfigurationen verwenden +skill-seekers unified --config configs/react_unified.json + +# Oder vereinheitlichte Konfiguration erstellen +cat > configs/myframework_unified.json << 'EOF' +{ + "name": "myframework", + "merge_mode": "rule-based", + "sources": [ + { + "type": "documentation", + "base_url": "https://docs.myframework.com/", + "max_pages": 200 + }, + { + "type": "github", + "repo": "owner/myframework", + "code_analysis_depth": "surface" + } + ] +} +EOF + +skill-seekers unified --config configs/myframework_unified.json +``` + +**Die Konflikterkennung findet automatisch:** +- **Im Code fehlend** (hoch): Dokumentiert, aber nicht implementiert +- **In der Dokumentation fehlend** (mittel): Implementiert, aber nicht dokumentiert +- **Signatur-Abweichung**: Unterschiedliche Parameter/Typen +- **Beschreibungs-Abweichung**: Unterschiedliche Erklärungen + +**Vollständige Anleitung:** Siehe [docs/UNIFIED_SCRAPING.md](docs/UNIFIED_SCRAPING.md). + +### Private Konfigurations-Repositories + +**Benutzerdefinierte Konfigurationen über private Git-Repositories im Team teilen:** + +```bash +# MCP-Tools verwenden, um das private Team-Repository zu registrieren +add_config_source( + name="team", + git_url="https://github.com/mycompany/skill-configs.git", + token_env="GITHUB_TOKEN" +) + +# Konfiguration aus dem Team-Repository abrufen +fetch_config(source="team", config_name="internal-api") +``` + +**Unterstützte Plattformen:** +- GitHub (`GITHUB_TOKEN`), GitLab (`GITLAB_TOKEN`), Gitea (`GITEA_TOKEN`), Bitbucket (`BITBUCKET_TOKEN`) + +**Vollständige Anleitung:** Siehe [docs/GIT_CONFIG_SOURCES.md](docs/GIT_CONFIG_SOURCES.md). + +## Funktionsweise + +```mermaid +graph LR + A[Dokumentationswebsite] --> B[Skill Seekers] + B --> C[Scraper] + B --> D[KI-Verbesserung] + B --> E[Paketierer] + C --> F[Geordnete Referenzdateien] + D --> F + F --> E + E --> G[Claude Skill .zip] + G --> H[Upload zu Claude AI] +``` + +0. **llms.txt erkennen** - Prüft zuerst auf llms-full.txt, llms.txt, llms-small.txt +1. **Scrapen**: Alle Seiten aus der Dokumentation extrahieren +2. **Kategorisieren**: Inhalte nach Themen organisieren (API, Anleitungen, Tutorials usw.) +3. **Verbessern**: KI analysiert Dokumente und erstellt umfassende SKILL.md mit Beispielen +4. **Paketieren**: Alles in eine Claude-fertige `.zip`-Datei bündeln + +## Voraussetzungen + +**Bevor Sie beginnen, stellen Sie sicher, dass Sie Folgendes haben:** + +1. **Python 3.10 oder höher** - [Herunterladen](https://www.python.org/downloads/) | Prüfen: `python3 --version` +2. **Git** - [Herunterladen](https://git-scm.com/) | Prüfen: `git --version` +3. **15–30 Minuten** für die erstmalige Einrichtung + +**Erstmalig hier?** → **[Starten Sie hier: Narrensichere Schnellstartanleitung](BULLETPROOF_QUICKSTART.md)** + +--- + +## Skills zu Claude hochladen + +Sobald Ihr Skill paketiert ist, müssen Sie ihn zu Claude hochladen: + +### Option 1: Automatischer Upload (API-basiert) + +```bash +# API Key setzen (einmalig) +export ANTHROPIC_API_KEY=sk-ant-... + +# Paketieren und automatisch hochladen +skill-seekers package output/react/ --upload + +# ODER vorhandene .zip hochladen +skill-seekers upload output/react.zip +``` + +### Option 2: Manueller Upload (ohne API Key) + +```bash +# Skill paketieren +skill-seekers package output/react/ +# → Erstellt output/react.zip + +# Dann manuell hochladen: +# - Gehen Sie zu https://claude.ai/skills +# - Klicken Sie auf „Skill hochladen" +# - Wählen Sie output/react.zip +``` + +### Option 3: MCP (Claude Code) + +``` +In Claude Code einfach fragen: +"Paketiere und lade den React-Skill hoch" +``` + +--- + +## Installation für KI-Agenten + +Skill Seekers kann Skills automatisch für über 10 KI-Programmieragenten installieren. + +```bash +# Für einen bestimmten Agenten installieren +skill-seekers install-agent output/react/ --agent cursor + +# Für alle Agenten gleichzeitig installieren +skill-seekers install-agent output/react/ --agent all + +# Vorschau ohne Installation +skill-seekers install-agent output/react/ --agent cursor --dry-run +``` + +### Unterstützte Agenten + +| Agent | Pfad | Typ | +|-------|------|-----| +| **Claude Code** | `~/.claude/skills/` | Global | +| **Cursor** | `.cursor/skills/` | Projekt | +| **VS Code / Copilot** | `.github/skills/` | Projekt | +| **Amp** | `~/.amp/skills/` | Global | +| **Goose** | `~/.config/goose/skills/` | Global | +| **OpenCode** | `~/.opencode/skills/` | Global | +| **Windsurf** | `~/.windsurf/skills/` | Global | + +--- + +## MCP-Integration (26 Tools) + +Skill Seekers liefert einen MCP-Server für die Verwendung mit Claude Code, Cursor, Windsurf, VS Code + Cline oder IntelliJ IDEA. + +```bash +# stdio-Modus (Claude Code, VS Code + Cline) +python -m skill_seekers.mcp.server_fastmcp + +# HTTP-Modus (Cursor, Windsurf, IntelliJ) +python -m skill_seekers.mcp.server_fastmcp --transport http --port 8765 + +# Alle Agenten automatisch konfigurieren +./setup_mcp.sh +``` + +**Alle 26 verfügbaren Tools:** +- **Kern (9):** `list_configs`, `generate_config`, `validate_config`, `estimate_pages`, `scrape_docs`, `package_skill`, `upload_skill`, `enhance_skill`, `install_skill` +- **Erweitert (10):** `scrape_github`, `scrape_pdf`, `unified_scrape`, `merge_sources`, `detect_conflicts`, `add_config_source`, `fetch_config`, `list_config_sources`, `remove_config_source`, `split_config` +- **Vektordatenbank (4):** `export_to_chroma`, `export_to_weaviate`, `export_to_faiss`, `export_to_qdrant` +- **Cloud (3):** `cloud_upload`, `cloud_download`, `cloud_list` + +**Vollständige Anleitung:** [docs/MCP_SETUP.md](docs/MCP_SETUP.md) + +--- + +## Konfiguration + +### Verfügbare Presets (24+) + +```bash +# Alle Presets auflisten +skill-seekers list-configs +``` + +| Kategorie | Presets | +|-----------|---------| +| **Web-Frameworks** | `react`, `vue`, `angular`, `svelte`, `nextjs` | +| **Python** | `django`, `flask`, `fastapi`, `sqlalchemy`, `pytest` | +| **Spieleentwicklung** | `godot`, `pygame`, `unity` | +| **Tools und DevOps** | `docker`, `kubernetes`, `terraform`, `ansible` | +| **Vereinheitlicht (Doku + GitHub)** | `react-unified`, `vue-unified`, `nextjs-unified` u. a. | + +### Eigene Konfiguration erstellen + +```bash +# Option 1: Interaktiv +skill-seekers scrape --interactive + +# Option 2: Preset kopieren und bearbeiten +cp configs/react.json configs/myframework.json +nano configs/myframework.json +skill-seekers scrape --config configs/myframework.json +``` + +### Konfigurationsdatei-Struktur + +```json +{ + "name": "myframework", + "description": "Wann dieser Skill verwendet werden soll", + "base_url": "https://docs.myframework.com/", + "selectors": { + "main_content": "article", + "title": "h1", + "code_blocks": "pre code" + }, + "url_patterns": { + "include": ["/docs", "/guide"], + "exclude": ["/blog", "/about"] + }, + "categories": { + "getting_started": ["intro", "quickstart"], + "api": ["api", "reference"] + }, + "rate_limit": 0.5, + "max_pages": 500 +} +``` + +### Speicherorte für Konfigurationen + +Das Tool sucht in dieser Reihenfolge: +1. Exakter Pfad wie angegeben +2. `./configs/` (aktuelles Verzeichnis) +3. `~/.config/skill-seekers/configs/` (Benutzerkonfigurationsverzeichnis) +4. SkillSeekersWeb.com API (Preset-Konfigurationen) + +--- + +## Was wird erstellt + +``` +output/ +├── godot_data/ # Gescrapte Rohdaten +│ ├── pages/ # JSON-Dateien (eine pro Seite) +│ └── summary.json # Übersicht +│ +└── godot/ # Der Skill + ├── SKILL.md # Verbessert mit echten Beispielen + ├── references/ # Kategorisierte Dokumentation + │ ├── index.md + │ ├── getting_started.md + │ ├── scripting.md + │ └── ... + ├── scripts/ # Leer (eigene hinzufügen) + └── assets/ # Leer (eigene hinzufügen) +``` + +--- + +## Fehlerbehebung + +### Kein Inhalt extrahiert? +- Überprüfen Sie Ihren `main_content`-Selektor +- Versuchen Sie: `article`, `main`, `div[role="main"]` + +### Daten vorhanden, aber werden nicht verwendet? +```bash +# Erneutes Scraping erzwingen +rm -rf output/myframework_data/ +skill-seekers scrape --config configs/myframework.json +``` + +### Kategorien nicht gut? +Bearbeiten Sie den `categories`-Abschnitt in der Konfiguration mit besseren Schlüsselwörtern. + +### Dokumentation aktualisieren? +```bash +# Alte Daten löschen und erneut scrapen +rm -rf output/godot_data/ +skill-seekers scrape --config configs/godot.json +``` + +### Verbesserung funktioniert nicht? +```bash +# Prüfen, ob API Key gesetzt ist +echo $ANTHROPIC_API_KEY + +# LOCAL-Modus versuchen (nutzt Claude Code Max, kein API Key nötig) +skill-seekers enhance output/react/ --mode LOCAL + +# Hintergrund-Verbesserungsstatus überwachen +skill-seekers enhance-status output/react/ --watch +``` + +### GitHub-Rate-Limit-Probleme? +```bash +# GitHub Token setzen (5000 Anfragen/Stunde vs. 60/Stunde anonym) +export GITHUB_TOKEN=ghp_your_token_here + +# Oder mehrere Profile konfigurieren +skill-seekers config --github +``` + +--- + +## Leistung + +| Aufgabe | Dauer | Hinweise | +|---------|-------|----------| +| Scraping (synchron) | 15–45 Min. | Nur beim ersten Mal, thread-basiert | +| Scraping (asynchron) | 5–15 Min. | 2–3x schneller mit `--async`-Flag | +| Erstellen | 1–3 Min. | Schneller Neuaufbau aus Cache | +| Neuerstellen | <1 Min. | Mit `--skip-scrape` | +| Verbesserung (LOCAL) | 30–60 Sek. | Nutzt Claude Code Max | +| Verbesserung (API) | 20–40 Sek. | Erfordert API Key | +| Video (Transkript) | 1–3 Min. | YouTube/lokal, nur Transkript | +| Video (visuell) | 5–15 Min. | + OCR-Frameextraktion | +| Paketierung | 5–10 Sek. | Finale .zip-Erstellung | + +--- + +## Dokumentation + +### Erste Schritte +- **[BULLETPROOF_QUICKSTART.md](BULLETPROOF_QUICKSTART.md)** - **Neue Nutzer starten hier!** +- **[QUICKSTART.md](QUICKSTART.md)** - Schnellstart für erfahrene Nutzer +- **[TROUBLESHOOTING.md](TROUBLESHOOTING.md)** - Häufige Probleme und Lösungen +- **[docs/QUICK_REFERENCE.md](docs/QUICK_REFERENCE.md)** - Einseiter-Kurzreferenz + +### Anleitungen +- **[docs/LARGE_DOCUMENTATION.md](docs/LARGE_DOCUMENTATION.md)** - 10K–40K+ Seiten verarbeiten +- **[ASYNC_SUPPORT.md](ASYNC_SUPPORT.md)** - Async-Modus-Anleitung (2–3x schnelleres Scraping) +- **[docs/ENHANCEMENT_MODES.md](docs/ENHANCEMENT_MODES.md)** - KI-Verbesserungsmodi-Anleitung +- **[docs/MCP_SETUP.md](docs/MCP_SETUP.md)** - MCP-Integrations-Einrichtung +- **[docs/UNIFIED_SCRAPING.md](docs/UNIFIED_SCRAPING.md)** - Multi-Source-Scraping +- **[docs/VIDEO_GUIDE.md](docs/VIDEO_GUIDE.md)** - Vollständige Videoextraktions-Anleitung + +### Integrationsanleitungen +- **[docs/integrations/LANGCHAIN.md](docs/integrations/LANGCHAIN.md)** - LangChain RAG +- **[docs/integrations/CURSOR.md](docs/integrations/CURSOR.md)** - Cursor IDE +- **[docs/integrations/WINDSURF.md](docs/integrations/WINDSURF.md)** - Windsurf IDE +- **[docs/integrations/CLINE.md](docs/integrations/CLINE.md)** - Cline (VS Code) +- **[docs/integrations/RAG_PIPELINES.md](docs/integrations/RAG_PIPELINES.md)** - Alle RAG-Pipelines + +--- + +## Lizenz + +MIT-Lizenz - siehe [LICENSE](LICENSE)-Datei für Details + +--- + +Viel Erfolg beim Erstellen von Skills! + +--- + +## Sicherheit + +[![MseeP.ai Security Assessment Badge](https://mseep.net/pr/yusufkaraaslan-skill-seekers-badge.png)](https://mseep.ai/app/yusufkaraaslan-skill-seekers) diff --git a/README.es.md b/README.es.md new file mode 100644 index 0000000..6547b95 --- /dev/null +++ b/README.es.md @@ -0,0 +1,1168 @@ +

+ Skill Seekers +

+ +# Skill Seekers + +[English](README.md) | [简体中文](README.zh-CN.md) | [日本語](README.ja.md) | [한국어](README.ko.md) | Español | [Français](README.fr.md) | [Deutsch](README.de.md) | [Português](README.pt-BR.md) | [Türkçe](README.tr.md) | [العربية](README.ar.md) | [हिन्दी](README.hi.md) | [Русский](README.ru.md) + +> ⚠️ **Aviso de traducción automática** +> +> Este documento ha sido traducido automáticamente por IA. Aunque nos esforzamos por garantizar la calidad, pueden existir expresiones inexactas. +> +> ¡Ayúdanos a mejorar la traducción a través de [GitHub Issue #260](https://github.com/yusufkaraaslan/Skill_Seekers/issues/260)! Tu retroalimentación es muy valiosa para nosotros. + +[![Versión](https://img.shields.io/badge/version-3.2.0-blue.svg)](https://github.com/yusufkaraaslan/Skill_Seekers/releases) +[![Licencia: MIT](https://img.shields.io/badge/License-MIT-yellow.svg)](https://opensource.org/licenses/MIT) +[![Python 3.10+](https://img.shields.io/badge/python-3.10+-blue.svg)](https://www.python.org/downloads/) +[![Integración MCP](https://img.shields.io/badge/MCP-Integrated-blue.svg)](https://modelcontextprotocol.io) +[![Tests aprobados](https://img.shields.io/badge/Tests-2540%2B%20Passing-brightgreen.svg)](tests/) +[![Tablero del proyecto](https://img.shields.io/badge/Project-Board-purple.svg)](https://github.com/users/yusufkaraaslan/projects/2) +[![Versión PyPI](https://badge.fury.io/py/skill-seekers.svg)](https://pypi.org/project/skill-seekers/) +[![PyPI - Descargas](https://img.shields.io/pypi/dm/skill-seekers.svg)](https://pypi.org/project/skill-seekers/) +[![PyPI - Versión de Python](https://img.shields.io/pypi/pyversions/skill-seekers.svg)](https://pypi.org/project/skill-seekers/) +[![Sitio web](https://img.shields.io/badge/Website-skillseekersweb.com-blue.svg)](https://skillseekersweb.com/) +[![Seguir en Twitter](https://img.shields.io/twitter/follow/_yUSyUS_?style=social)](https://x.com/_yUSyUS_) +[![Estrellas en GitHub](https://img.shields.io/github/stars/yusufkaraaslan/Skill_Seekers?style=social)](https://github.com/yusufkaraaslan/Skill_Seekers) + +**🧠 La capa de datos para sistemas de IA.** Skill Seekers convierte sitios de documentación, repositorios de GitHub, PDFs, videos, notebooks, wikis y más de 10 tipos de fuentes adicionales en activos de conocimiento estructurado, listos para potenciar AI Skills (Claude, Gemini, OpenAI), pipelines RAG (LangChain, LlamaIndex, Pinecone) y asistentes de programación con IA (Cursor, Windsurf, Cline) en minutos, no en horas. + +> 🌐 **[Visita SkillSeekersWeb.com](https://skillseekersweb.com/)** - ¡Explora más de 24 configuraciones predefinidas, comparte tus configuraciones y accede a la documentación completa! + +> 📋 **[Ver hoja de ruta y tareas de desarrollo](https://github.com/users/yusufkaraaslan/projects/2)** - ¡134 tareas en 10 categorías, elige cualquiera para contribuir! + +## 🧠 La capa de datos para sistemas de IA + +**Skill Seekers es la capa universal de preprocesamiento** que se ubica entre la documentación sin procesar y cada sistema de IA que la consume. Ya sea que estés construyendo Claude Skills, un pipeline RAG con LangChain o un archivo `.cursorrules` para Cursor, la preparación de datos es idéntica. Lo haces una vez y exportas a todos los destinos. + +```bash +# Un comando → activo de conocimiento estructurado +skill-seekers create https://docs.react.dev/ +# o: skill-seekers create facebook/react +# o: skill-seekers create ./my-project + +# Exportar a cualquier sistema de IA +skill-seekers package output/react --target claude # → Claude AI Skill (ZIP) +skill-seekers package output/react --target langchain # → LangChain Documents +skill-seekers package output/react --target llama-index # → LlamaIndex TextNodes +skill-seekers package output/react --target cursor # → .cursorrules +``` + +### Lo que se genera + +| Salida | Destino | Para qué sirve | +|--------|---------|-----------------| +| **Claude Skill** (ZIP + YAML) | `--target claude` | Claude Code, Claude API | +| **Gemini Skill** (tar.gz) | `--target gemini` | Google Gemini | +| **OpenAI / Custom GPT** (ZIP) | `--target openai` | GPT-4o, asistentes personalizados | +| **LangChain Documents** | `--target langchain` | Cadenas QA, agentes, recuperadores | +| **LlamaIndex TextNodes** | `--target llama-index` | Motores de consulta, motores de chat | +| **Haystack Documents** | `--target haystack` | Pipelines RAG empresariales | +| **Pinecone-ready** (Markdown) | `--target markdown` | Carga de vectores | +| **ChromaDB / FAISS / Qdrant** | `--format chroma/faiss/qdrant` | Bases de datos vectoriales locales | +| **Cursor** `.cursorrules` | `--target claude` → copiar | Contexto IA del IDE Cursor | +| **Windsurf / Cline / Continue** | `--target claude` → copiar | VS Code, IntelliJ, Vim | + +### Por qué es importante + +- ⚡ **99% más rápido** — Días de preparación manual → 15–45 minutos +- 🎯 **Calidad de AI Skill** — Archivos SKILL.md de más de 500 líneas con ejemplos, patrones y guías +- 📊 **Fragmentos listos para RAG** — Fragmentación inteligente que preserva bloques de código y mantiene el contexto +- 🎬 **Videos** — Extrae código, transcripciones y conocimiento estructurado de YouTube y videos locales +- 🔄 **Multi-fuente** — Combina 17 tipos de fuentes (docs, GitHub, PDFs, videos, notebooks, wikis y más) en un solo activo de conocimiento +- 🌐 **Una preparación, todos los destinos** — Exporta el mismo activo a 16 plataformas sin volver a extraer +- ✅ **Probado en producción** — Más de 2.540 tests, más de 24 presets de frameworks, listo para producción + +## 🚀 Inicio rápido (3 comandos) + +```bash +# 1. Instalar +pip install skill-seekers + +# 2. Crear skill desde cualquier fuente +skill-seekers create https://docs.django.com/ + +# 3. Empaquetar para tu plataforma de IA +skill-seekers package output/django --target claude +``` + +**¡Eso es todo!** Ahora tienes `output/django-claude.zip` listo para usar. + +### Otras fuentes (17 soportadas) + +```bash +# Repositorio de GitHub +skill-seekers create facebook/react + +# Proyecto local +skill-seekers create ./my-project + +# Documento PDF +skill-seekers create manual.pdf + +# Documento Word +skill-seekers create report.docx + +# Libro electrónico EPUB +skill-seekers create book.epub + +# Jupyter Notebook +skill-seekers create notebook.ipynb + +# Especificación OpenAPI +skill-seekers create openapi.yaml + +# Presentación PowerPoint +skill-seekers create presentation.pptx + +# Documento AsciiDoc +skill-seekers create guide.adoc + +# Archivo HTML local +skill-seekers create page.html + +# Feed RSS/Atom +skill-seekers create feed.rss + +# Página de manual +skill-seekers create curl.1 + +# Video (YouTube, Vimeo o archivo local — requiere skill-seekers[video]) +skill-seekers video --url https://www.youtube.com/watch?v=... --name mytutorial +# ¿Primera vez? Instala automáticamente las dependencias visuales con detección de GPU: +skill-seekers video --setup + +# Wiki de Confluence +skill-seekers confluence --space TEAM --name wiki + +# Páginas de Notion +skill-seekers notion --database-id ... --name docs + +# Exportación de chat de Slack/Discord +skill-seekers chat --export-dir ./slack-export --name team-chat +``` + +### Exportar a todas partes + +```bash +# Empaquetar para múltiples plataformas +for platform in claude gemini openai langchain; do + skill-seekers package output/django --target $platform +done +``` + +## ¿Qué es Skill Seekers? + +Skill Seekers es la **capa de datos para sistemas de IA**. Transforma 17 tipos de fuentes —sitios web de documentación, repositorios de GitHub, PDFs, videos, Jupyter Notebooks, documentos Word/EPUB/AsciiDoc, especificaciones OpenAPI, presentaciones PowerPoint, feeds RSS, páginas de manual, wikis de Confluence, páginas de Notion, exportaciones de Slack/Discord y más— en activos de conocimiento estructurado para cualquier destino de IA: + +| Caso de uso | Lo que obtienes | Ejemplos | +|-------------|-----------------|----------| +| **AI Skills** | SKILL.md completo + referencias | Claude Code, Gemini, GPT | +| **Pipelines RAG** | Documentos fragmentados con metadatos enriquecidos | LangChain, LlamaIndex, Haystack | +| **Bases de datos vectoriales** | Datos pre-formateados listos para carga | Pinecone, Chroma, Weaviate, FAISS | +| **Asistentes de programación con IA** | Archivos de contexto que tu IDE IA lee automáticamente | Cursor, Windsurf, Cline, Continue.dev | + +En lugar de pasar días en preprocesamiento manual, Skill Seekers: + +1. **Ingesta** — documentación, repositorios de GitHub, bases de código locales, PDFs, videos, notebooks, wikis y más de 10 tipos de fuentes adicionales +2. **Analiza** — análisis profundo AST, detección de patrones, extracción de APIs +3. **Estructura** — archivos de referencia categorizados con metadatos +4. **Mejora** — generación de SKILL.md potenciada por IA (Claude, Gemini o local) +5. **Exporta** — 16 formatos específicos por plataforma desde un solo activo + +## ¿Por qué usar Skill Seekers? + +### Para constructores de AI Skills (Claude, Gemini, OpenAI) + +- 🎯 **Skills de nivel producción** — Archivos SKILL.md de más de 500 líneas con ejemplos de código, patrones y guías +- 🔄 **Flujos de mejora** — Aplica presets como `security-focus`, `architecture-comprehensive` o YAML personalizados +- 🎮 **Cualquier dominio** — Motores de juegos (Godot, Unity), frameworks (React, Django), herramientas internas +- 🔧 **Equipos** — Combina documentación interna + código en una única fuente de verdad +- 📚 **Calidad** — Mejorado con IA, incluye ejemplos, referencia rápida y guía de navegación + +### Para constructores de RAG e ingenieros de IA + +- 🤖 **Datos listos para RAG** — `Documents` de LangChain, `TextNodes` de LlamaIndex y `Documents` de Haystack pre-fragmentados +- 🚀 **99% más rápido** — Días de preprocesamiento → 15–45 minutos +- 📊 **Metadatos inteligentes** — Categorías, fuentes, tipos → mayor precisión en la recuperación +- 🔄 **Multi-fuente** — Combina docs + GitHub + PDFs + videos en un solo pipeline +- 🌐 **Agnóstico de plataforma** — Exporta a cualquier base de datos vectorial o framework sin volver a extraer + +### Para usuarios de asistentes de programación con IA + +- 💻 **Cursor / Windsurf / Cline** — Genera `.cursorrules` / `.windsurfrules` / `.clinerules` automáticamente +- 🎯 **Contexto persistente** — La IA "conoce" tus frameworks sin necesidad de repetir prompts +- 📚 **Siempre actualizado** — Actualiza el contexto en minutos cuando cambia la documentación + +## Funcionalidades clave + +### 🌐 Extracción de documentación +- ✅ **Soporte para llms.txt** - Detecta y usa automáticamente archivos de documentación optimizados para LLM (10 veces más rápido) +- ✅ **Scraper universal** - Funciona con CUALQUIER sitio web de documentación +- ✅ **Categorización inteligente** - Organiza automáticamente el contenido por tema +- ✅ **Detección de lenguajes de código** - Reconoce Python, JavaScript, C++, GDScript, etc. +- ✅ **Más de 24 presets listos para usar** - Godot, React, Vue, Django, FastAPI y más + +### 📄 Soporte para PDF +- ✅ **Extracción básica de PDF** - Extrae texto, código e imágenes de archivos PDF +- ✅ **OCR para PDFs escaneados** - Extrae texto de documentos escaneados +- ✅ **PDFs protegidos con contraseña** - Maneja PDFs cifrados +- ✅ **Extracción de tablas** - Extrae tablas complejas de PDFs +- ✅ **Procesamiento en paralelo** - 3 veces más rápido para PDFs grandes +- ✅ **Caché inteligente** - 50% más rápido en ejecuciones posteriores + +### 🎬 Extracción de video +- ✅ **YouTube y videos locales** - Extrae transcripciones, código en pantalla y conocimiento estructurado de videos +- ✅ **Análisis visual de fotogramas** - Extracción OCR de editores de código, terminales, diapositivas y diagramas +- ✅ **Detección automática de GPU** - Instala automáticamente la compilación correcta de PyTorch (CUDA/ROCm/MPS/CPU) +- ✅ **Mejora con IA** - Dos pasadas: limpieza de artefactos OCR + generación de SKILL.md pulido +- ✅ **Recorte temporal** - Extrae secciones específicas con `--start-time` y `--end-time` +- ✅ **Soporte para listas de reproducción** - Procesa por lotes todos los videos de una lista de reproducción de YouTube +- ✅ **Respaldo con Vision API** - Usa Claude Vision para fotogramas OCR de baja confianza + +### 🐙 Análisis de repositorios de GitHub +- ✅ **Análisis profundo de código** - Análisis AST para Python, JavaScript, TypeScript, Java, C++, Go +- ✅ **Extracción de APIs** - Funciones, clases, métodos con parámetros y tipos +- ✅ **Metadatos del repositorio** - README, árbol de archivos, desglose de lenguajes, estrellas/forks +- ✅ **GitHub Issues y PRs** - Obtiene issues abiertos/cerrados con etiquetas e hitos +- ✅ **CHANGELOG y releases** - Extrae automáticamente el historial de versiones +- ✅ **Detección de conflictos** - Compara APIs documentadas vs. implementación real del código +- ✅ **Integración MCP** - Lenguaje natural: "Extrae el repositorio de GitHub facebook/react" + +### 🔄 Extracción unificada multi-fuente +- ✅ **Combina múltiples fuentes** - Mezcla documentación + GitHub + PDF en un solo skill +- ✅ **Detección de conflictos** - Encuentra automáticamente discrepancias entre docs y código +- ✅ **Fusión inteligente** - Resolución de conflictos basada en reglas o potenciada por IA +- ✅ **Informes transparentes** - Comparación lado a lado con advertencias ⚠️ +- ✅ **Análisis de brechas en documentación** - Identifica docs obsoletos y funcionalidades no documentadas +- ✅ **Fuente única de verdad** - Un solo skill que muestra tanto la intención (docs) como la realidad (código) +- ✅ **Compatible con versiones anteriores** - Las configuraciones de fuente única legacy siguen funcionando + +### 🤖 Soporte para múltiples plataformas LLM +- ✅ **4 plataformas LLM** - Claude AI, Google Gemini, OpenAI ChatGPT, Markdown genérico +- ✅ **Extracción universal** - La misma documentación funciona para todas las plataformas +- ✅ **Empaquetado específico por plataforma** - Formatos optimizados para cada LLM +- ✅ **Exportación con un solo comando** - El flag `--target` selecciona la plataforma +- ✅ **Dependencias opcionales** - Instala solo lo que necesitas +- ✅ **100% compatible con versiones anteriores** - Los flujos de trabajo existentes de Claude no cambian + +| Plataforma | Formato | Carga | Mejora | API Key | Endpoint personalizado | +|------------|---------|-------|--------|---------|------------------------| +| **Claude AI** | ZIP + YAML | ✅ Automática | ✅ Sí | ANTHROPIC_API_KEY | ANTHROPIC_BASE_URL | +| **Google Gemini** | tar.gz | ✅ Automática | ✅ Sí | GOOGLE_API_KEY | - | +| **OpenAI ChatGPT** | ZIP + Vector Store | ✅ Automática | ✅ Sí | OPENAI_API_KEY | - | +| **Markdown genérico** | ZIP | ❌ Manual | ❌ No | - | - | + +```bash +# Claude (predeterminado - ¡sin cambios necesarios!) +skill-seekers package output/react/ +skill-seekers upload react.zip + +# Google Gemini +pip install skill-seekers[gemini] +skill-seekers package output/react/ --target gemini +skill-seekers upload react-gemini.tar.gz --target gemini + +# OpenAI ChatGPT +pip install skill-seekers[openai] +skill-seekers package output/react/ --target openai +skill-seekers upload react-openai.zip --target openai + +# Markdown genérico (exportación universal) +skill-seekers package output/react/ --target markdown +# Usa los archivos markdown directamente en cualquier LLM +``` + +
+🔧 Variables de entorno para APIs compatibles con Claude (ej. GLM-4.7) + +Skill Seekers soporta cualquier endpoint de API compatible con Claude: + +```bash +# Opción 1: API oficial de Anthropic (predeterminado) +export ANTHROPIC_API_KEY=sk-ant-... + +# Opción 2: API compatible con Claude de GLM-4.7 +export ANTHROPIC_API_KEY=your-glm-47-api-key +export ANTHROPIC_BASE_URL=https://glm-4-7-endpoint.com/v1 + +# Todas las funciones de mejora con IA usarán el endpoint configurado +skill-seekers enhance output/react/ +skill-seekers analyze --directory . --enhance +``` + +**Nota**: Configurar `ANTHROPIC_BASE_URL` permite usar cualquier endpoint de API compatible con Claude, como GLM-4.7 (智谱 AI) u otros servicios compatibles. + +
+ +**Instalación:** +```bash +# Instalar con soporte para Gemini +pip install skill-seekers[gemini] + +# Instalar con soporte para OpenAI +pip install skill-seekers[openai] + +# Instalar con todas las plataformas LLM +pip install skill-seekers[all-llms] +``` + +### 🔗 Integraciones con frameworks RAG + +- ✅ **LangChain Documents** - Exportación directa al formato `Document` con `page_content` + metadatos + - Ideal para: cadenas QA, recuperadores, almacenes de vectores, agentes + - Ejemplo: [Pipeline RAG con LangChain](examples/langchain-rag-pipeline/) + - Guía: [Integración con LangChain](docs/integrations/LANGCHAIN.md) + +- ✅ **LlamaIndex TextNodes** - Exportación al formato `TextNode` con IDs únicos + embeddings + - Ideal para: motores de consulta, motores de chat, contexto de almacenamiento + - Ejemplo: [Motor de consulta LlamaIndex](examples/llama-index-query-engine/) + - Guía: [Integración con LlamaIndex](docs/integrations/LLAMA_INDEX.md) + +- ✅ **Formato listo para Pinecone** - Optimizado para carga en bases de datos vectoriales + - Ideal para: búsqueda vectorial en producción, búsqueda semántica, búsqueda híbrida + - Ejemplo: [Carga en Pinecone](examples/pinecone-upsert/) + - Guía: [Integración con Pinecone](docs/integrations/PINECONE.md) + +**Exportación rápida:** +```bash +# LangChain Documents (JSON) +skill-seekers package output/django --target langchain +# → output/django-langchain.json + +# LlamaIndex TextNodes (JSON) +skill-seekers package output/django --target llama-index +# → output/django-llama-index.json + +# Markdown (universal) +skill-seekers package output/django --target markdown +# → output/django-markdown/SKILL.md + references/ +``` + +**Guía completa de pipelines RAG:** [Documentación de pipelines RAG](docs/integrations/RAG_PIPELINES.md) + +--- + +### 🧠 Integraciones con asistentes de programación con IA + +Transforma cualquier documentación de framework en contexto experto de programación para más de 4 asistentes de IA: + +- ✅ **Cursor IDE** - Genera `.cursorrules` para sugerencias de código potenciadas por IA + - Ideal para: generación de código específica por framework, patrones consistentes + - Funciona con: Cursor IDE (fork de VS Code) + - Guía: [Integración con Cursor](docs/integrations/CURSOR.md) + - Ejemplo: [Skill de React para Cursor](examples/cursor-react-skill/) + +- ✅ **Windsurf** - Personaliza el contexto del asistente IA de Windsurf con `.windsurfrules` + - Ideal para: asistencia IA nativa del IDE, programación basada en flujos + - Funciona con: Windsurf IDE de Codeium + - Guía: [Integración con Windsurf](docs/integrations/WINDSURF.md) + - Ejemplo: [Contexto FastAPI para Windsurf](examples/windsurf-fastapi-context/) + +- ✅ **Cline (VS Code)** - Prompts de sistema + MCP para el agente de VS Code + - Ideal para: generación de código agéntica en VS Code + - Funciona con: extensión Cline para VS Code + - Guía: [Integración con Cline](docs/integrations/CLINE.md) + - Ejemplo: [Asistente Django para Cline](examples/cline-django-assistant/) + +- ✅ **Continue.dev** - Servidores de contexto para IA independiente del IDE + - Ideal para: entornos multi-IDE (VS Code, JetBrains, Vim), proveedores LLM personalizados + - Funciona con: cualquier IDE con el plugin Continue.dev + - Guía: [Integración con Continue](docs/integrations/CONTINUE_DEV.md) + - Ejemplo: [Contexto universal de Continue](examples/continue-dev-universal/) + +**Exportación rápida para herramientas de programación con IA:** +```bash +# Para cualquier asistente de programación con IA (Cursor, Windsurf, Cline, Continue.dev) +skill-seekers scrape --config configs/django.json +skill-seekers package output/django --target claude # o --target markdown + +# Copiar a tu proyecto (ejemplo para Cursor) +cp output/django-claude/SKILL.md my-project/.cursorrules + +# O para Windsurf +cp output/django-claude/SKILL.md my-project/.windsurf/rules/django.md + +# O para Cline +cp output/django-claude/SKILL.md my-project/.clinerules + +# O para Continue.dev (servidor HTTP) +python examples/continue-dev-universal/context_server.py +# Configurar en ~/.continue/config.json +``` + +**Centro de integraciones:** [Todas las integraciones con sistemas de IA](docs/integrations/INTEGRATIONS.md) + +--- + +### 🌊 Arquitectura de tres flujos para GitHub +- ✅ **Análisis de triple flujo** - Divide los repos de GitHub en flujos de Código, Documentación e Insights +- ✅ **Analizador de código unificado** - Funciona con URLs de GitHub Y rutas locales +- ✅ **C3.x como profundidad de análisis** - Elige entre 'basic' (1–2 min) o 'c3x' (20–60 min) +- ✅ **Generación mejorada del router** - Metadatos de GitHub, inicio rápido del README, problemas comunes +- ✅ **Integración de issues** - Problemas principales y soluciones desde GitHub Issues +- ✅ **Palabras clave de enrutamiento inteligente** - Etiquetas de GitHub con peso 2x para mejor detección de temas + +**Los tres flujos explicados:** +- **Flujo 1: Código** - Análisis profundo C3.x (patrones, ejemplos, guías, configuraciones, arquitectura) +- **Flujo 2: Documentación** - Documentación del repositorio (README, CONTRIBUTING, docs/*.md) +- **Flujo 3: Insights** - Conocimiento de la comunidad (issues, etiquetas, estrellas, forks) + +```python +from skill_seekers.cli.unified_codebase_analyzer import UnifiedCodebaseAnalyzer + +# Analizar repositorio de GitHub con los tres flujos +analyzer = UnifiedCodebaseAnalyzer() +result = analyzer.analyze( + source="https://github.com/facebook/react", + depth="c3x", # o "basic" para análisis rápido + fetch_github_metadata=True +) + +# Acceder al flujo de código (análisis C3.x) +print(f"Patrones de diseño: {len(result.code_analysis['c3_1_patterns'])}") +print(f"Ejemplos de tests: {result.code_analysis['c3_2_examples_count']}") + +# Acceder al flujo de documentación (docs del repositorio) +print(f"README: {result.github_docs['readme'][:100]}") + +# Acceder al flujo de insights (metadatos de GitHub) +print(f"Estrellas: {result.github_insights['metadata']['stars']}") +print(f"Problemas comunes: {len(result.github_insights['common_problems'])}") +``` + +**Documentación completa**: [Resumen de implementación de tres flujos](docs/IMPLEMENTATION_SUMMARY_THREE_STREAM.md) + +### 🔐 Gestión inteligente de límites de tasa y configuración +- ✅ **Sistema de configuración multi-token** - Gestiona múltiples cuentas de GitHub (personal, trabajo, OSS) + - Almacenamiento seguro de configuración en `~/.config/skill-seekers/config.json` (permisos 600) + - Estrategias de límite de tasa por perfil: `prompt`, `wait`, `switch`, `fail` + - Timeout configurable por perfil (predeterminado: 30 min, evita esperas indefinidas) + - Cadena inteligente de respaldo: argumento CLI → variable de entorno → archivo de configuración → prompt + - Gestión de API keys para Claude, Gemini, OpenAI +- ✅ **Asistente de configuración interactivo** - Interfaz de terminal atractiva para fácil configuración + - Integración con navegador para creación de tokens (abre automáticamente GitHub, etc.) + - Validación de tokens y pruebas de conexión + - Visualización de estado con códigos de color +- ✅ **Manejador inteligente de límites de tasa** - ¡No más esperas indefinidas! + - Advertencia anticipada sobre límites de tasa (60/hora vs 5000/hora) + - Detección en tiempo real desde las respuestas de la API de GitHub + - Temporizadores de cuenta regresiva en vivo con progreso + - Cambio automático de perfil cuando se alcanza el límite + - Cuatro estrategias: prompt (preguntar), wait (cuenta regresiva), switch (cambiar a otro), fail (abortar) +- ✅ **Capacidad de reanudación** - Continúa trabajos interrumpidos + - Auto-guardado de progreso en intervalos configurables (predeterminado: 60 seg) + - Lista todos los trabajos reanudables con detalles de progreso + - Limpieza automática de trabajos antiguos (predeterminado: 7 días) +- ✅ **Soporte CI/CD** - Modo no interactivo para automatización + - Flag `--non-interactive` que falla rápidamente sin prompts + - Flag `--profile` para seleccionar una cuenta de GitHub específica + - Mensajes de error claros para logs de pipelines + +**Configuración rápida:** +```bash +# Configuración única (5 minutos) +skill-seekers config --github + +# Usar perfil específico para repos privados +skill-seekers github --repo mycompany/private-repo --profile work + +# Modo CI/CD (fallo rápido, sin prompts) +skill-seekers github --repo owner/repo --non-interactive + +# Reanudar trabajo interrumpido +skill-seekers resume --list +skill-seekers resume github_react_20260117_143022 +``` + +**Estrategias de límite de tasa explicadas:** +- **prompt** (predeterminado) - Pregunta qué hacer cuando se alcanza el límite (esperar, cambiar, configurar token, cancelar) +- **wait** - Espera automáticamente con temporizador de cuenta regresiva (respeta el timeout) +- **switch** - Intenta automáticamente el siguiente perfil disponible (para configuraciones multi-cuenta) +- **fail** - Falla inmediatamente con error claro (perfecto para CI/CD) + +### 🎯 Skill Bootstrap - Auto-alojamiento + +Genera skill-seekers como un Claude Code Skill para usarlo dentro de Claude: + +```bash +# Generar el skill +./scripts/bootstrap_skill.sh + +# Instalar en Claude Code +cp -r output/skill-seekers ~/.claude/skills/ +``` + +**Lo que obtienes:** +- ✅ **Documentación completa del skill** - Todos los comandos CLI y patrones de uso +- ✅ **Referencia de comandos CLI** - Cada herramienta y sus opciones documentadas +- ✅ **Ejemplos de inicio rápido** - Flujos de trabajo comunes y mejores prácticas +- ✅ **Documentación de API auto-generada** - Análisis de código, patrones y ejemplos + +### 🔐 Repositorios de configuración privados +- ✅ **Fuentes de configuración basadas en Git** - Obtén configuraciones desde repositorios git privados/de equipo +- ✅ **Gestión multi-fuente** - Registra repositorios ilimitados de GitHub, GitLab, Bitbucket +- ✅ **Colaboración en equipo** - Comparte configuraciones personalizadas entre equipos de 3–5 personas +- ✅ **Soporte empresarial** - Escala a más de 500 desarrolladores con resolución basada en prioridad +- ✅ **Autenticación segura** - Tokens como variables de entorno (GITHUB_TOKEN, GITLAB_TOKEN) +- ✅ **Caché inteligente** - Clona una vez, obtiene actualizaciones automáticamente +- ✅ **Modo offline** - Trabaja con configuraciones en caché cuando no hay conexión + +### 🤖 Análisis de código (C3.x) + +**C3.4: Extracción de patrones de configuración con mejora por IA** +- ✅ **9 formatos de configuración** - JSON, YAML, TOML, ENV, INI, Python, JavaScript, Dockerfile, Docker Compose +- ✅ **7 tipos de patrones** - Configuraciones de base de datos, API, logging, caché, correo, autenticación, servidor +- ✅ **Mejora con IA** - Análisis IA opcional en modo dual (API + LOCAL) + - Explica qué hace cada configuración + - Sugiere mejores prácticas y mejoras + - **Análisis de seguridad** - Encuentra secretos codificados y credenciales expuestas +- ✅ **Auto-documentación** - Genera documentación JSON + Markdown de todas las configuraciones +- ✅ **Integración MCP** - Herramienta `extract_config_patterns` con soporte de mejora + +**C3.3: Guías prácticas mejoradas con IA** +- ✅ **Mejora integral con IA** - Transforma guías básicas en tutoriales profesionales +- ✅ **5 mejoras automáticas** - Descripciones de pasos, solución de problemas, prerrequisitos, siguientes pasos, casos de uso +- ✅ **Soporte de modo dual** - Modo API (Claude API) o modo LOCAL (Claude Code CLI) +- ✅ **Sin costos con modo LOCAL** - Mejora GRATUITA usando tu plan Claude Code Max +- ✅ **Transformación de calidad** - Plantillas de 75 líneas → guías completas de más de 500 líneas + +**Uso:** +```bash +# Análisis rápido (1–2 min, solo funciones básicas) +skill-seekers analyze --directory tests/ --quick + +# Análisis completo con IA (20–60 min, todas las funciones) +skill-seekers analyze --directory tests/ --comprehensive + +# Con mejora por IA +skill-seekers analyze --directory tests/ --enhance +``` + +**Documentación completa:** [docs/HOW_TO_GUIDES.md](docs/HOW_TO_GUIDES.md#ai-enhancement-new) + +### 🔄 Presets de flujo de trabajo de mejora + +Pipelines de mejora reutilizables definidos en YAML que controlan cómo la IA transforma tu documentación sin procesar en un skill pulido. + +- ✅ **5 presets incluidos** — `default`, `minimal`, `security-focus`, `architecture-comprehensive`, `api-documentation` +- ✅ **Presets definidos por el usuario** — añade flujos personalizados a `~/.config/skill-seekers/workflows/` +- ✅ **Múltiples flujos de trabajo** — encadena dos o más flujos en un solo comando +- ✅ **CLI completamente gestionado** — lista, inspecciona, copia, añade, elimina y valida flujos de trabajo + +```bash +# Aplicar un solo flujo de trabajo +skill-seekers create ./my-project --enhance-workflow security-focus + +# Encadenar múltiples flujos de trabajo (se aplican en orden) +skill-seekers create ./my-project \ + --enhance-workflow security-focus \ + --enhance-workflow minimal + +# Gestionar presets +skill-seekers workflows list # Listar todos (incluidos + usuario) +skill-seekers workflows show security-focus # Mostrar contenido YAML +skill-seekers workflows copy security-focus # Copiar al directorio de usuario para editar +skill-seekers workflows add ./my-workflow.yaml # Instalar un preset personalizado +skill-seekers workflows remove my-workflow # Eliminar un preset de usuario +skill-seekers workflows validate security-focus # Validar estructura del preset + +# Copiar varios a la vez +skill-seekers workflows copy security-focus minimal api-documentation + +# Añadir varios archivos a la vez +skill-seekers workflows add ./wf-a.yaml ./wf-b.yaml + +# Eliminar varios a la vez +skill-seekers workflows remove my-wf-a my-wf-b +``` + +**Formato de preset YAML:** +```yaml +name: security-focus +description: "Revisión enfocada en seguridad: vulnerabilidades, autenticación, manejo de datos" +version: "1.0" +stages: + - name: vulnerabilities + type: custom + prompt: "Revisar el OWASP top 10 y vulnerabilidades de seguridad comunes..." + - name: auth-review + type: custom + prompt: "Examinar patrones de autenticación y autorización..." + uses_history: true +``` + +### ⚡ Rendimiento y escalabilidad +- ✅ **Modo asíncrono** - Extracción 2–3x más rápida con async/await (usa el flag `--async`) +- ✅ **Soporte para documentación grande** - Maneja documentos de 10K–40K+ páginas con división inteligente +- ✅ **Skills Router/Hub** - Enrutamiento inteligente hacia sub-skills especializados +- ✅ **Extracción en paralelo** - Procesa múltiples skills simultáneamente +- ✅ **Checkpoint/Reanudación** - Nunca pierdas progreso en extracciones largas +- ✅ **Sistema de caché** - Extrae una vez, reconstruye instantáneamente + +### ✅ Garantía de calidad +- ✅ **Completamente probado** - Más de 2.540 tests con cobertura completa + +--- + +## 📦 Instalación + +```bash +# Instalación básica (extracción de documentación, análisis de GitHub, PDF, empaquetado) +pip install skill-seekers + +# Con soporte para todas las plataformas LLM +pip install skill-seekers[all-llms] + +# Con servidor MCP +pip install skill-seekers[mcp] + +# Todo incluido +pip install skill-seekers[all] +``` + +**¿Necesitas ayuda para elegir?** Ejecuta el asistente de configuración: +```bash +skill-seekers-setup +``` + +### Opciones de instalación + +| Instalación | Funcionalidades | +|-------------|-----------------| +| `pip install skill-seekers` | Extracción, análisis de GitHub, PDF, todas las plataformas | +| `pip install skill-seekers[gemini]` | + Soporte para Google Gemini | +| `pip install skill-seekers[openai]` | + Soporte para OpenAI ChatGPT | +| `pip install skill-seekers[all-llms]` | + Todas las plataformas LLM | +| `pip install skill-seekers[mcp]` | + Servidor MCP para Claude Code, Cursor, etc. | +| `pip install skill-seekers[video]` | + Extracción de transcripciones y metadatos de YouTube/Vimeo | +| `pip install skill-seekers[video-full]` | + Transcripción Whisper y extracción visual de fotogramas | +| `pip install skill-seekers[jupyter]` | + Soporte para Jupyter Notebook | +| `pip install skill-seekers[pptx]` | + Soporte para PowerPoint | +| `pip install skill-seekers[confluence]` | + Soporte para wiki de Confluence | +| `pip install skill-seekers[notion]` | + Soporte para páginas de Notion | +| `pip install skill-seekers[rss]` | + Soporte para feeds RSS/Atom | +| `pip install skill-seekers[chat]` | + Soporte para exportación de chat de Slack/Discord | +| `pip install skill-seekers[asciidoc]` | + Soporte para documentos AsciiDoc | +| `pip install skill-seekers[all]` | Todo habilitado | + +> **Dependencias visuales para video (detección de GPU):** Después de instalar `skill-seekers[video-full]`, ejecuta +> `skill-seekers video --setup` para detectar automáticamente tu GPU e instalar la variante correcta de PyTorch +> + easyocr. Esta es la forma recomendada de instalar las dependencias de extracción visual. + +--- + +## 🚀 Flujo de trabajo de instalación con un solo comando + +**La forma más rápida de ir desde la configuración hasta el skill subido - automatización completa:** + +```bash +# Instalar skill de React desde las configuraciones oficiales (se sube automáticamente a Claude) +skill-seekers install --config react + +# Instalar desde archivo de configuración local +skill-seekers install --config configs/custom.json + +# Instalar sin subir (solo empaquetar) +skill-seekers install --config django --no-upload + +# Previsualizar flujo de trabajo sin ejecutar +skill-seekers install --config react --dry-run +``` + +**Tiempo:** 20–45 minutos en total | **Calidad:** Listo para producción (9/10) | **Costo:** Gratis + +**Fases ejecutadas:** +``` +📥 FASE 1: Obtener configuración (si se proporciona nombre de configuración) +📖 FASE 2: Extraer documentación +✨ FASE 3: Mejora con IA (OBLIGATORIA - sin opción de omitir) +📦 FASE 4: Empaquetar skill +☁️ FASE 5: Subir a Claude (opcional, requiere API key) +``` + +**Requisitos:** +- Variable de entorno ANTHROPIC_API_KEY (para subida automática) +- Plan Claude Code Max (para mejora local con IA) + +--- + +## 📊 Matriz de funcionalidades + +Skill Seekers soporta **4 plataformas LLM**, **17 tipos de fuentes** y paridad total de funcionalidades en todos los destinos. + +**Plataformas:** Claude AI, Google Gemini, OpenAI ChatGPT, Markdown genérico +**Tipos de fuentes:** Sitios web de documentación, repos de GitHub, PDFs, Word (.docx), EPUB, Video, Bases de código locales, Jupyter Notebooks, HTML local, OpenAPI/Swagger, AsciiDoc, PowerPoint (.pptx), feeds RSS/Atom, páginas de manual, wikis de Confluence, páginas de Notion, exportaciones de chat de Slack/Discord + +Consulta la [Matriz completa de funcionalidades](docs/FEATURE_MATRIX.md) para información detallada de soporte por plataforma y funcionalidad. + +### Comparación rápida de plataformas + +| Funcionalidad | Claude | Gemini | OpenAI | Markdown | +|---------------|--------|--------|--------|----------| +| Formato | ZIP + YAML | tar.gz | ZIP + Vector | ZIP | +| Carga | ✅ API | ✅ API | ✅ API | ❌ Manual | +| Mejora | ✅ Sonnet 4 | ✅ 2.0 Flash | ✅ GPT-4o | ❌ Ninguna | +| Todos los modos de skill | ✅ | ✅ | ✅ | ✅ | + +--- + +## Ejemplos de uso + +### Extracción de documentación + +```bash +# Extraer sitio web de documentación +skill-seekers scrape --config configs/react.json + +# Extracción rápida sin configuración +skill-seekers scrape --url https://react.dev --name react + +# Con modo asíncrono (3x más rápido) +skill-seekers scrape --config configs/godot.json --async --workers 8 +``` + +### Extracción de PDF + +```bash +# Extracción básica de PDF +skill-seekers pdf --pdf docs/manual.pdf --name myskill + +# Funciones avanzadas +skill-seekers pdf --pdf docs/manual.pdf --name myskill \ + --extract-tables \ # Extraer tablas + --parallel \ # Procesamiento paralelo rápido + --workers 8 # Usar 8 núcleos de CPU + +# PDFs escaneados (requiere: pip install pytesseract Pillow) +skill-seekers pdf --pdf docs/scanned.pdf --name myskill --ocr +``` + +### Extracción de video + +```bash +# Instalar soporte para video +pip install skill-seekers[video] # Transcripciones + metadatos +pip install skill-seekers[video-full] # + Whisper + extracción visual de fotogramas + +# Detectar GPU automáticamente e instalar dependencias visuales (PyTorch + easyocr) +skill-seekers video --setup + +# Extraer de video de YouTube +skill-seekers video --url https://www.youtube.com/watch?v=dQw4w9WgXcQ --name mytutorial + +# Extraer de una lista de reproducción de YouTube +skill-seekers video --playlist https://www.youtube.com/playlist?list=... --name myplaylist + +# Extraer de un archivo de video local +skill-seekers video --video-file recording.mp4 --name myrecording + +# Extraer con análisis visual de fotogramas (requiere dependencias video-full) +skill-seekers video --url https://www.youtube.com/watch?v=... --name mytutorial --visual + +# Con mejora por IA (limpia OCR + genera SKILL.md pulido) +skill-seekers video --url https://www.youtube.com/watch?v=... --visual --enhance-level 2 + +# Recortar una sección específica de un video (soporta segundos, MM:SS, HH:MM:SS) +skill-seekers video --url https://www.youtube.com/watch?v=... --start-time 1:30 --end-time 5:00 + +# Usar Vision API para fotogramas OCR de baja confianza (requiere ANTHROPIC_API_KEY) +skill-seekers video --url https://www.youtube.com/watch?v=... --visual --vision-ocr + +# Reconstruir skill desde datos previamente extraídos (saltar descarga) +skill-seekers video --from-json output/mytutorial/video_data/extracted_data.json --name mytutorial +``` + +> **Guía completa:** Consulta [docs/VIDEO_GUIDE.md](docs/VIDEO_GUIDE.md) para la referencia CLI completa, +> detalles del pipeline visual, opciones de mejora con IA y solución de problemas. + +### Análisis de repositorios de GitHub + +```bash +# Extracción básica de repositorio +skill-seekers github --repo facebook/react + +# Con autenticación (límites de tasa más altos) +export GITHUB_TOKEN=ghp_your_token_here +skill-seekers github --repo facebook/react + +# Personalizar qué incluir +skill-seekers github --repo django/django \ + --include-issues \ # Extraer GitHub Issues + --max-issues 100 \ # Limitar cantidad de issues + --include-changelog # Extraer CHANGELOG.md +``` + +### Extracción unificada multi-fuente + +**Combina documentación + GitHub + PDF en un solo skill unificado con detección de conflictos:** + +```bash +# Usar configuraciones unificadas existentes +skill-seekers unified --config configs/react_unified.json +skill-seekers unified --config configs/django_unified.json + +# O crear configuración unificada +cat > configs/myframework_unified.json << 'EOF' +{ + "name": "myframework", + "merge_mode": "rule-based", + "sources": [ + { + "type": "documentation", + "base_url": "https://docs.myframework.com/", + "max_pages": 200 + }, + { + "type": "github", + "repo": "owner/myframework", + "code_analysis_depth": "surface" + } + ] +} +EOF + +skill-seekers unified --config configs/myframework_unified.json +``` + +**La detección de conflictos encuentra automáticamente:** +- 🔴 **Falta en el código** (alto): Documentado pero no implementado +- 🟡 **Falta en la documentación** (medio): Implementado pero no documentado +- ⚠️ **Discrepancia de firma**: Parámetros/tipos diferentes +- ℹ️ **Discrepancia de descripción**: Explicaciones diferentes + +**Guía completa:** Consulta [docs/UNIFIED_SCRAPING.md](docs/UNIFIED_SCRAPING.md) para documentación completa. + +### Repositorios de configuración privados + +**Comparte configuraciones personalizadas entre equipos usando repositorios git privados:** + +```bash +# Opción 1: Usando herramientas MCP (recomendado) +# Registrar el repo privado de tu equipo +add_config_source( + name="team", + git_url="https://github.com/mycompany/skill-configs.git", + token_env="GITHUB_TOKEN" +) + +# Obtener configuración del repo del equipo +fetch_config(source="team", config_name="internal-api") +``` + +**Plataformas soportadas:** +- GitHub (`GITHUB_TOKEN`), GitLab (`GITLAB_TOKEN`), Gitea (`GITEA_TOKEN`), Bitbucket (`BITBUCKET_TOKEN`) + +**Guía completa:** Consulta [docs/GIT_CONFIG_SOURCES.md](docs/GIT_CONFIG_SOURCES.md) para documentación completa. + +## Cómo funciona + +```mermaid +graph LR + A[Sitio web de documentación] --> B[Skill Seekers] + B --> C[Scraper] + B --> D[Mejora con IA] + B --> E[Empaquetador] + C --> F[Referencias organizadas] + D --> F + F --> E + E --> G[Claude Skill .zip] + G --> H[Subir a Claude AI] +``` + +0. **Detectar llms.txt** - Primero verifica llms-full.txt, llms.txt, llms-small.txt +1. **Extraer**: Extrae todas las páginas de la documentación +2. **Categorizar**: Organiza el contenido en temas (API, guías, tutoriales, etc.) +3. **Mejorar**: La IA analiza los docs y crea un SKILL.md completo con ejemplos +4. **Empaquetar**: Agrupa todo en un archivo `.zip` listo para Claude + +## 📋 Prerrequisitos + +**Antes de empezar, asegúrate de tener:** + +1. **Python 3.10 o superior** - [Descargar](https://www.python.org/downloads/) | Verificar: `python3 --version` +2. **Git** - [Descargar](https://git-scm.com/) | Verificar: `git --version` +3. **15–30 minutos** para la configuración inicial + +**¿Primera vez?** → **[Empieza aquí: Guía de inicio rápido a prueba de fallos](BULLETPROOF_QUICKSTART.md)** 🎯 + +--- + +## 📤 Subir skills a Claude + +Una vez empaquetado tu skill, necesitas subirlo a Claude: + +### Opción 1: Subida automática (basada en API) + +```bash +# Configurar tu API key (una sola vez) +export ANTHROPIC_API_KEY=sk-ant-... + +# Empaquetar y subir automáticamente +skill-seekers package output/react/ --upload + +# O subir un .zip existente +skill-seekers upload output/react.zip +``` + +### Opción 2: Subida manual (sin API Key) + +```bash +# Empaquetar skill +skill-seekers package output/react/ +# → Crea output/react.zip + +# Luego subir manualmente: +# - Ve a https://claude.ai/skills +# - Haz clic en "Upload Skill" +# - Selecciona output/react.zip +``` + +### Opción 3: MCP (Claude Code) + +``` +En Claude Code, simplemente pide: +"Empaqueta y sube el skill de React" +``` + +--- + +## 🤖 Instalación en agentes de IA + +Skill Seekers puede instalar automáticamente skills en más de 10 agentes de programación con IA. + +```bash +# Instalar en un agente específico +skill-seekers install-agent output/react/ --agent cursor + +# Instalar en todos los agentes a la vez +skill-seekers install-agent output/react/ --agent all + +# Previsualizar sin instalar +skill-seekers install-agent output/react/ --agent cursor --dry-run +``` + +### Agentes soportados + +| Agente | Ruta | Tipo | +|--------|------|------| +| **Claude Code** | `~/.claude/skills/` | Global | +| **Cursor** | `.cursor/skills/` | Proyecto | +| **VS Code / Copilot** | `.github/skills/` | Proyecto | +| **Amp** | `~/.amp/skills/` | Global | +| **Goose** | `~/.config/goose/skills/` | Global | +| **OpenCode** | `~/.opencode/skills/` | Global | +| **Windsurf** | `~/.windsurf/skills/` | Global | + +--- + +## 🔌 Integración MCP (26 herramientas) + +Skill Seekers incluye un servidor MCP para usar desde Claude Code, Cursor, Windsurf, VS Code + Cline o IntelliJ IDEA. + +```bash +# Modo stdio (Claude Code, VS Code + Cline) +python -m skill_seekers.mcp.server_fastmcp + +# Modo HTTP (Cursor, Windsurf, IntelliJ) +python -m skill_seekers.mcp.server_fastmcp --transport http --port 8765 + +# Auto-configurar todos los agentes a la vez +./setup_mcp.sh +``` + +**Las 26 herramientas disponibles:** +- **Core (9):** `list_configs`, `generate_config`, `validate_config`, `estimate_pages`, `scrape_docs`, `package_skill`, `upload_skill`, `enhance_skill`, `install_skill` +- **Extendidas (10):** `scrape_github`, `scrape_pdf`, `unified_scrape`, `merge_sources`, `detect_conflicts`, `add_config_source`, `fetch_config`, `list_config_sources`, `remove_config_source`, `split_config` +- **Bases de datos vectoriales (4):** `export_to_chroma`, `export_to_weaviate`, `export_to_faiss`, `export_to_qdrant` +- **Nube (3):** `cloud_upload`, `cloud_download`, `cloud_list` + +**Guía completa:** [docs/MCP_SETUP.md](docs/MCP_SETUP.md) + +--- + +## ⚙️ Configuración + +### Presets disponibles (más de 24) + +```bash +# Listar todos los presets +skill-seekers list-configs +``` + +| Categoría | Presets | +|-----------|---------| +| **Frameworks Web** | `react`, `vue`, `angular`, `svelte`, `nextjs` | +| **Python** | `django`, `flask`, `fastapi`, `sqlalchemy`, `pytest` | +| **Desarrollo de juegos** | `godot`, `pygame`, `unity` | +| **Herramientas y DevOps** | `docker`, `kubernetes`, `terraform`, `ansible` | +| **Unificados (Docs + GitHub)** | `react-unified`, `vue-unified`, `nextjs-unified` y más | + +### Crear tu propia configuración + +```bash +# Opción 1: Interactivo +skill-seekers scrape --interactive + +# Opción 2: Copiar y editar un preset +cp configs/react.json configs/myframework.json +nano configs/myframework.json +skill-seekers scrape --config configs/myframework.json +``` + +### Estructura del archivo de configuración + +```json +{ + "name": "myframework", + "description": "Cuándo usar este skill", + "base_url": "https://docs.myframework.com/", + "selectors": { + "main_content": "article", + "title": "h1", + "code_blocks": "pre code" + }, + "url_patterns": { + "include": ["/docs", "/guide"], + "exclude": ["/blog", "/about"] + }, + "categories": { + "getting_started": ["intro", "quickstart"], + "api": ["api", "reference"] + }, + "rate_limit": 0.5, + "max_pages": 500 +} +``` + +### Dónde almacenar las configuraciones + +La herramienta busca en este orden: +1. Ruta exacta proporcionada +2. `./configs/` (directorio actual) +3. `~/.config/skill-seekers/configs/` (directorio de configuración del usuario) +4. API de SkillSeekersWeb.com (configuraciones predefinidas) + +--- + +## 📊 Lo que se crea + +``` +output/ +├── godot_data/ # Datos sin procesar extraídos +│ ├── pages/ # Archivos JSON (uno por página) +│ └── summary.json # Resumen general +│ +└── godot/ # El skill + ├── SKILL.md # Mejorado con ejemplos reales + ├── references/ # Docs categorizados + │ ├── index.md + │ ├── getting_started.md + │ ├── scripting.md + │ └── ... + ├── scripts/ # Vacío (añade los tuyos) + └── assets/ # Vacío (añade los tuyos) +``` + +--- + +## 🐛 Solución de problemas + +### ¿No se extrajo contenido? +- Verifica tu selector `main_content` +- Prueba con: `article`, `main`, `div[role="main"]` + +### ¿Los datos existen pero no se usan? +```bash +# Forzar re-extracción +rm -rf output/myframework_data/ +skill-seekers scrape --config configs/myframework.json +``` + +### ¿Categorías incorrectas? +Edita la sección `categories` de la configuración con mejores palabras clave. + +### ¿Quieres actualizar la documentación? +```bash +# Eliminar datos antiguos y volver a extraer +rm -rf output/godot_data/ +skill-seekers scrape --config configs/godot.json +``` + +### ¿La mejora no funciona? +```bash +# Verificar si la API key está configurada +echo $ANTHROPIC_API_KEY + +# Probar modo LOCAL (usa Claude Code Max, no requiere API key) +skill-seekers enhance output/react/ --mode LOCAL + +# Monitorear el estado de mejora en segundo plano +skill-seekers enhance-status output/react/ --watch +``` + +### ¿Problemas con límite de tasa de GitHub? +```bash +# Configurar un token de GitHub (5000 req/hora vs 60/hora anónimo) +export GITHUB_TOKEN=ghp_your_token_here + +# O configurar múltiples perfiles +skill-seekers config --github +``` + +--- + +## 📈 Rendimiento + +| Tarea | Tiempo | Notas | +|-------|--------|-------| +| Extracción (síncrona) | 15–45 min | Solo la primera vez, basado en hilos | +| Extracción (asíncrona) | 5–15 min | 2–3x más rápido con el flag `--async` | +| Construcción | 1–3 min | Reconstrucción rápida desde caché | +| Reconstrucción | <1 min | Con `--skip-scrape` | +| Mejora (LOCAL) | 30–60 seg | Usa Claude Code Max | +| Mejora (API) | 20–40 seg | Requiere API key | +| Video (transcripción) | 1–3 min | YouTube/local, solo transcripción | +| Video (visual) | 5–15 min | + Extracción de fotogramas OCR | +| Empaquetado | 5–10 seg | Creación del .zip final | + +--- + +## 📚 Documentación + +### Primeros pasos +- **[BULLETPROOF_QUICKSTART.md](BULLETPROOF_QUICKSTART.md)** - 🎯 **¡EMPIEZA AQUÍ si eres nuevo!** +- **[QUICKSTART.md](QUICKSTART.md)** - Inicio rápido para usuarios experimentados +- **[TROUBLESHOOTING.md](TROUBLESHOOTING.md)** - Problemas comunes y soluciones +- **[docs/QUICK_REFERENCE.md](docs/QUICK_REFERENCE.md)** - Hoja de referencia rápida + +### Guías +- **[docs/LARGE_DOCUMENTATION.md](docs/LARGE_DOCUMENTATION.md)** - Manejar documentos de 10K–40K+ páginas +- **[ASYNC_SUPPORT.md](ASYNC_SUPPORT.md)** - Guía de modo asíncrono (2–3x más rápido) +- **[docs/ENHANCEMENT_MODES.md](docs/ENHANCEMENT_MODES.md)** - Guía de modos de mejora con IA +- **[docs/MCP_SETUP.md](docs/MCP_SETUP.md)** - Configuración de integración MCP +- **[docs/UNIFIED_SCRAPING.md](docs/UNIFIED_SCRAPING.md)** - Extracción multi-fuente +- **[docs/VIDEO_GUIDE.md](docs/VIDEO_GUIDE.md)** - Guía de extracción de video + +### Guías de integración +- **[docs/integrations/LANGCHAIN.md](docs/integrations/LANGCHAIN.md)** - LangChain RAG +- **[docs/integrations/CURSOR.md](docs/integrations/CURSOR.md)** - Cursor IDE +- **[docs/integrations/WINDSURF.md](docs/integrations/WINDSURF.md)** - Windsurf IDE +- **[docs/integrations/CLINE.md](docs/integrations/CLINE.md)** - Cline (VS Code) +- **[docs/integrations/RAG_PIPELINES.md](docs/integrations/RAG_PIPELINES.md)** - Todos los pipelines RAG + +--- + +## 📝 Licencia + +Licencia MIT - consulta el archivo [LICENSE](LICENSE) para más detalles + +--- + +¡Feliz construcción de skills! 🚀 + +--- + +## 🔒 Seguridad + +[![Insignia de evaluación de seguridad MseeP.ai](https://mseep.net/pr/yusufkaraaslan-skill-seekers-badge.png)](https://mseep.ai/app/yusufkaraaslan-skill-seekers) diff --git a/README.fr.md b/README.fr.md new file mode 100644 index 0000000..1d8a129 --- /dev/null +++ b/README.fr.md @@ -0,0 +1,1183 @@ +

+ Skill Seekers +

+ +# Skill Seekers + +[English](README.md) | [简体中文](README.zh-CN.md) | [日本語](README.ja.md) | [한국어](README.ko.md) | [Español](README.es.md) | Français | [Deutsch](README.de.md) | [Português](README.pt-BR.md) | [Türkçe](README.tr.md) | [العربية](README.ar.md) | [हिन्दी](README.hi.md) | [Русский](README.ru.md) + +> ⚠️ **Avis de traduction automatique** +> +> Ce document a été traduit automatiquement par IA. Bien que nous nous efforcions de garantir la qualité, des expressions inexactes peuvent subsister. +> +> N'hésitez pas à contribuer à l'amélioration de la traduction via [GitHub Issue #260](https://github.com/yusufkaraaslan/Skill_Seekers/issues/260) ! Vos retours nous sont précieux. + +[![Version](https://img.shields.io/badge/version-3.2.0-blue.svg)](https://github.com/yusufkaraaslan/Skill_Seekers/releases) +[![Licence : MIT](https://img.shields.io/badge/License-MIT-yellow.svg)](https://opensource.org/licenses/MIT) +[![Python 3.10+](https://img.shields.io/badge/python-3.10+-blue.svg)](https://www.python.org/downloads/) +[![Intégration MCP](https://img.shields.io/badge/MCP-Integrated-blue.svg)](https://modelcontextprotocol.io) +[![Tests réussis](https://img.shields.io/badge/Tests-2540%2B%20Passing-brightgreen.svg)](tests/) +[![Tableau de projet](https://img.shields.io/badge/Project-Board-purple.svg)](https://github.com/users/yusufkaraaslan/projects/2) +[![Version PyPI](https://badge.fury.io/py/skill-seekers.svg)](https://pypi.org/project/skill-seekers/) +[![PyPI - Téléchargements](https://img.shields.io/pypi/dm/skill-seekers.svg)](https://pypi.org/project/skill-seekers/) +[![PyPI - Version Python](https://img.shields.io/pypi/pyversions/skill-seekers.svg)](https://pypi.org/project/skill-seekers/) +[![Site web](https://img.shields.io/badge/Website-skillseekersweb.com-blue.svg)](https://skillseekersweb.com/) +[![Suivre sur Twitter](https://img.shields.io/twitter/follow/_yUSyUS_?style=social)](https://x.com/_yUSyUS_) +[![Étoiles GitHub](https://img.shields.io/github/stars/yusufkaraaslan/Skill_Seekers?style=social)](https://github.com/yusufkaraaslan/Skill_Seekers) + +**🧠 La couche de données pour les systèmes d'IA.** Skill Seekers transforme les sites de documentation, dépôts GitHub, PDF, vidéos, notebooks Jupyter, wikis et plus de 10 autres types de sources en ressources de connaissances structurées — prêtes à alimenter les compétences IA (Claude, Gemini, OpenAI), les pipelines RAG (LangChain, LlamaIndex, Pinecone) et les assistants de codage IA (Cursor, Windsurf, Cline) en quelques minutes, pas en heures. + +> 🌐 **[Visitez SkillSeekersWeb.com](https://skillseekersweb.com/)** - Parcourez plus de 24 configurations prédéfinies, partagez vos configurations et accédez à la documentation complète ! + +> 📋 **[Consultez la feuille de route et les tâches](https://github.com/users/yusufkaraaslan/projects/2)** - 134 tâches réparties en 10 catégories, choisissez-en une pour contribuer ! + +## 🧠 La couche de données pour les systèmes d'IA + +**Skill Seekers est la couche de prétraitement universelle** qui se situe entre la documentation brute et tous les systèmes d'IA qui la consomment. Que vous construisiez des compétences Claude, un pipeline RAG LangChain ou un fichier `.cursorrules` pour Cursor — la préparation des données est identique. Vous le faites une seule fois, et exportez vers toutes les cibles. + +```bash +# Une commande → ressource de connaissances structurée +skill-seekers create https://docs.react.dev/ +# ou : skill-seekers create facebook/react +# ou : skill-seekers create ./my-project + +# Exporter vers n'importe quel système d'IA +skill-seekers package output/react --target claude # → Compétence Claude AI (ZIP) +skill-seekers package output/react --target langchain # → LangChain Documents +skill-seekers package output/react --target llama-index # → LlamaIndex TextNodes +skill-seekers package output/react --target cursor # → .cursorrules +``` + +### Ce qui est généré + +| Sortie | Cible | Utilisation | +|--------|-------|-------------| +| **Compétence Claude** (ZIP + YAML) | `--target claude` | Claude Code, Claude API | +| **Compétence Gemini** (tar.gz) | `--target gemini` | Google Gemini | +| **OpenAI / Custom GPT** (ZIP) | `--target openai` | GPT-4o, assistants personnalisés | +| **LangChain Documents** | `--target langchain` | Chaînes QA, agents, récupérateurs | +| **LlamaIndex TextNodes** | `--target llama-index` | Moteurs de requêtes, moteurs de chat | +| **Haystack Documents** | `--target haystack` | Pipelines RAG d'entreprise | +| **Prêt pour Pinecone** (Markdown) | `--target markdown` | Insertion vectorielle | +| **ChromaDB / FAISS / Qdrant** | `--format chroma/faiss/qdrant` | Bases vectorielles locales | +| **Cursor** `.cursorrules` | `--target claude` → copier | Contexte IA de l'IDE Cursor | +| **Windsurf / Cline / Continue** | `--target claude` → copier | VS Code, IntelliJ, Vim | + +### Pourquoi c'est important + +- ⚡ **99 % plus rapide** — Des jours de préparation manuelle → 15–45 minutes +- 🎯 **Qualité des compétences IA** — Fichiers SKILL.md de 500+ lignes avec exemples, patterns et guides +- 📊 **Fragments prêts pour le RAG** — Découpage intelligent préservant les blocs de code et le contexte +- 🎬 **Vidéos** — Extraction de code, transcriptions et connaissances structurées depuis YouTube et vidéos locales +- 🔄 **Multi-sources** — Combinez 17 types de sources (docs, GitHub, PDF, vidéos, notebooks, wikis, etc.) en une seule ressource +- 🌐 **Une préparation, toutes les cibles** — Exportez la même ressource vers 16 plateformes sans re-scraping +- ✅ **Éprouvé en production** — 2 540+ tests, 24+ préréglages de frameworks, prêt pour la production + +## 🚀 Démarrage rapide (3 commandes) + +```bash +# 1. Installer +pip install skill-seekers + +# 2. Créer une compétence depuis n'importe quelle source +skill-seekers create https://docs.django.com/ + +# 3. Empaqueter pour votre plateforme IA +skill-seekers package output/django --target claude +``` + +**C'est tout !** Vous avez maintenant `output/django-claude.zip` prêt à l'emploi. + +### Autres sources (17 prises en charge) + +```bash +# Dépôt GitHub +skill-seekers create facebook/react + +# Projet local +skill-seekers create ./my-project + +# Document PDF +skill-seekers create manual.pdf + +# Document Word +skill-seekers create report.docx + +# Livre numérique EPUB +skill-seekers create book.epub + +# Notebook Jupyter +skill-seekers create notebook.ipynb + +# Spécification OpenAPI +skill-seekers create openapi.yaml + +# Présentation PowerPoint +skill-seekers create presentation.pptx + +# Document AsciiDoc +skill-seekers create guide.adoc + +# Fichier HTML local +skill-seekers create page.html + +# Flux RSS/Atom +skill-seekers create feed.rss + +# Page de manuel +skill-seekers create curl.1 + +# Vidéo (YouTube, Vimeo ou fichier local — nécessite skill-seekers[video]) +skill-seekers video --url https://www.youtube.com/watch?v=... --name mytutorial +# Première utilisation ? Installation automatique des dépendances visuelles GPU : +skill-seekers video --setup + +# Wiki Confluence +skill-seekers confluence --space TEAM --name wiki + +# Pages Notion +skill-seekers notion --database-id ... --name docs + +# Export chat Slack/Discord +skill-seekers chat --export-dir ./slack-export --name team-chat +``` + +### Exporter partout + +```bash +# Empaqueter pour plusieurs plateformes +for platform in claude gemini openai langchain; do + skill-seekers package output/django --target $platform +done +``` + +## Qu'est-ce que Skill Seekers ? + +Skill Seekers est la **couche de données pour les systèmes d'IA**. Il transforme 17 types de sources — sites de documentation, dépôts GitHub, PDF, vidéos, notebooks Jupyter, documents Word/EPUB/AsciiDoc, spécifications OpenAPI, présentations PowerPoint, flux RSS, pages de manuel, wikis Confluence, pages Notion, exports Slack/Discord, et plus encore — en ressources de connaissances structurées pour toutes les cibles IA : + +| Cas d'usage | Ce que vous obtenez | Exemples | +|-------------|---------------------|----------| +| **Compétences IA** | SKILL.md complet + références | Claude Code, Gemini, GPT | +| **Pipelines RAG** | Documents découpés avec métadonnées riches | LangChain, LlamaIndex, Haystack | +| **Bases vectorielles** | Données pré-formatées prêtes à l'insertion | Pinecone, Chroma, Weaviate, FAISS | +| **Assistants de codage IA** | Fichiers de contexte lus automatiquement par l'IA de votre IDE | Cursor, Windsurf, Cline, Continue.dev | + +## 📚 Documentation + +| Je veux... | Lire ceci | +|------------|-----------| +| **Démarrer rapidement** | [Démarrage rapide](docs/getting-started/02-quick-start.md) - 3 commandes pour une première compétence | +| **Comprendre les concepts** | [Concepts fondamentaux](docs/user-guide/01-core-concepts.md) - Comment ça marche | +| **Scraper des sources** | [Guide de scraping](docs/user-guide/02-scraping.md) - Tous les types de sources | +| **Améliorer les compétences** | [Guide d'amélioration](docs/user-guide/03-enhancement.md) - Amélioration par IA | +| **Exporter les compétences** | [Guide d'empaquetage](docs/user-guide/04-packaging.md) - Export vers les plateformes | +| **Consulter les commandes** | [Référence CLI](docs/reference/CLI_REFERENCE.md) - Les 20 commandes | +| **Configurer** | [Format de configuration](docs/reference/CONFIG_FORMAT.md) - Spécification JSON | +| **Résoudre des problèmes** | [Dépannage](docs/user-guide/06-troubleshooting.md) - Problèmes courants | + +**Documentation complète :** [docs/README.md](docs/README.md) + +Au lieu de passer des jours en prétraitement manuel, Skill Seekers : + +1. **Ingère** — docs, dépôts GitHub, bases de code locales, PDF, vidéos, notebooks, wikis et plus de 10 autres types de sources +2. **Analyse** — analyse AST approfondie, détection de patterns, extraction d'API +3. **Structure** — fichiers de référence catégorisés avec métadonnées +4. **Améliore** — génération de SKILL.md par IA (Claude, Gemini ou local) +5. **Exporte** — 16 formats spécifiques à chaque plateforme depuis une seule ressource + +## Pourquoi l'utiliser ? + +### Pour les créateurs de compétences IA (Claude, Gemini, OpenAI) + +- 🎯 **Compétences de qualité production** — Fichiers SKILL.md de 500+ lignes avec exemples de code, patterns et guides +- 🔄 **Workflows d'amélioration** — Appliquez `security-focus`, `architecture-comprehensive` ou des préréglages YAML personnalisés +- 🎮 **N'importe quel domaine** — Moteurs de jeux (Godot, Unity), frameworks (React, Django), outils internes +- 🔧 **Équipes** — Combinez documentation interne + code en une source de vérité unique +- 📚 **Qualité** — Amélioré par IA avec exemples, référence rapide et guide de navigation + +### Pour les développeurs RAG et ingénieurs IA + +- 🤖 **Données prêtes pour le RAG** — `Documents` LangChain, `TextNodes` LlamaIndex, `Documents` Haystack pré-découpés +- 🚀 **99 % plus rapide** — Des jours de prétraitement → 15–45 minutes +- 📊 **Métadonnées intelligentes** — Catégories, sources, types → meilleure précision de récupération +- 🔄 **Multi-sources** — Combinez docs + GitHub + PDF + vidéos dans un seul pipeline +- 🌐 **Indépendant de la plateforme** — Exportez vers n'importe quelle base vectorielle ou framework sans re-scraping + +### Pour les utilisateurs d'assistants de codage IA + +- 💻 **Cursor / Windsurf / Cline** — Générez automatiquement `.cursorrules` / `.windsurfrules` / `.clinerules` +- 🎯 **Contexte persistant** — L'IA « connaît » vos frameworks sans prompts répétitifs +- 📚 **Toujours à jour** — Mettez à jour le contexte en quelques minutes quand la documentation change + +## Fonctionnalités clés + +### 🌐 Scraping de documentation +- ✅ **Support llms.txt** - Détecte et utilise automatiquement les fichiers de documentation prêts pour les LLM (10x plus rapide) +- ✅ **Scraper universel** - Fonctionne avec N'IMPORTE QUEL site de documentation +- ✅ **Catégorisation intelligente** - Organise automatiquement le contenu par sujet +- ✅ **Détection du langage de code** - Reconnaît Python, JavaScript, C++, GDScript, etc. +- ✅ **24+ préréglages prêts à l'emploi** - Godot, React, Vue, Django, FastAPI, et plus + +### 📄 Support PDF +- ✅ **Extraction PDF basique** - Extraction de texte, code et images depuis les fichiers PDF +- ✅ **OCR pour PDF scannés** - Extraction de texte depuis les documents numérisés +- ✅ **PDF protégés par mot de passe** - Gestion des PDF chiffrés +- ✅ **Extraction de tableaux** - Extraction de tableaux complexes depuis les PDF +- ✅ **Traitement parallèle** - 3x plus rapide pour les gros PDF +- ✅ **Cache intelligent** - 50 % plus rapide lors des ré-exécutions + +### 🎬 Extraction vidéo +- ✅ **YouTube et vidéos locales** - Extraction de transcriptions, code à l'écran et connaissances structurées depuis les vidéos +- ✅ **Analyse visuelle des images** - Extraction OCR depuis éditeurs de code, terminaux, diapositives et diagrammes +- ✅ **Détection automatique du GPU** - Installation automatique de la bonne version de PyTorch (CUDA/ROCm/MPS/CPU) +- ✅ **Amélioration par IA** - Deux passes : nettoyage OCR + génération d'un SKILL.md soigné +- ✅ **Découpage temporel** - Extraction de sections spécifiques avec `--start-time` et `--end-time` +- ✅ **Support des playlists** - Traitement par lots de toutes les vidéos d'une playlist YouTube +- ✅ **Fallback Vision API** - Utilisation de Claude Vision pour les images OCR à faible confiance + +### 🐙 Analyse de dépôts GitHub +- ✅ **Analyse approfondie du code** - Analyse AST pour Python, JavaScript, TypeScript, Java, C++, Go +- ✅ **Extraction d'API** - Fonctions, classes, méthodes avec paramètres et types +- ✅ **Métadonnées du dépôt** - README, arborescence, répartition des langages, étoiles/forks +- ✅ **Issues et PR GitHub** - Récupération des issues ouvertes/fermées avec labels et jalons +- ✅ **CHANGELOG et versions** - Extraction automatique de l'historique des versions +- ✅ **Détection de conflits** - Comparaison entre les API documentées et l'implémentation réelle +- ✅ **Intégration MCP** - En langage naturel : « Scraper le dépôt GitHub facebook/react » + +### 🔄 Scraping multi-sources unifié +- ✅ **Combinaison de sources multiples** - Mélangez documentation + GitHub + PDF dans une seule compétence +- ✅ **Détection de conflits** - Détection automatique des divergences entre docs et code +- ✅ **Fusion intelligente** - Résolution de conflits par règles ou par IA +- ✅ **Rapports transparents** - Comparaison côte à côte avec avertissements ⚠️ +- ✅ **Analyse des lacunes documentaires** - Identification des docs obsolètes et fonctionnalités non documentées +- ✅ **Source de vérité unique** - Une seule compétence montrant à la fois l'intention (docs) et la réalité (code) +- ✅ **Rétrocompatibilité** - Les configurations à source unique héritées fonctionnent toujours + +### 🤖 Support multi-plateformes LLM +- ✅ **4 plateformes LLM** - Claude AI, Google Gemini, OpenAI ChatGPT, Markdown générique +- ✅ **Scraping universel** - La même documentation fonctionne pour toutes les plateformes +- ✅ **Empaquetage spécifique** - Formats optimisés pour chaque LLM +- ✅ **Export en une commande** - Le flag `--target` sélectionne la plateforme +- ✅ **Dépendances optionnelles** - Installez seulement ce dont vous avez besoin +- ✅ **100 % rétrocompatible** - Les workflows Claude existants restent inchangés + +| Plateforme | Format | Upload | Amélioration | API Key | Endpoint personnalisé | +|------------|--------|--------|--------------|---------|----------------------| +| **Claude AI** | ZIP + YAML | ✅ Auto | ✅ Oui | ANTHROPIC_API_KEY | ANTHROPIC_BASE_URL | +| **Google Gemini** | tar.gz | ✅ Auto | ✅ Oui | GOOGLE_API_KEY | - | +| **OpenAI ChatGPT** | ZIP + Vector Store | ✅ Auto | ✅ Oui | OPENAI_API_KEY | - | +| **Markdown générique** | ZIP | ❌ Manuel | ❌ Non | - | - | + +```bash +# Claude (par défaut - aucune modification nécessaire !) +skill-seekers package output/react/ +skill-seekers upload react.zip + +# Google Gemini +pip install skill-seekers[gemini] +skill-seekers package output/react/ --target gemini +skill-seekers upload react-gemini.tar.gz --target gemini + +# OpenAI ChatGPT +pip install skill-seekers[openai] +skill-seekers package output/react/ --target openai +skill-seekers upload react-openai.zip --target openai + +# Markdown générique (export universel) +skill-seekers package output/react/ --target markdown +# Utilisez les fichiers markdown directement dans n'importe quel LLM +``` + +
+🔧 Variables d'environnement pour les API compatibles Claude (ex. GLM-4.7) + +Skill Seekers prend en charge n'importe quel endpoint d'API compatible Claude : + +```bash +# Option 1 : API Anthropic officielle (par défaut) +export ANTHROPIC_API_KEY=sk-ant-... + +# Option 2 : API compatible Claude GLM-4.7 +export ANTHROPIC_API_KEY=your-glm-47-api-key +export ANTHROPIC_BASE_URL=https://glm-4-7-endpoint.com/v1 + +# Toutes les fonctionnalités d'amélioration IA utiliseront l'endpoint configuré +skill-seekers enhance output/react/ +skill-seekers analyze --directory . --enhance +``` + +**Note** : Définir `ANTHROPIC_BASE_URL` vous permet d'utiliser n'importe quel endpoint d'API compatible Claude, comme GLM-4.7 (智谱 AI) ou d'autres services compatibles. + +
+ +**Installation :** +```bash +# Installer le support Gemini +pip install skill-seekers[gemini] + +# Installer le support OpenAI +pip install skill-seekers[openai] + +# Installer toutes les plateformes LLM +pip install skill-seekers[all-llms] +``` + +### 🔗 Intégrations de frameworks RAG + +- ✅ **LangChain Documents** - Export direct au format `Document` avec `page_content` + métadonnées + - Idéal pour : chaînes QA, récupérateurs, stores vectoriels, agents + - Exemple : [Pipeline RAG LangChain](examples/langchain-rag-pipeline/) + - Guide : [Intégration LangChain](docs/integrations/LANGCHAIN.md) + +- ✅ **LlamaIndex TextNodes** - Export au format `TextNode` avec IDs uniques + embeddings + - Idéal pour : moteurs de requêtes, moteurs de chat, contexte de stockage + - Exemple : [Moteur de requêtes LlamaIndex](examples/llama-index-query-engine/) + - Guide : [Intégration LlamaIndex](docs/integrations/LLAMA_INDEX.md) + +- ✅ **Format prêt pour Pinecone** - Optimisé pour l'insertion dans les bases vectorielles + - Idéal pour : recherche vectorielle en production, recherche sémantique, recherche hybride + - Exemple : [Insertion Pinecone](examples/pinecone-upsert/) + - Guide : [Intégration Pinecone](docs/integrations/PINECONE.md) + +**Export rapide :** +```bash +# LangChain Documents (JSON) +skill-seekers package output/django --target langchain +# → output/django-langchain.json + +# LlamaIndex TextNodes (JSON) +skill-seekers package output/django --target llama-index +# → output/django-llama-index.json + +# Markdown (universel) +skill-seekers package output/django --target markdown +# → output/django-markdown/SKILL.md + references/ +``` + +**Guide complet des pipelines RAG :** [Documentation des pipelines RAG](docs/integrations/RAG_PIPELINES.md) + +--- + +### 🧠 Intégrations d'assistants de codage IA + +Transformez n'importe quelle documentation de framework en contexte de codage expert pour plus de 4 assistants IA : + +- ✅ **Cursor IDE** - Génération de `.cursorrules` pour des suggestions de code alimentées par l'IA + - Idéal pour : génération de code spécifique au framework, patterns cohérents + - Fonctionne avec : Cursor IDE (fork de VS Code) + - Guide : [Intégration Cursor](docs/integrations/CURSOR.md) + - Exemple : [Compétence Cursor React](examples/cursor-react-skill/) + +- ✅ **Windsurf** - Personnalisation du contexte de l'assistant IA Windsurf avec `.windsurfrules` + - Idéal pour : assistance IA native dans l'IDE, codage en flux + - Fonctionne avec : Windsurf IDE par Codeium + - Guide : [Intégration Windsurf](docs/integrations/WINDSURF.md) + - Exemple : [Contexte FastAPI Windsurf](examples/windsurf-fastapi-context/) + +- ✅ **Cline (VS Code)** - Prompts système + MCP pour l'agent VS Code + - Idéal pour : génération de code agentique dans VS Code + - Fonctionne avec : extension Cline pour VS Code + - Guide : [Intégration Cline](docs/integrations/CLINE.md) + - Exemple : [Assistant Django Cline](examples/cline-django-assistant/) + +- ✅ **Continue.dev** - Serveurs de contexte pour une IA indépendante de l'IDE + - Idéal pour : environnements multi-IDE (VS Code, JetBrains, Vim), fournisseurs LLM personnalisés + - Fonctionne avec : tout IDE disposant du plugin Continue.dev + - Guide : [Intégration Continue](docs/integrations/CONTINUE_DEV.md) + - Exemple : [Contexte universel Continue](examples/continue-dev-universal/) + +**Export rapide pour les outils de codage IA :** +```bash +# Pour n'importe quel assistant de codage IA (Cursor, Windsurf, Cline, Continue.dev) +skill-seekers scrape --config configs/django.json +skill-seekers package output/django --target claude # ou --target markdown + +# Copier dans votre projet (exemple pour Cursor) +cp output/django-claude/SKILL.md my-project/.cursorrules + +# Ou pour Windsurf +cp output/django-claude/SKILL.md my-project/.windsurf/rules/django.md + +# Ou pour Cline +cp output/django-claude/SKILL.md my-project/.clinerules + +# Ou pour Continue.dev (serveur HTTP) +python examples/continue-dev-universal/context_server.py +# Configurer dans ~/.continue/config.json +``` + +**Hub d'intégrations :** [Toutes les intégrations de systèmes IA](docs/integrations/INTEGRATIONS.md) + +--- + +### 🌊 Architecture GitHub à trois flux +- ✅ **Analyse à triple flux** - Division des dépôts GitHub en flux Code, Docs et Insights +- ✅ **Analyseur de base de code unifié** - Fonctionne avec les URL GitHub ET les chemins locaux +- ✅ **C3.x comme profondeur d'analyse** - Choisissez 'basic' (1–2 min) ou 'c3x' (20–60 min) +- ✅ **Génération de routeur améliorée** - Métadonnées GitHub, démarrage rapide README, problèmes courants +- ✅ **Intégration des Issues** - Principaux problèmes et solutions depuis les issues GitHub +- ✅ **Mots-clés de routage intelligents** - Labels GitHub pondérés 2x pour une meilleure détection des sujets + +**Les trois flux expliqués :** +- **Flux 1 : Code** - Analyse approfondie C3.x (patterns, exemples, guides, configurations, architecture) +- **Flux 2 : Docs** - Documentation du dépôt (README, CONTRIBUTING, docs/*.md) +- **Flux 3 : Insights** - Connaissances communautaires (issues, labels, étoiles, forks) + +```python +from skill_seekers.cli.unified_codebase_analyzer import UnifiedCodebaseAnalyzer + +# Analyser un dépôt GitHub avec les trois flux +analyzer = UnifiedCodebaseAnalyzer() +result = analyzer.analyze( + source="https://github.com/facebook/react", + depth="c3x", # ou "basic" pour une analyse rapide + fetch_github_metadata=True +) + +# Accéder au flux code (analyse C3.x) +print(f"Design patterns : {len(result.code_analysis['c3_1_patterns'])}") +print(f"Exemples de tests : {result.code_analysis['c3_2_examples_count']}") + +# Accéder au flux docs (documentation du dépôt) +print(f"README : {result.github_docs['readme'][:100]}") + +# Accéder au flux insights (métadonnées GitHub) +print(f"Étoiles : {result.github_insights['metadata']['stars']}") +print(f"Problèmes courants : {len(result.github_insights['common_problems'])}") +``` + +**Documentation complète** : [Résumé de l'implémentation à trois flux](docs/IMPLEMENTATION_SUMMARY_THREE_STREAM.md) + +### 🔐 Gestion intelligente des limites de débit et configuration +- ✅ **Système de configuration multi-tokens** - Gérez plusieurs comptes GitHub (personnel, professionnel, OSS) + - Stockage sécurisé de la configuration dans `~/.config/skill-seekers/config.json` (permissions 600) + - Stratégies de limite de débit par profil : `prompt`, `wait`, `switch`, `fail` + - Délai d'expiration configurable par profil (défaut : 30 min, évite les attentes indéfinies) + - Chaîne de repli intelligente : argument CLI → variable d'env → fichier de config → prompt + - Gestion des clés API pour Claude, Gemini, OpenAI +- ✅ **Assistant de configuration interactif** - Interface terminal élégante pour une configuration facile + - Intégration navigateur pour la création de tokens (ouverture automatique de GitHub, etc.) + - Validation des tokens et test de connexion + - Affichage visuel du statut avec code couleur +- ✅ **Gestionnaire intelligent de limites de débit** - Plus d'attentes indéfinies ! + - Avertissement préalable sur les limites de débit (60/heure vs 5000/heure) + - Détection en temps réel depuis les réponses de l'API GitHub + - Compteurs à rebours en direct avec progression + - Basculement automatique de profil en cas de limite atteinte + - Quatre stratégies : prompt (demander), wait (compte à rebours), switch (essayer un autre), fail (abandonner) +- ✅ **Capacité de reprise** - Continuez les tâches interrompues + - Sauvegarde automatique à intervalles configurables (défaut : 60 sec) + - Liste de toutes les tâches reprises avec détails de progression + - Nettoyage automatique des anciennes tâches (défaut : 7 jours) +- ✅ **Support CI/CD** - Mode non-interactif pour l'automatisation + - Flag `--non-interactive` pour un échec rapide sans prompts + - Flag `--profile` pour sélectionner un compte GitHub spécifique + - Messages d'erreur clairs pour les logs de pipeline + +**Configuration rapide :** +```bash +# Configuration unique (5 minutes) +skill-seekers config --github + +# Utiliser un profil spécifique pour les dépôts privés +skill-seekers github --repo mycompany/private-repo --profile work + +# Mode CI/CD (échec rapide, sans prompts) +skill-seekers github --repo owner/repo --non-interactive + +# Reprendre une tâche interrompue +skill-seekers resume --list +skill-seekers resume github_react_20260117_143022 +``` + +**Stratégies de limite de débit :** +- **prompt** (par défaut) - Demande quoi faire en cas de limite (attendre, basculer, configurer un token, annuler) +- **wait** - Attend automatiquement avec un compte à rebours (respecte le délai d'expiration) +- **switch** - Essaie automatiquement le profil disponible suivant (pour les configurations multi-comptes) +- **fail** - Échoue immédiatement avec un message d'erreur clair (parfait pour le CI/CD) + +### 🎯 Compétence Bootstrap - Auto-hébergement + +Générez skill-seekers lui-même en tant que compétence Claude Code pour l'utiliser dans Claude : + +```bash +# Générer la compétence +./scripts/bootstrap_skill.sh + +# Installer dans Claude Code +cp -r output/skill-seekers ~/.claude/skills/ +``` + +**Ce que vous obtenez :** +- ✅ **Documentation complète de la compétence** - Toutes les commandes CLI et patterns d'utilisation +- ✅ **Référence des commandes CLI** - Chaque outil et ses options documentés +- ✅ **Exemples de démarrage rapide** - Workflows courants et bonnes pratiques +- ✅ **Documentation API auto-générée** - Analyse de code, patterns et exemples + +### 🔐 Dépôts de configuration privés +- ✅ **Sources de configuration basées sur Git** - Récupérez les configurations depuis des dépôts Git privés/d'équipe +- ✅ **Gestion multi-sources** - Enregistrez un nombre illimité de dépôts GitHub, GitLab, Bitbucket +- ✅ **Collaboration d'équipe** - Partagez des configurations personnalisées au sein d'équipes de 3 à 5 personnes +- ✅ **Support entreprise** - Montée en charge jusqu'à 500+ développeurs avec résolution par priorité +- ✅ **Authentification sécurisée** - Tokens via variables d'environnement (GITHUB_TOKEN, GITLAB_TOKEN) +- ✅ **Cache intelligent** - Clonage unique, mises à jour automatiques par pull +- ✅ **Mode hors ligne** - Travaillez avec les configurations en cache en l'absence de connexion + +### 🤖 Analyse de base de code (C3.x) + +**C3.4 : Extraction de patterns de configuration avec amélioration IA** +- ✅ **9 formats de configuration** - JSON, YAML, TOML, ENV, INI, Python, JavaScript, Dockerfile, Docker Compose +- ✅ **7 types de patterns** - Configurations de base de données, API, journalisation, cache, e-mail, authentification, serveur +- ✅ **Amélioration par IA** - Analyse IA optionnelle en mode double (API + LOCAL) + - Explique ce que fait chaque configuration + - Suggère des bonnes pratiques et améliorations + - **Analyse de sécurité** - Détecte les secrets codés en dur, les identifiants exposés +- ✅ **Documentation automatique** - Génère une documentation JSON + Markdown de toutes les configurations +- ✅ **Intégration MCP** - Outil `extract_config_patterns` avec support d'amélioration + +**C3.3 : Guides pratiques améliorés par IA** +- ✅ **Amélioration IA complète** - Transforme les guides basiques en tutoriels professionnels +- ✅ **5 améliorations automatiques** - Descriptions d'étapes, dépannage, prérequis, étapes suivantes, cas d'usage +- ✅ **Support en mode double** - Mode API (Claude API) ou mode LOCAL (CLI Claude Code) +- ✅ **Aucun coût en mode LOCAL** - Amélioration GRATUITE avec votre abonnement Claude Code Max +- ✅ **Transformation qualitative** - Templates de 75 lignes → guides complets de 500+ lignes + +**Utilisation :** +```bash +# Analyse rapide (1–2 min, fonctionnalités basiques uniquement) +skill-seekers analyze --directory tests/ --quick + +# Analyse complète avec IA (20–60 min, toutes les fonctionnalités) +skill-seekers analyze --directory tests/ --comprehensive + +# Avec amélioration par IA +skill-seekers analyze --directory tests/ --enhance +``` + +**Documentation complète :** [docs/HOW_TO_GUIDES.md](docs/HOW_TO_GUIDES.md#ai-enhancement-new) + +### 🔄 Préréglages de workflow d'amélioration + +Pipelines d'amélioration réutilisables définis en YAML qui contrôlent comment l'IA transforme votre documentation brute en une compétence soignée. + +- ✅ **5 préréglages intégrés** — `default`, `minimal`, `security-focus`, `architecture-comprehensive`, `api-documentation` +- ✅ **Préréglages définis par l'utilisateur** — Ajoutez des workflows personnalisés dans `~/.config/skill-seekers/workflows/` +- ✅ **Chaînage de workflows** — Chaînez deux workflows ou plus dans une seule commande +- ✅ **CLI complet** — Lister, inspecter, copier, ajouter, supprimer et valider les workflows + +```bash +# Appliquer un workflow unique +skill-seekers create ./my-project --enhance-workflow security-focus + +# Chaîner plusieurs workflows (appliqués dans l'ordre) +skill-seekers create ./my-project \ + --enhance-workflow security-focus \ + --enhance-workflow minimal + +# Gérer les préréglages +skill-seekers workflows list # Lister tous (intégrés + utilisateur) +skill-seekers workflows show security-focus # Afficher le contenu YAML +skill-seekers workflows copy security-focus # Copier dans le répertoire utilisateur pour édition +skill-seekers workflows add ./my-workflow.yaml # Installer un préréglage personnalisé +skill-seekers workflows remove my-workflow # Supprimer un préréglage utilisateur +skill-seekers workflows validate security-focus # Valider la structure du préréglage + +# Copier plusieurs à la fois +skill-seekers workflows copy security-focus minimal api-documentation + +# Ajouter plusieurs fichiers à la fois +skill-seekers workflows add ./wf-a.yaml ./wf-b.yaml + +# Supprimer plusieurs à la fois +skill-seekers workflows remove my-wf-a my-wf-b +``` + +**Format YAML des préréglages :** +```yaml +name: security-focus +description: "Revue axée sécurité : vulnérabilités, authentification, gestion des données" +version: "1.0" +stages: + - name: vulnerabilities + type: custom + prompt: "Analyser les OWASP Top 10 et les vulnérabilités de sécurité courantes..." + - name: auth-review + type: custom + prompt: "Examiner les patterns d'authentification et d'autorisation..." + uses_history: true +``` + +### ⚡ Performance et montée en charge +- ✅ **Mode asynchrone** - Scraping 2–3x plus rapide avec async/await (flag `--async`) +- ✅ **Support des grandes documentations** - Gestion de documents de 10K–40K+ pages avec découpage intelligent +- ✅ **Compétences Router/Hub** - Routage intelligent vers des sous-compétences spécialisées +- ✅ **Scraping parallèle** - Traitement simultané de plusieurs compétences +- ✅ **Points de contrôle/Reprise** - Ne perdez jamais la progression lors de longs scrapings +- ✅ **Système de cache** - Scrapez une fois, reconstruisez instantanément + +### ✅ Assurance qualité +- ✅ **Entièrement testé** - 2 540+ tests avec couverture complète + +--- + +## 📦 Installation + +```bash +# Installation basique (scraping de documentation, analyse GitHub, PDF, empaquetage) +pip install skill-seekers + +# Avec support de toutes les plateformes LLM +pip install skill-seekers[all-llms] + +# Avec serveur MCP +pip install skill-seekers[mcp] + +# Tout inclus +pip install skill-seekers[all] +``` + +**Besoin d'aide pour choisir ?** Lancez l'assistant de configuration : +```bash +skill-seekers-setup +``` + +### Options d'installation + +| Installation | Fonctionnalités | +|-------------|-----------------| +| `pip install skill-seekers` | Scraping, analyse GitHub, PDF, toutes les plateformes | +| `pip install skill-seekers[gemini]` | + Support Google Gemini | +| `pip install skill-seekers[openai]` | + Support OpenAI ChatGPT | +| `pip install skill-seekers[all-llms]` | + Toutes les plateformes LLM | +| `pip install skill-seekers[mcp]` | + Serveur MCP pour Claude Code, Cursor, etc. | +| `pip install skill-seekers[video]` | + Extraction de transcriptions et métadonnées YouTube/Vimeo | +| `pip install skill-seekers[video-full]` | + Transcription Whisper et extraction visuelle d'images | +| `pip install skill-seekers[jupyter]` | + Support des notebooks Jupyter | +| `pip install skill-seekers[pptx]` | + Support PowerPoint | +| `pip install skill-seekers[confluence]` | + Support wiki Confluence | +| `pip install skill-seekers[notion]` | + Support des pages Notion | +| `pip install skill-seekers[rss]` | + Support des flux RSS/Atom | +| `pip install skill-seekers[chat]` | + Support des exports chat Slack/Discord | +| `pip install skill-seekers[asciidoc]` | + Support des documents AsciiDoc | +| `pip install skill-seekers[all]` | Tout activé | + +> **Dépendances visuelles vidéo (compatibles GPU) :** Après avoir installé `skill-seekers[video-full]`, exécutez +> `skill-seekers video --setup` pour détecter automatiquement votre GPU et installer la bonne variante +> de PyTorch + easyocr. C'est la méthode recommandée pour installer les dépendances d'extraction visuelle. + +--- + +## 🚀 Workflow d'installation en une commande + +**Le moyen le plus rapide d'aller de la configuration à la compétence uploadée — automatisation complète :** + +```bash +# Installer la compétence React depuis les configurations officielles (upload automatique vers Claude) +skill-seekers install --config react + +# Installer depuis un fichier de configuration local +skill-seekers install --config configs/custom.json + +# Installer sans uploader (empaquetage uniquement) +skill-seekers install --config django --no-upload + +# Prévisualiser le workflow sans l'exécuter +skill-seekers install --config react --dry-run +``` + +**Durée :** 20–45 minutes au total | **Qualité :** Prêt pour la production (9/10) | **Coût :** Gratuit + +**Phases exécutées :** +``` +📥 PHASE 1 : Récupération de la configuration (si un nom de config est fourni) +📖 PHASE 2 : Scraping de la documentation +✨ PHASE 3 : Amélioration par IA (OBLIGATOIRE — pas d'option pour passer) +📦 PHASE 4 : Empaquetage de la compétence +☁️ PHASE 5 : Upload vers Claude (optionnel, nécessite une clé API) +``` + +**Prérequis :** +- Variable d'environnement ANTHROPIC_API_KEY (pour l'upload automatique) +- Abonnement Claude Code Max (pour l'amélioration IA locale) + +--- + +## 📊 Matrice de fonctionnalités + +Skill Seekers prend en charge **4 plateformes LLM**, **17 types de sources** et une parité fonctionnelle complète sur toutes les cibles. + +**Plateformes :** Claude AI, Google Gemini, OpenAI ChatGPT, Markdown générique +**Types de sources :** Sites de documentation, dépôts GitHub, PDF, Word (.docx), EPUB, Vidéo, Bases de code locales, Notebooks Jupyter, HTML local, OpenAPI/Swagger, AsciiDoc, PowerPoint (.pptx), Flux RSS/Atom, Pages de manuel, Wikis Confluence, Pages Notion, Exports chat Slack/Discord + +Consultez la [matrice complète des fonctionnalités](docs/FEATURE_MATRIX.md) pour le support détaillé par plateforme et fonctionnalité. + +### Comparaison rapide des plateformes + +| Fonctionnalité | Claude | Gemini | OpenAI | Markdown | +|----------------|--------|--------|--------|----------| +| Format | ZIP + YAML | tar.gz | ZIP + Vector | ZIP | +| Upload | ✅ API | ✅ API | ✅ API | ❌ Manuel | +| Amélioration | ✅ Sonnet 4 | ✅ 2.0 Flash | ✅ GPT-4o | ❌ Aucune | +| Tous les modes de compétence | ✅ | ✅ | ✅ | ✅ | + +--- + +## Exemples d'utilisation + +### Scraping de documentation + +```bash +# Scraper un site de documentation +skill-seekers scrape --config configs/react.json + +# Scraping rapide sans configuration +skill-seekers scrape --url https://react.dev --name react + +# En mode asynchrone (3x plus rapide) +skill-seekers scrape --config configs/godot.json --async --workers 8 +``` + +### Extraction PDF + +```bash +# Extraction PDF basique +skill-seekers pdf --pdf docs/manual.pdf --name myskill + +# Fonctionnalités avancées +skill-seekers pdf --pdf docs/manual.pdf --name myskill \ + --extract-tables \ # Extraire les tableaux + --parallel \ # Traitement parallèle rapide + --workers 8 # Utiliser 8 cœurs CPU + +# PDF scannés (nécessite : pip install pytesseract Pillow) +skill-seekers pdf --pdf docs/scanned.pdf --name myskill --ocr +``` + +### Extraction vidéo + +```bash +# Installer le support vidéo +pip install skill-seekers[video] # Transcriptions + métadonnées +pip install skill-seekers[video-full] # + Transcription Whisper + extraction visuelle + +# Détecter automatiquement le GPU et installer les dépendances visuelles (PyTorch + easyocr) +skill-seekers video --setup + +# Extraire depuis une vidéo YouTube +skill-seekers video --url https://www.youtube.com/watch?v=dQw4w9WgXcQ --name mytutorial + +# Extraire depuis une playlist YouTube +skill-seekers video --playlist https://www.youtube.com/playlist?list=... --name myplaylist + +# Extraire depuis un fichier vidéo local +skill-seekers video --video-file recording.mp4 --name myrecording + +# Extraire avec analyse visuelle des images (nécessite les dépendances video-full) +skill-seekers video --url https://www.youtube.com/watch?v=... --name mytutorial --visual + +# Avec amélioration IA (nettoyage OCR + génération d'un SKILL.md soigné) +skill-seekers video --url https://www.youtube.com/watch?v=... --visual --enhance-level 2 + +# Découper une section spécifique d'une vidéo (supporte les secondes, MM:SS, HH:MM:SS) +skill-seekers video --url https://www.youtube.com/watch?v=... --start-time 1:30 --end-time 5:00 + +# Utiliser Vision API pour les images OCR à faible confiance (nécessite ANTHROPIC_API_KEY) +skill-seekers video --url https://www.youtube.com/watch?v=... --visual --vision-ocr + +# Reconstruire la compétence depuis des données extraites précédemment (sans téléchargement) +skill-seekers video --from-json output/mytutorial/video_data/extracted_data.json --name mytutorial +``` + +> **Guide complet :** Consultez [docs/VIDEO_GUIDE.md](docs/VIDEO_GUIDE.md) pour la référence CLI complète, +> les détails du pipeline visuel, les options d'amélioration IA et le dépannage. + +### Analyse de dépôts GitHub + +```bash +# Scraping basique de dépôt +skill-seekers github --repo facebook/react + +# Avec authentification (limites de débit plus élevées) +export GITHUB_TOKEN=ghp_your_token_here +skill-seekers github --repo facebook/react + +# Personnaliser le contenu inclus +skill-seekers github --repo django/django \ + --include-issues \ # Extraire les issues GitHub + --max-issues 100 \ # Limiter le nombre d'issues + --include-changelog # Extraire CHANGELOG.md +``` + +### Scraping multi-sources unifié + +**Combinez documentation + GitHub + PDF en une compétence unifiée avec détection de conflits :** + +```bash +# Utiliser les configurations unifiées existantes +skill-seekers unified --config configs/react_unified.json +skill-seekers unified --config configs/django_unified.json + +# Ou créer une configuration unifiée +cat > configs/myframework_unified.json << 'EOF' +{ + "name": "myframework", + "merge_mode": "rule-based", + "sources": [ + { + "type": "documentation", + "base_url": "https://docs.myframework.com/", + "max_pages": 200 + }, + { + "type": "github", + "repo": "owner/myframework", + "code_analysis_depth": "surface" + } + ] +} +EOF + +skill-seekers unified --config configs/myframework_unified.json +``` + +**La détection de conflits trouve automatiquement :** +- 🔴 **Absent du code** (élevé) : Documenté mais non implémenté +- 🟡 **Absent de la documentation** (moyen) : Implémenté mais non documenté +- ⚠️ **Incompatibilité de signature** : Paramètres/types différents +- ℹ️ **Incompatibilité de description** : Explications différentes + +**Guide complet :** Consultez [docs/UNIFIED_SCRAPING.md](docs/UNIFIED_SCRAPING.md) pour la documentation complète. + +### Dépôts de configuration privés + +**Partagez des configurations personnalisées entre équipes via des dépôts Git privés :** + +```bash +# Option 1 : Utilisation des outils MCP (recommandé) +# Enregistrer le dépôt privé de votre équipe +add_config_source( + name="team", + git_url="https://github.com/mycompany/skill-configs.git", + token_env="GITHUB_TOKEN" +) + +# Récupérer la configuration depuis le dépôt d'équipe +fetch_config(source="team", config_name="internal-api") +``` + +**Plateformes supportées :** +- GitHub (`GITHUB_TOKEN`), GitLab (`GITLAB_TOKEN`), Gitea (`GITEA_TOKEN`), Bitbucket (`BITBUCKET_TOKEN`) + +**Guide complet :** Consultez [docs/GIT_CONFIG_SOURCES.md](docs/GIT_CONFIG_SOURCES.md) pour la documentation complète. + +## Comment ça marche + +```mermaid +graph LR + A[Site de documentation] --> B[Skill Seekers] + B --> C[Scraper] + B --> D[Amélioration IA] + B --> E[Empaqueteur] + C --> F[Références organisées] + D --> F + F --> E + E --> G[Compétence Claude .zip] + G --> H[Upload vers Claude AI] +``` + +0. **Détection de llms.txt** - Vérifie d'abord llms-full.txt, llms.txt, llms-small.txt +1. **Scraping** : Extraction de toutes les pages de la documentation +2. **Catégorisation** : Organisation du contenu par thèmes (API, guides, tutoriels, etc.) +3. **Amélioration** : L'IA analyse la documentation et crée un SKILL.md complet avec des exemples +4. **Empaquetage** : Regroupement de tout dans un fichier `.zip` prêt pour Claude + +## 📋 Prérequis + +**Avant de commencer, assurez-vous d'avoir :** + +1. **Python 3.10 ou supérieur** - [Télécharger](https://www.python.org/downloads/) | Vérifier : `python3 --version` +2. **Git** - [Télécharger](https://git-scm.com/) | Vérifier : `git --version` +3. **15 à 30 minutes** pour la première installation + +**Première utilisation ?** → **[Commencez ici : Guide de démarrage rapide infaillible](BULLETPROOF_QUICKSTART.md)** 🎯 + +--- + +## 📤 Uploader des compétences vers Claude + +Une fois votre compétence empaquetée, vous devez l'uploader vers Claude : + +### Option 1 : Upload automatique (via API) + +```bash +# Définir votre clé API (une seule fois) +export ANTHROPIC_API_KEY=sk-ant-... + +# Empaqueter et uploader automatiquement +skill-seekers package output/react/ --upload + +# OU uploader un .zip existant +skill-seekers upload output/react.zip +``` + +### Option 2 : Upload manuel (sans clé API) + +```bash +# Empaqueter la compétence +skill-seekers package output/react/ +# → Crée output/react.zip + +# Puis uploader manuellement : +# - Rendez-vous sur https://claude.ai/skills +# - Cliquez sur « Upload Skill » +# - Sélectionnez output/react.zip +``` + +### Option 3 : MCP (Claude Code) + +``` +Dans Claude Code, demandez simplement : +« Empaqueter et uploader la compétence React » +``` + +--- + +## 🤖 Installation dans les agents IA + +Skill Seekers peut installer automatiquement des compétences dans plus de 10 agents de codage IA. + +```bash +# Installer dans un agent spécifique +skill-seekers install-agent output/react/ --agent cursor + +# Installer dans tous les agents à la fois +skill-seekers install-agent output/react/ --agent all + +# Prévisualiser sans installer +skill-seekers install-agent output/react/ --agent cursor --dry-run +``` + +### Agents supportés + +| Agent | Chemin | Type | +|-------|--------|------| +| **Claude Code** | `~/.claude/skills/` | Global | +| **Cursor** | `.cursor/skills/` | Projet | +| **VS Code / Copilot** | `.github/skills/` | Projet | +| **Amp** | `~/.amp/skills/` | Global | +| **Goose** | `~/.config/goose/skills/` | Global | +| **OpenCode** | `~/.opencode/skills/` | Global | +| **Windsurf** | `~/.windsurf/skills/` | Global | + +--- + +## 🔌 Intégration MCP (26 outils) + +Skill Seekers inclut un serveur MCP utilisable depuis Claude Code, Cursor, Windsurf, VS Code + Cline ou IntelliJ IDEA. + +```bash +# Mode stdio (Claude Code, VS Code + Cline) +python -m skill_seekers.mcp.server_fastmcp + +# Mode HTTP (Cursor, Windsurf, IntelliJ) +python -m skill_seekers.mcp.server_fastmcp --transport http --port 8765 + +# Configuration automatique de tous les agents en une fois +./setup_mcp.sh +``` + +**Les 26 outils disponibles :** +- **Noyau (9) :** `list_configs`, `generate_config`, `validate_config`, `estimate_pages`, `scrape_docs`, `package_skill`, `upload_skill`, `enhance_skill`, `install_skill` +- **Étendu (10) :** `scrape_github`, `scrape_pdf`, `unified_scrape`, `merge_sources`, `detect_conflicts`, `add_config_source`, `fetch_config`, `list_config_sources`, `remove_config_source`, `split_config` +- **Bases vectorielles (4) :** `export_to_chroma`, `export_to_weaviate`, `export_to_faiss`, `export_to_qdrant` +- **Cloud (3) :** `cloud_upload`, `cloud_download`, `cloud_list` + +**Guide complet :** [docs/MCP_SETUP.md](docs/MCP_SETUP.md) + +--- + +## ⚙️ Configuration + +### Préréglages disponibles (24+) + +```bash +# Lister tous les préréglages +skill-seekers list-configs +``` + +| Catégorie | Préréglages | +|-----------|-------------| +| **Frameworks Web** | `react`, `vue`, `angular`, `svelte`, `nextjs` | +| **Python** | `django`, `flask`, `fastapi`, `sqlalchemy`, `pytest` | +| **Développement de jeux** | `godot`, `pygame`, `unity` | +| **Outils et DevOps** | `docker`, `kubernetes`, `terraform`, `ansible` | +| **Unifié (Docs + GitHub)** | `react-unified`, `vue-unified`, `nextjs-unified`, et plus | + +### Créer votre propre configuration + +```bash +# Option 1 : Interactif +skill-seekers scrape --interactive + +# Option 2 : Copier et modifier un préréglage +cp configs/react.json configs/myframework.json +nano configs/myframework.json +skill-seekers scrape --config configs/myframework.json +``` + +### Structure du fichier de configuration + +```json +{ + "name": "myframework", + "description": "Quand utiliser cette compétence", + "base_url": "https://docs.myframework.com/", + "selectors": { + "main_content": "article", + "title": "h1", + "code_blocks": "pre code" + }, + "url_patterns": { + "include": ["/docs", "/guide"], + "exclude": ["/blog", "/about"] + }, + "categories": { + "getting_started": ["intro", "quickstart"], + "api": ["api", "reference"] + }, + "rate_limit": 0.5, + "max_pages": 500 +} +``` + +### Où stocker les configurations + +L'outil cherche dans cet ordre : +1. Chemin exact tel que fourni +2. `./configs/` (répertoire courant) +3. `~/.config/skill-seekers/configs/` (répertoire de configuration utilisateur) +4. API SkillSeekersWeb.com (configurations prédéfinies) + +--- + +## 📊 Ce qui est généré + +``` +output/ +├── godot_data/ # Données brutes scrapées +│ ├── pages/ # Fichiers JSON (un par page) +│ └── summary.json # Vue d'ensemble +│ +└── godot/ # La compétence + ├── SKILL.md # Amélioré avec de vrais exemples + ├── references/ # Documentation catégorisée + │ ├── index.md + │ ├── getting_started.md + │ ├── scripting.md + │ └── ... + ├── scripts/ # Vide (ajoutez les vôtres) + └── assets/ # Vide (ajoutez les vôtres) +``` + +--- + +## 🐛 Dépannage + +### Aucun contenu extrait ? +- Vérifiez votre sélecteur `main_content` +- Essayez : `article`, `main`, `div[role="main"]` + +### Les données existent mais ne sont pas utilisées ? +```bash +# Forcer un nouveau scraping +rm -rf output/myframework_data/ +skill-seekers scrape --config configs/myframework.json +``` + +### Catégorisation insatisfaisante ? +Modifiez la section `categories` de la configuration avec de meilleurs mots-clés. + +### Vous voulez mettre à jour la documentation ? +```bash +# Supprimer les anciennes données et re-scraper +rm -rf output/godot_data/ +skill-seekers scrape --config configs/godot.json +``` + +### L'amélioration ne fonctionne pas ? +```bash +# Vérifier si la clé API est définie +echo $ANTHROPIC_API_KEY + +# Essayer le mode LOCAL à la place (utilise Claude Code Max, pas besoin de clé API) +skill-seekers enhance output/react/ --mode LOCAL + +# Surveiller l'état de l'amélioration en arrière-plan +skill-seekers enhance-status output/react/ --watch +``` + +### Problèmes de limite de débit GitHub ? +```bash +# Définir un token GitHub (5000 req/heure vs 60/heure en anonyme) +export GITHUB_TOKEN=ghp_your_token_here + +# Ou configurer plusieurs profils +skill-seekers config --github +``` + +--- + +## 📈 Performance + +| Tâche | Durée | Notes | +|-------|-------|-------| +| Scraping (synchrone) | 15–45 min | Première fois uniquement, basé sur les threads | +| Scraping (asynchrone) | 5–15 min | 2–3x plus rapide avec le flag `--async` | +| Construction | 1–3 min | Reconstruction rapide depuis le cache | +| Reconstruction | <1 min | Avec `--skip-scrape` | +| Amélioration (LOCAL) | 30–60 sec | Utilise Claude Code Max | +| Amélioration (API) | 20–40 sec | Nécessite une clé API | +| Vidéo (transcription) | 1–3 min | YouTube/local, transcription uniquement | +| Vidéo (visuel) | 5–15 min | + Extraction OCR d'images | +| Empaquetage | 5–10 sec | Création finale du .zip | + +--- + +## 📚 Documentation + +### Premiers pas +- **[BULLETPROOF_QUICKSTART.md](BULLETPROOF_QUICKSTART.md)** - 🎯 **COMMENCEZ ICI** si vous êtes nouveau ! +- **[QUICKSTART.md](QUICKSTART.md)** - Démarrage rapide pour utilisateurs expérimentés +- **[TROUBLESHOOTING.md](TROUBLESHOOTING.md)** - Problèmes courants et solutions +- **[docs/QUICK_REFERENCE.md](docs/QUICK_REFERENCE.md)** - Aide-mémoire sur une page + +### Guides +- **[docs/LARGE_DOCUMENTATION.md](docs/LARGE_DOCUMENTATION.md)** - Gérer les documentations de 10K–40K+ pages +- **[ASYNC_SUPPORT.md](ASYNC_SUPPORT.md)** - Guide du mode asynchrone (scraping 2–3x plus rapide) +- **[docs/ENHANCEMENT_MODES.md](docs/ENHANCEMENT_MODES.md)** - Guide des modes d'amélioration IA +- **[docs/MCP_SETUP.md](docs/MCP_SETUP.md)** - Configuration de l'intégration MCP +- **[docs/UNIFIED_SCRAPING.md](docs/UNIFIED_SCRAPING.md)** - Scraping multi-sources +- **[docs/VIDEO_GUIDE.md](docs/VIDEO_GUIDE.md)** - Guide d'extraction vidéo + +### Guides d'intégration +- **[docs/integrations/LANGCHAIN.md](docs/integrations/LANGCHAIN.md)** - RAG LangChain +- **[docs/integrations/CURSOR.md](docs/integrations/CURSOR.md)** - IDE Cursor +- **[docs/integrations/WINDSURF.md](docs/integrations/WINDSURF.md)** - IDE Windsurf +- **[docs/integrations/CLINE.md](docs/integrations/CLINE.md)** - Cline (VS Code) +- **[docs/integrations/RAG_PIPELINES.md](docs/integrations/RAG_PIPELINES.md)** - Tous les pipelines RAG + +--- + +## 📝 Licence + +Licence MIT - voir le fichier [LICENSE](LICENSE) pour plus de détails + +--- + +Bonne création de compétences ! 🚀 + +--- + +## 🔒 Sécurité + +[![Badge d'évaluation de sécurité MseeP.ai](https://mseep.net/pr/yusufkaraaslan-skill-seekers-badge.png)](https://mseep.ai/app/yusufkaraaslan-skill-seekers) diff --git a/README.hi.md b/README.hi.md new file mode 100644 index 0000000..375a163 --- /dev/null +++ b/README.hi.md @@ -0,0 +1,1178 @@ +

+ Skill Seekers +

+ +# Skill Seekers + +[English](README.md) | [简体中文](README.zh-CN.md) | [日本語](README.ja.md) | [한국어](README.ko.md) | [Español](README.es.md) | [Français](README.fr.md) | [Deutsch](README.de.md) | [Português](README.pt-BR.md) | [Türkçe](README.tr.md) | [العربية](README.ar.md) | हिन्दी | [Русский](README.ru.md) + +> ⚠️ **मशीन अनुवाद सूचना** +> +> यह दस्तावेज़ AI द्वारा स्वचालित रूप से अनुवादित किया गया है। हम गुणवत्ता सुनिश्चित करने का प्रयास करते हैं, लेकिन अशुद्ध अभिव्यक्तियाँ हो सकती हैं। +> +> अनुवाद सुधारने में मदद करने के लिए [GitHub Issue #260](https://github.com/yusufkaraaslan/Skill_Seekers/issues/260) पर सम्पर्क करें! आपकी प्रतिक्रिया हमारे लिए बहुत मूल्यवान है। + +[![संस्करण](https://img.shields.io/badge/version-3.2.0-blue.svg)](https://github.com/yusufkaraaslan/Skill_Seekers/releases) +[![लाइसेंस: MIT](https://img.shields.io/badge/License-MIT-yellow.svg)](https://opensource.org/licenses/MIT) +[![Python 3.10+](https://img.shields.io/badge/python-3.10+-blue.svg)](https://www.python.org/downloads/) +[![MCP एकीकरण](https://img.shields.io/badge/MCP-Integrated-blue.svg)](https://modelcontextprotocol.io) +[![परीक्षण पास](https://img.shields.io/badge/Tests-2540%2B%20Passing-brightgreen.svg)](tests/) +[![परियोजना बोर्ड](https://img.shields.io/badge/Project-Board-purple.svg)](https://github.com/users/yusufkaraaslan/projects/2) +[![PyPI संस्करण](https://badge.fury.io/py/skill-seekers.svg)](https://pypi.org/project/skill-seekers/) +[![PyPI - डाउनलोड](https://img.shields.io/pypi/dm/skill-seekers.svg)](https://pypi.org/project/skill-seekers/) +[![PyPI - Python संस्करण](https://img.shields.io/pypi/pyversions/skill-seekers.svg)](https://pypi.org/project/skill-seekers/) +[![वेबसाइट](https://img.shields.io/badge/Website-skillseekersweb.com-blue.svg)](https://skillseekersweb.com/) +[![Twitter Follow](https://img.shields.io/twitter/follow/_yUSyUS_?style=social)](https://x.com/_yUSyUS_) +[![GitHub Stars](https://img.shields.io/github/stars/yusufkaraaslan/Skill_Seekers?style=social)](https://github.com/yusufkaraaslan/Skill_Seekers) + +**🧠 AI सिस्टम के लिए डेटा लेयर।** Skill Seekers डॉक्यूमेंटेशन वेबसाइटों, GitHub रिपॉज़िटरी, PDF, वीडियो, Jupyter नोटबुक, विकी और 17+ अन्य स्रोत प्रकारों को संरचित ज्ञान संपत्ति में बदलता है—जो मिनटों में AI कौशल (Claude, Gemini, OpenAI), RAG पाइपलाइन (LangChain, LlamaIndex, Pinecone) और AI कोडिंग सहायकों (Cursor, Windsurf, Cline) को शक्ति प्रदान कर सकती हैं। + +> 🌐 **[SkillSeekersWeb.com पर जाएँ](https://skillseekersweb.com/)** - 24+ प्रीसेट कॉन्फ़िगरेशन ब्राउज़ करें, अपने कॉन्फ़िग साझा करें और पूर्ण दस्तावेज़ देखें! + +> 📋 **[विकास रोडमैप और कार्य देखें](https://github.com/users/yusufkaraaslan/projects/2)** - 10 श्रेणियों में 134 कार्य, किसी भी में योगदान करें! + +## 🧠 AI सिस्टम के लिए डेटा लेयर + +**Skill Seekers एक सार्वभौमिक प्रीप्रोसेसिंग लेयर है** जो कच्चे दस्तावेज़ों और उनका उपयोग करने वाले सभी AI सिस्टम के बीच स्थित है। चाहे आप Claude कौशल, LangChain RAG पाइपलाइन, या Cursor `.cursorrules` फ़ाइल बना रहे हों—डेटा तैयारी पूरी तरह समान है। बस एक बार करें, और सभी लक्ष्यों पर निर्यात करें। + +```bash +# एक कमांड → संरचित ज्ञान संपत्ति +skill-seekers create https://docs.react.dev/ +# या: skill-seekers create facebook/react +# या: skill-seekers create ./my-project + +# किसी भी AI सिस्टम पर निर्यात करें +skill-seekers package output/react --target claude # → Claude AI कौशल (ZIP) +skill-seekers package output/react --target langchain # → LangChain Documents +skill-seekers package output/react --target llama-index # → LlamaIndex TextNodes +skill-seekers package output/react --target cursor # → .cursorrules +``` + +### निर्मित आउटपुट + +| आउटपुट | लक्ष्य | उपयोग | +|---------|--------|-------| +| **Claude कौशल** (ZIP + YAML) | `--target claude` | Claude Code, Claude API | +| **Gemini कौशल** (tar.gz) | `--target gemini` | Google Gemini | +| **OpenAI / Custom GPT** (ZIP) | `--target openai` | GPT-4o, कस्टम सहायक | +| **LangChain Documents** | `--target langchain` | QA चेन, एजेंट, रिट्रीवर | +| **LlamaIndex TextNodes** | `--target llama-index` | क्वेरी इंजन, चैट इंजन | +| **Haystack Documents** | `--target haystack` | एंटरप्राइज़ RAG पाइपलाइन | +| **Pinecone-तैयार** (Markdown) | `--target markdown` | वेक्टर अपसर्ट | +| **ChromaDB / FAISS / Qdrant** | `--format chroma/faiss/qdrant` | स्थानीय वेक्टर DB | +| **Cursor** `.cursorrules` | `--target claude` → कॉपी | Cursor IDE AI संदर्भ | +| **Windsurf / Cline / Continue** | `--target claude` → कॉपी | VS Code, IntelliJ, Vim | + +### यह क्यों महत्वपूर्ण है + +- ⚡ **99% तेज़** — दिनों की मैन्युअल डेटा तैयारी → 15–45 मिनट +- 🎯 **AI कौशल गुणवत्ता** — 500+ पंक्तियों की SKILL.md फ़ाइलें जिसमें उदाहरण, पैटर्न और मार्गदर्शिकाएँ हैं +- 📊 **RAG-तैयार चंक** — स्मार्ट चंकिंग जो कोड ब्लॉक को सुरक्षित रखती है और संदर्भ बनाए रखती है +- 🎬 **वीडियो** — YouTube और स्थानीय वीडियो से कोड, ट्रांसक्रिप्ट और संरचित ज्ञान निकालें +- 🔄 **बहु-स्रोत** — 17 स्रोत प्रकारों (डॉक्स, GitHub, PDF, वीडियो, नोटबुक, विकी आदि) को एक ज्ञान संपत्ति में मिलाएँ +- 🌐 **एक बार तैयारी, हर लक्ष्य** — बिना दोबारा स्क्रैप किए 16 प्लेटफ़ॉर्म पर निर्यात करें +- ✅ **युद्ध-परीक्षित** — 2,540+ परीक्षण, 24+ फ़्रेमवर्क प्रीसेट, प्रोडक्शन-तैयार + +## 🚀 त्वरित शुरुआत (3 कमांड) + +```bash +# 1. इंस्टॉल करें +pip install skill-seekers + +# 2. किसी भी स्रोत से कौशल बनाएँ +skill-seekers create https://docs.django.com/ + +# 3. अपने AI प्लेटफ़ॉर्म के लिए पैकेज करें +skill-seekers package output/django --target claude +``` + +**बस इतना ही!** अब आपके पास `output/django-claude.zip` उपयोग के लिए तैयार है। + +### अन्य स्रोत (17 समर्थित) + +```bash +# GitHub रिपॉज़िटरी +skill-seekers create facebook/react + +# स्थानीय प्रोजेक्ट +skill-seekers create ./my-project + +# PDF दस्तावेज़ +skill-seekers create manual.pdf + +# Word दस्तावेज़ +skill-seekers create report.docx + +# EPUB ई-बुक +skill-seekers create book.epub + +# Jupyter Notebook +skill-seekers create notebook.ipynb + +# OpenAPI spec +skill-seekers create openapi.yaml + +# PowerPoint प्रस्तुति +skill-seekers create presentation.pptx + +# AsciiDoc दस्तावेज़ +skill-seekers create guide.adoc + +# स्थानीय HTML फ़ाइल +skill-seekers create page.html + +# RSS/Atom फ़ीड +skill-seekers create feed.rss + +# Man पेज +skill-seekers create curl.1 + +# वीडियो (YouTube, Vimeo, या स्थानीय फ़ाइल — skill-seekers[video] आवश्यक) +skill-seekers video --url https://www.youtube.com/watch?v=... --name mytutorial +# पहली बार? GPU-सक्षम विज़ुअल डिपेंडेंसी स्वचालित रूप से इंस्टॉल करें: +skill-seekers video --setup + +# Confluence विकी +skill-seekers confluence --space TEAM --name wiki + +# Notion पेज +skill-seekers notion --database-id ... --name docs + +# Slack/Discord चैट एक्सपोर्ट +skill-seekers chat --export-dir ./slack-export --name team-chat +``` + +### हर जगह निर्यात करें + +```bash +# एकाधिक प्लेटफ़ॉर्म के लिए पैकेज करें +for platform in claude gemini openai langchain; do + skill-seekers package output/django --target $platform +done +``` + +## Skill Seekers क्या है? + +Skill Seekers **AI सिस्टम के लिए डेटा लेयर** है। यह 17 स्रोत प्रकारों—डॉक्यूमेंटेशन वेबसाइट, GitHub रिपॉज़िटरी, PDF, वीडियो, Jupyter Notebook, Word/EPUB/AsciiDoc दस्तावेज़, OpenAPI/Swagger स्पेक, PowerPoint प्रस्तुतियाँ, RSS/Atom फ़ीड, Man पेज, Confluence विकी, Notion पेज, Slack/Discord एक्सपोर्ट आदि—को हर AI लक्ष्य के लिए संरचित ज्ञान संपत्ति में बदलता है: + +| उपयोग | आप क्या प्राप्त करते हैं | उदाहरण | +|-------|------------------------|--------| +| **AI कौशल** | व्यापक SKILL.md + संदर्भ | Claude Code, Gemini, GPT | +| **RAG पाइपलाइन** | समृद्ध मेटाडेटा के साथ चंक किए गए दस्तावेज़ | LangChain, LlamaIndex, Haystack | +| **वेक्टर डेटाबेस** | अपसर्ट के लिए तैयार प्री-फ़ॉर्मेटेड डेटा | Pinecone, Chroma, Weaviate, FAISS | +| **AI कोडिंग सहायक** | संदर्भ फ़ाइलें जो आपका IDE AI स्वचालित रूप से पढ़ता है | Cursor, Windsurf, Cline, Continue.dev | + +## 📚 दस्तावेज़ीकरण + +| मैं चाहता/चाहती हूँ... | यह पढ़ें | +|------------------------|---------| +| **जल्दी शुरू करना** | [त्वरित शुरुआत](docs/getting-started/02-quick-start.md) - पहले कौशल तक 3 कमांड | +| **अवधारणाएँ समझना** | [मूल अवधारणाएँ](docs/user-guide/01-core-concepts.md) - यह कैसे काम करता है | +| **स्रोत स्क्रैप करना** | [स्क्रैपिंग गाइड](docs/user-guide/02-scraping.md) - सभी स्रोत प्रकार | +| **कौशल बढ़ाना** | [एन्हांसमेंट गाइड](docs/user-guide/03-enhancement.md) - AI एन्हांसमेंट | +| **कौशल निर्यात करना** | [पैकेजिंग गाइड](docs/user-guide/04-packaging.md) - प्लेटफ़ॉर्म निर्यात | +| **कमांड देखना** | [CLI संदर्भ](docs/reference/CLI_REFERENCE.md) - सभी 20 कमांड | +| **कॉन्फ़िगर करना** | [कॉन्फ़िग प्रारूप](docs/reference/CONFIG_FORMAT.md) - JSON विनिर्देश | +| **समस्या हल करना** | [समस्या निवारण](docs/user-guide/06-troubleshooting.md) - सामान्य समस्याएँ | + +**पूर्ण दस्तावेज़ीकरण:** [docs/README.md](docs/README.md) + +दिनों की मैन्युअल प्रीप्रोसेसिंग के बजाय, Skill Seekers: + +1. **संग्रह करता है** — डॉक्स, GitHub रिपो, स्थानीय कोडबेस, PDF, वीडियो, नोटबुक, विकी और 10+ अन्य स्रोत प्रकार +2. **विश्लेषण करता है** — गहन AST पार्सिंग, पैटर्न पहचान, API निष्कर्षण +3. **संरचित करता है** — मेटाडेटा के साथ वर्गीकृत संदर्भ फ़ाइलें +4. **बढ़ाता है** — AI-संचालित SKILL.md निर्माण (Claude, Gemini, या स्थानीय) +5. **निर्यात करता है** — एक संपत्ति से 16 प्लेटफ़ॉर्म-विशिष्ट प्रारूप + +## Skill Seekers का उपयोग क्यों करें? + +### AI कौशल निर्माताओं के लिए (Claude, Gemini, OpenAI) + +- 🎯 **प्रोडक्शन-ग्रेड कौशल** — 500+ पंक्तियों की SKILL.md फ़ाइलें जिनमें कोड उदाहरण, पैटर्न और मार्गदर्शिकाएँ हैं +- 🔄 **एन्हांसमेंट वर्कफ़्लो** — `security-focus`, `architecture-comprehensive`, या कस्टम YAML प्रीसेट लागू करें +- 🎮 **कोई भी डोमेन** — गेम इंजन (Godot, Unity), फ़्रेमवर्क (React, Django), आंतरिक उपकरण +- 🔧 **टीमें** — आंतरिक डॉक्स + कोड को एकल सत्य स्रोत में मिलाएँ +- 📚 **गुणवत्ता** — उदाहरण, त्वरित संदर्भ और नेविगेशन मार्गदर्शन के साथ AI-संवर्धित + +### RAG निर्माताओं और AI इंजीनियरों के लिए + +- 🤖 **RAG-तैयार डेटा** — प्री-चंक किए गए LangChain `Documents`, LlamaIndex `TextNodes`, Haystack `Documents` +- 🚀 **99% तेज़** — दिनों की प्रीप्रोसेसिंग → 15–45 मिनट +- 📊 **स्मार्ट मेटाडेटा** — श्रेणियाँ, स्रोत, प्रकार → बेहतर पुनर्प्राप्ति सटीकता +- 🔄 **बहु-स्रोत** — एक पाइपलाइन में डॉक्स + GitHub + PDF + वीडियो मिलाएँ +- 🌐 **प्लेटफ़ॉर्म-अज्ञेयवादी** — बिना दोबारा स्क्रैप किए किसी भी वेक्टर DB या फ़्रेमवर्क में निर्यात करें + +### AI कोडिंग सहायक उपयोगकर्ताओं के लिए + +- 💻 **Cursor / Windsurf / Cline** — स्वचालित रूप से `.cursorrules` / `.windsurfrules` / `.clinerules` जनरेट करें +- 🎯 **स्थायी संदर्भ** — AI आपके फ़्रेमवर्क को "जानता" है, बार-बार प्रॉम्प्ट देने की आवश्यकता नहीं +- 📚 **हमेशा अद्यतित** — डॉक्स बदलने पर मिनटों में संदर्भ अपडेट करें + +## मुख्य विशेषताएँ + +### 🌐 डॉक्यूमेंटेशन स्क्रैपिंग +- ✅ **llms.txt समर्थन** - LLM-तैयार दस्तावेज़ फ़ाइलों को स्वचालित रूप से पहचानता और उपयोग करता है (10 गुना तेज़) +- ✅ **सार्वभौमिक स्क्रैपर** - किसी भी डॉक्यूमेंटेशन वेबसाइट के साथ काम करता है +- ✅ **स्मार्ट वर्गीकरण** - सामग्री को विषय के अनुसार स्वचालित रूप से व्यवस्थित करता है +- ✅ **कोड भाषा पहचान** - Python, JavaScript, C++, GDScript आदि को पहचानता है +- ✅ **24+ तैयार प्रीसेट** - Godot, React, Vue, Django, FastAPI और अधिक + +### 📄 PDF समर्थन +- ✅ **बुनियादी PDF निष्कर्षण** - PDF फ़ाइलों से टेक्स्ट, कोड और छवियाँ निकालें +- ✅ **स्कैन किए गए PDF के लिए OCR** - स्कैन किए गए दस्तावेज़ों से टेक्स्ट निकालें +- ✅ **पासवर्ड-सुरक्षित PDF** - एन्क्रिप्टेड PDF को संभालें +- ✅ **तालिका निष्कर्षण** - PDF से जटिल तालिकाएँ निकालें +- ✅ **समानांतर प्रसंस्करण** - बड़ी PDF के लिए 3 गुना तेज़ +- ✅ **बुद्धिमान कैशिंग** - दोबारा चलाने पर 50% तेज़ + +### 🎬 वीडियो निष्कर्षण +- ✅ **YouTube और स्थानीय वीडियो** - वीडियो से ट्रांसक्रिप्ट, ऑन-स्क्रीन कोड और संरचित ज्ञान निकालें +- ✅ **विज़ुअल फ़्रेम विश्लेषण** - कोड एडिटर, टर्मिनल, स्लाइड और आरेखों से OCR निष्कर्षण +- ✅ **GPU स्वचालित पहचान** - सही PyTorch बिल्ड स्वचालित रूप से इंस्टॉल करता है (CUDA/ROCm/MPS/CPU) +- ✅ **AI एन्हांसमेंट** - दो-चरण: OCR आर्टिफ़ैक्ट साफ़ करें + पॉलिश SKILL.md जनरेट करें +- ✅ **समय क्लिपिंग** - `--start-time` और `--end-time` के साथ विशिष्ट खंड निकालें +- ✅ **प्लेलिस्ट समर्थन** - YouTube प्लेलिस्ट में सभी वीडियो को बैच में प्रोसेस करें +- ✅ **Vision API फ़ॉलबैक** - कम-विश्वसनीय OCR फ़्रेम के लिए Claude Vision का उपयोग करें + +### 🐙 GitHub रिपॉज़िटरी विश्लेषण +- ✅ **गहन कोड विश्लेषण** - Python, JavaScript, TypeScript, Java, C++, Go के लिए AST पार्सिंग +- ✅ **API निष्कर्षण** - फ़ंक्शन, क्लासेस, मेथड्स जिनमें पैरामीटर और टाइप शामिल हैं +- ✅ **रिपॉज़िटरी मेटाडेटा** - README, फ़ाइल ट्री, भाषा ब्रेकडाउन, स्टार्स/फ़ोर्क्स +- ✅ **GitHub Issues और PR** - लेबल और माइलस्टोन के साथ खुले/बंद issues प्राप्त करें +- ✅ **CHANGELOG और रिलीज़** - संस्करण इतिहास स्वचालित रूप से निकालें +- ✅ **विरोध पहचान** - दस्तावेज़ीकृत API बनाम वास्तविक कोड कार्यान्वयन की तुलना करें +- ✅ **MCP एकीकरण** - प्राकृतिक भाषा: "GitHub रिपो facebook/react स्क्रैप करें" + +### 🔄 एकीकृत बहु-स्रोत स्क्रैपिंग +- ✅ **एकाधिक स्रोत मिलाएँ** - एक कौशल में डॉक्यूमेंटेशन + GitHub + PDF मिश्रित करें +- ✅ **विरोध पहचान** - डॉक्स और कोड के बीच विसंगतियों को स्वचालित रूप से खोजें +- ✅ **बुद्धिमान विलय** - नियम-आधारित या AI-संचालित विरोध समाधान +- ✅ **पारदर्शी रिपोर्टिंग** - ⚠️ चेतावनियों के साथ साथ-साथ तुलना +- ✅ **दस्तावेज़ अंतराल विश्लेषण** - पुराने डॉक्स और अनदस्तावेज़ीकृत सुविधाओं की पहचान +- ✅ **एकल सत्य स्रोत** - एक कौशल जो इरादा (डॉक्स) और वास्तविकता (कोड) दोनों दिखाता है +- ✅ **पश्चगामी संगत** - पुराने एकल-स्रोत कॉन्फ़िग अभी भी काम करते हैं + +### 🤖 बहु-LLM प्लेटफ़ॉर्म समर्थन +- ✅ **4 LLM प्लेटफ़ॉर्म** - Claude AI, Google Gemini, OpenAI ChatGPT, जेनेरिक Markdown +- ✅ **सार्वभौमिक स्क्रैपिंग** - समान दस्तावेज़ सभी प्लेटफ़ॉर्म के लिए काम करते हैं +- ✅ **प्लेटफ़ॉर्म-विशिष्ट पैकेजिंग** - प्रत्येक LLM के लिए अनुकूलित प्रारूप +- ✅ **एक-कमांड निर्यात** - `--target` फ़्लैग प्लेटफ़ॉर्म चुनता है +- ✅ **वैकल्पिक डिपेंडेंसी** - केवल वही इंस्टॉल करें जो आपको चाहिए +- ✅ **100% पश्चगामी संगत** - मौजूदा Claude वर्कफ़्लो अपरिवर्तित + +| प्लेटफ़ॉर्म | प्रारूप | अपलोड | एन्हांसमेंट | API Key | कस्टम एंडपॉइंट | +|------------|---------|-------|-------------|---------|----------------| +| **Claude AI** | ZIP + YAML | ✅ स्वचालित | ✅ हाँ | ANTHROPIC_API_KEY | ANTHROPIC_BASE_URL | +| **Google Gemini** | tar.gz | ✅ स्वचालित | ✅ हाँ | GOOGLE_API_KEY | - | +| **OpenAI ChatGPT** | ZIP + Vector Store | ✅ स्वचालित | ✅ हाँ | OPENAI_API_KEY | - | +| **जेनेरिक Markdown** | ZIP | ❌ मैन्युअल | ❌ नहीं | - | - | + +```bash +# Claude (डिफ़ॉल्ट - कोई बदलाव आवश्यक नहीं!) +skill-seekers package output/react/ +skill-seekers upload react.zip + +# Google Gemini +pip install skill-seekers[gemini] +skill-seekers package output/react/ --target gemini +skill-seekers upload react-gemini.tar.gz --target gemini + +# OpenAI ChatGPT +pip install skill-seekers[openai] +skill-seekers package output/react/ --target openai +skill-seekers upload react-openai.zip --target openai + +# जेनेरिक Markdown (सार्वभौमिक निर्यात) +skill-seekers package output/react/ --target markdown +``` + +
+🔧 Claude-संगत API के लिए पर्यावरण चर (जैसे GLM-4.7) + +Skill Seekers किसी भी Claude-संगत API एंडपॉइंट का समर्थन करता है: + +```bash +# विकल्प 1: आधिकारिक Anthropic API (डिफ़ॉल्ट) +export ANTHROPIC_API_KEY=sk-ant-... + +# विकल्प 2: GLM-4.7 Claude-संगत API +export ANTHROPIC_API_KEY=your-glm-47-api-key +export ANTHROPIC_BASE_URL=https://glm-4-7-endpoint.com/v1 + +# सभी AI एन्हांसमेंट सुविधाएँ कॉन्फ़िगर किए गए एंडपॉइंट का उपयोग करेंगी +skill-seekers enhance output/react/ +skill-seekers analyze --directory . --enhance +``` + +**नोट**: `ANTHROPIC_BASE_URL` सेट करने से आप किसी भी Claude-संगत API एंडपॉइंट का उपयोग कर सकते हैं, जैसे GLM-4.7 (智谱 AI) या अन्य संगत सेवाएँ। + +
+ +**इंस्टॉलेशन:** +```bash +# Gemini समर्थन के साथ इंस्टॉल करें +pip install skill-seekers[gemini] + +# OpenAI समर्थन के साथ इंस्टॉल करें +pip install skill-seekers[openai] + +# सभी LLM प्लेटफ़ॉर्म के साथ इंस्टॉल करें +pip install skill-seekers[all-llms] +``` + +### 🔗 RAG फ़्रेमवर्क एकीकरण + +- ✅ **LangChain Documents** - `page_content` + मेटाडेटा के साथ सीधे `Document` प्रारूप में निर्यात + - इसके लिए उपयुक्त: QA चेन, रिट्रीवर, वेक्टर स्टोर, एजेंट + - उदाहरण: [LangChain RAG पाइपलाइन](examples/langchain-rag-pipeline/) + - गाइड: [LangChain एकीकरण](docs/integrations/LANGCHAIN.md) + +- ✅ **LlamaIndex TextNodes** - अद्वितीय ID + एम्बेडिंग के साथ `TextNode` प्रारूप में निर्यात + - इसके लिए उपयुक्त: क्वेरी इंजन, चैट इंजन, स्टोरेज संदर्भ + - उदाहरण: [LlamaIndex क्वेरी इंजन](examples/llama-index-query-engine/) + - गाइड: [LlamaIndex एकीकरण](docs/integrations/LLAMA_INDEX.md) + +- ✅ **Pinecone-तैयार प्रारूप** - वेक्टर डेटाबेस अपसर्ट के लिए अनुकूलित + - इसके लिए उपयुक्त: प्रोडक्शन वेक्टर सर्च, सिमेंटिक सर्च, हाइब्रिड सर्च + - उदाहरण: [Pinecone अपसर्ट](examples/pinecone-upsert/) + - गाइड: [Pinecone एकीकरण](docs/integrations/PINECONE.md) + +**त्वरित निर्यात:** +```bash +# LangChain Documents (JSON) +skill-seekers package output/django --target langchain +# → output/django-langchain.json + +# LlamaIndex TextNodes (JSON) +skill-seekers package output/django --target llama-index +# → output/django-llama-index.json + +# Markdown (सार्वभौमिक) +skill-seekers package output/django --target markdown +# → output/django-markdown/SKILL.md + references/ +``` + +**पूर्ण RAG पाइपलाइन गाइड:** [RAG पाइपलाइन दस्तावेज़ीकरण](docs/integrations/RAG_PIPELINES.md) + +--- + +### 🧠 AI कोडिंग सहायक एकीकरण + +किसी भी फ़्रेमवर्क दस्तावेज़ को 4+ AI सहायकों के लिए विशेषज्ञ कोडिंग संदर्भ में बदलें: + +- ✅ **Cursor IDE** - AI-संचालित कोड सुझावों के लिए `.cursorrules` जनरेट करें + - इसके लिए उपयुक्त: फ़्रेमवर्क-विशिष्ट कोड जनरेशन, सुसंगत पैटर्न + - गाइड: [Cursor एकीकरण](docs/integrations/CURSOR.md) + - उदाहरण: [Cursor React कौशल](examples/cursor-react-skill/) + +- ✅ **Windsurf** - `.windsurfrules` के साथ Windsurf AI सहायक संदर्भ कस्टमाइज़ करें + - इसके लिए उपयुक्त: IDE-नेटिव AI सहायता, फ़्लो-आधारित कोडिंग + - गाइड: [Windsurf एकीकरण](docs/integrations/WINDSURF.md) + - उदाहरण: [Windsurf FastAPI संदर्भ](examples/windsurf-fastapi-context/) + +- ✅ **Cline (VS Code)** - VS Code एजेंट के लिए सिस्टम प्रॉम्प्ट + MCP + - इसके लिए उपयुक्त: VS Code में एजेंटिक कोड जनरेशन + - गाइड: [Cline एकीकरण](docs/integrations/CLINE.md) + - उदाहरण: [Cline Django सहायक](examples/cline-django-assistant/) + +- ✅ **Continue.dev** - IDE-अज्ञेयवादी AI के लिए संदर्भ सर्वर + - इसके लिए उपयुक्त: बहु-IDE वातावरण (VS Code, JetBrains, Vim), कस्टम LLM प्रदाता + - गाइड: [Continue एकीकरण](docs/integrations/CONTINUE_DEV.md) + - उदाहरण: [Continue सार्वभौमिक संदर्भ](examples/continue-dev-universal/) + +**AI कोडिंग टूल के लिए त्वरित निर्यात:** +```bash +# किसी भी AI कोडिंग सहायक के लिए (Cursor, Windsurf, Cline, Continue.dev) +skill-seekers scrape --config configs/django.json +skill-seekers package output/django --target claude # या --target markdown + +# अपने प्रोजेक्ट में कॉपी करें (Cursor के लिए उदाहरण) +cp output/django-claude/SKILL.md my-project/.cursorrules + +# या Windsurf के लिए +cp output/django-claude/SKILL.md my-project/.windsurf/rules/django.md + +# या Cline के लिए +cp output/django-claude/SKILL.md my-project/.clinerules + +# या Continue.dev के लिए (HTTP सर्वर) +python examples/continue-dev-universal/context_server.py +# ~/.continue/config.json में कॉन्फ़िगर करें +``` + +**एकीकरण हब:** [सभी AI सिस्टम एकीकरण](docs/integrations/INTEGRATIONS.md) + +--- + +### 🌊 तीन-धारा GitHub आर्किटेक्चर +- ✅ **तीन-धारा विश्लेषण** - GitHub रिपो को कोड, डॉक्स और अंतर्दृष्टि धाराओं में विभाजित करें +- ✅ **एकीकृत कोडबेस विश्लेषक** - GitHub URL और स्थानीय पथ दोनों के साथ काम करता है +- ✅ **C3.x विश्लेषण गहराई** - 'basic' (1-2 मिनट) या 'c3x' (20-60 मिनट) विश्लेषण चुनें +- ✅ **संवर्धित राउटर जनरेशन** - GitHub मेटाडेटा, README त्वरित शुरुआत, सामान्य समस्याएँ +- ✅ **Issue एकीकरण** - GitHub issues से शीर्ष समस्याएँ और समाधान +- ✅ **स्मार्ट राउटिंग कीवर्ड** - बेहतर विषय पहचान के लिए GitHub लेबल 2x भारित + +**तीन धाराएँ विस्तार से:** +- **धारा 1: कोड** - गहन C3.x विश्लेषण (पैटर्न, उदाहरण, गाइड, कॉन्फ़िग, आर्किटेक्चर) +- **धारा 2: डॉक्स** - रिपॉज़िटरी दस्तावेज़ीकरण (README, CONTRIBUTING, docs/*.md) +- **धारा 3: अंतर्दृष्टि** - सामुदायिक ज्ञान (issues, लेबल, stars, forks) + +```python +from skill_seekers.cli.unified_codebase_analyzer import UnifiedCodebaseAnalyzer + +# तीनों धाराओं के साथ GitHub रिपो का विश्लेषण करें +analyzer = UnifiedCodebaseAnalyzer() +result = analyzer.analyze( + source="https://github.com/facebook/react", + depth="c3x", # या "basic" त्वरित विश्लेषण के लिए + fetch_github_metadata=True +) + +# कोड धारा (C3.x विश्लेषण) तक पहुँचें +print(f"डिज़ाइन पैटर्न: {len(result.code_analysis['c3_1_patterns'])}") +print(f"टेस्ट उदाहरण: {result.code_analysis['c3_2_examples_count']}") + +# डॉक्स धारा (रिपॉज़िटरी डॉक्स) तक पहुँचें +print(f"README: {result.github_docs['readme'][:100]}") + +# अंतर्दृष्टि धारा (GitHub मेटाडेटा) तक पहुँचें +print(f"Stars: {result.github_insights['metadata']['stars']}") +print(f"सामान्य समस्याएँ: {len(result.github_insights['common_problems'])}") +``` + +**पूर्ण दस्तावेज़ीकरण**: [तीन-धारा कार्यान्वयन सारांश](docs/IMPLEMENTATION_SUMMARY_THREE_STREAM.md) + +### 🔐 स्मार्ट दर सीमा प्रबंधन और कॉन्फ़िगरेशन +- ✅ **बहु-टोकन कॉन्फ़िगरेशन सिस्टम** - एकाधिक GitHub खातों का प्रबंधन (व्यक्तिगत, कार्य, OSS) + - `~/.config/skill-seekers/config.json` पर सुरक्षित कॉन्फ़िग भंडारण (600 अनुमतियाँ) + - प्रति-प्रोफ़ाइल दर सीमा रणनीतियाँ: `prompt`, `wait`, `switch`, `fail` + - प्रति प्रोफ़ाइल कॉन्फ़िगर करने योग्य टाइमआउट (डिफ़ॉल्ट: 30 मिनट, अनिश्चित प्रतीक्षा रोकता है) + - स्मार्ट फ़ॉलबैक श्रृंखला: CLI तर्क → पर्यावरण चर → कॉन्फ़िग फ़ाइल → प्रॉम्प्ट + - Claude, Gemini, OpenAI के लिए API key प्रबंधन +- ✅ **इंटरैक्टिव कॉन्फ़िगरेशन विज़ार्ड** - आसान सेटअप के लिए सुंदर टर्मिनल UI + - टोकन निर्माण के लिए ब्राउज़र एकीकरण (GitHub आदि स्वचालित खोलता है) + - टोकन मान्यकरण और कनेक्शन परीक्षण + - रंग कोडिंग के साथ विज़ुअल स्टेटस प्रदर्शन +- ✅ **बुद्धिमान दर सीमा हैंडलर** - अब अनिश्चित प्रतीक्षा नहीं! + - दर सीमाओं के बारे में पूर्व चेतावनी (60/घंटा बनाम 5000/घंटा) + - GitHub API प्रतिक्रियाओं से रीयल-टाइम पहचान + - प्रगति के साथ लाइव उलटी गिनती टाइमर + - दर सीमित होने पर स्वचालित प्रोफ़ाइल स्विचिंग + - चार रणनीतियाँ: prompt (पूछें), wait (उलटी गिनती), switch (दूसरा प्रयास), fail (रद्द) +- ✅ **पुनः शुरू करने की क्षमता** - बाधित कार्यों को जारी रखें + - कॉन्फ़िगर करने योग्य अंतराल पर प्रगति स्वचालित सहेजें (डिफ़ॉल्ट: 60 सेकंड) + - प्रगति विवरण के साथ सभी पुनः शुरू करने योग्य कार्यों की सूची + - पुराने कार्यों की स्वचालित सफ़ाई (डिफ़ॉल्ट: 7 दिन) +- ✅ **CI/CD समर्थन** - ऑटोमेशन के लिए नॉन-इंटरैक्टिव मोड + - `--non-interactive` फ़्लैग प्रॉम्प्ट के बिना तेज़ विफलता + - `--profile` फ़्लैग विशिष्ट GitHub खाता चुनने के लिए + - पाइपलाइन लॉग के लिए स्पष्ट त्रुटि संदेश + +**त्वरित सेटअप:** +```bash +# एक बार का कॉन्फ़िगरेशन (5 मिनट) +skill-seekers config --github + +# निजी रिपो के लिए विशिष्ट प्रोफ़ाइल उपयोग करें +skill-seekers github --repo mycompany/private-repo --profile work + +# CI/CD मोड (तेज़ विफलता, कोई प्रॉम्प्ट नहीं) +skill-seekers github --repo owner/repo --non-interactive + +# बाधित कार्य पुनः शुरू करें +skill-seekers resume --list +skill-seekers resume github_react_20260117_143022 +``` + +**दर सीमा रणनीतियाँ विस्तार से:** +- **prompt** (डिफ़ॉल्ट) - दर सीमित होने पर पूछें कि क्या करना है (प्रतीक्षा, स्विच, टोकन सेटअप, रद्द) +- **wait** - उलटी गिनती टाइमर के साथ स्वचालित प्रतीक्षा (टाइमआउट का सम्मान करता है) +- **switch** - स्वचालित रूप से अगला उपलब्ध प्रोफ़ाइल आज़माएँ (बहु-खाता सेटअप के लिए) +- **fail** - स्पष्ट त्रुटि के साथ तुरंत विफल (CI/CD के लिए बिल्कुल सही) + +### 🎯 Bootstrap कौशल - स्व-होस्टिंग + +Skill Seekers को स्वयं Claude Code कौशल के रूप में जनरेट करें: + +```bash +# कौशल जनरेट करें +./scripts/bootstrap_skill.sh + +# Claude Code में इंस्टॉल करें +cp -r output/skill-seekers ~/.claude/skills/ +``` + +**आपको क्या मिलता है:** +- ✅ **पूर्ण कौशल दस्तावेज़ीकरण** - सभी CLI कमांड और उपयोग पैटर्न +- ✅ **CLI कमांड संदर्भ** - प्रत्येक टूल और उसके विकल्प दस्तावेज़ीकृत +- ✅ **त्वरित शुरुआत उदाहरण** - सामान्य वर्कफ़्लो और सर्वोत्तम अभ्यास +- ✅ **स्वचालित-जनरेटेड API डॉक्स** - कोड विश्लेषण, पैटर्न और उदाहरण + +### 🔐 निजी कॉन्फ़िग रिपॉज़िटरी +- ✅ **Git-आधारित कॉन्फ़िग स्रोत** - निजी/टीम Git रिपॉज़िटरी से कॉन्फ़िग प्राप्त करें +- ✅ **बहु-स्रोत प्रबंधन** - असीमित GitHub, GitLab, Bitbucket रिपो पंजीकृत करें +- ✅ **टीम सहयोग** - 3-5 व्यक्ति टीमों में कस्टम कॉन्फ़िग साझा करें +- ✅ **एंटरप्राइज़ समर्थन** - प्राथमिकता-आधारित समाधान के साथ 500+ डेवलपर तक स्केल करें +- ✅ **सुरक्षित प्रमाणीकरण** - पर्यावरण चर टोकन (GITHUB_TOKEN, GITLAB_TOKEN) +- ✅ **बुद्धिमान कैशिंग** - एक बार क्लोन करें, अपडेट स्वचालित रूप से प्राप्त करें +- ✅ **ऑफ़लाइन मोड** - ऑफ़लाइन होने पर कैश किए गए कॉन्फ़िग के साथ काम करें + +### 🤖 कोडबेस विश्लेषण (C3.x) + +**C3.4: AI एन्हांसमेंट के साथ कॉन्फ़िगरेशन पैटर्न निष्कर्षण** +- ✅ **9 कॉन्फ़िग प्रारूप** - JSON, YAML, TOML, ENV, INI, Python, JavaScript, Dockerfile, Docker Compose +- ✅ **7 पैटर्न प्रकार** - डेटाबेस, API, लॉगिंग, कैश, ईमेल, प्रमाणीकरण, सर्वर कॉन्फ़िगरेशन +- ✅ **AI एन्हांसमेंट** - वैकल्पिक दोहरे-मोड AI विश्लेषण (API + LOCAL) + - प्रत्येक कॉन्फ़िग क्या करता है समझाता है + - सर्वोत्तम अभ्यास और सुधार सुझाता है + - **सुरक्षा विश्लेषण** - हार्डकोडेड रहस्य, उजागर क्रेडेंशियल खोजता है +- ✅ **स्वचालित दस्तावेज़ीकरण** - सभी कॉन्फ़िग का JSON + Markdown दस्तावेज़ीकरण जनरेट करता है +- ✅ **MCP एकीकरण** - एन्हांसमेंट समर्थन के साथ `extract_config_patterns` टूल + +**C3.3: AI-संवर्धित कैसे-करें मार्गदर्शिकाएँ** +- ✅ **व्यापक AI एन्हांसमेंट** - बुनियादी गाइड को पेशेवर ट्यूटोरियल में बदलता है +- ✅ **5 स्वचालित सुधार** - चरण विवरण, समस्या निवारण, पूर्वापेक्षाएँ, अगले कदम, उपयोग मामले +- ✅ **दोहरे-मोड समर्थन** - API मोड (Claude API) या LOCAL मोड (Claude Code CLI) +- ✅ **LOCAL मोड में शून्य लागत** - अपने Claude Code Max प्लान का उपयोग करके मुफ़्त एन्हांसमेंट +- ✅ **गुणवत्ता परिवर्तन** - 75-पंक्ति टेम्पलेट → 500+ पंक्ति व्यापक मार्गदर्शिकाएँ + +**उपयोग:** +```bash +# त्वरित विश्लेषण (1-2 मिनट, केवल बुनियादी सुविधाएँ) +skill-seekers analyze --directory tests/ --quick + +# AI के साथ व्यापक विश्लेषण (20-60 मिनट, सभी सुविधाएँ) +skill-seekers analyze --directory tests/ --comprehensive + +# AI एन्हांसमेंट के साथ +skill-seekers analyze --directory tests/ --enhance +``` + +**पूर्ण दस्तावेज़ीकरण:** [docs/HOW_TO_GUIDES.md](docs/HOW_TO_GUIDES.md#ai-enhancement-new) + +### 🔄 एन्हांसमेंट वर्कफ़्लो प्रीसेट + +पुन: प्रयोज्य YAML-परिभाषित एन्हांसमेंट पाइपलाइन जो नियंत्रित करती हैं कि AI कच्चे दस्तावेज़ को पॉलिश किए गए कौशल में कैसे बदलता है। + +- ✅ **5 बंडल प्रीसेट** — `default`, `minimal`, `security-focus`, `architecture-comprehensive`, `api-documentation` +- ✅ **उपयोगकर्ता-परिभाषित प्रीसेट** — `~/.config/skill-seekers/workflows/` में कस्टम वर्कफ़्लो जोड़ें +- ✅ **एकाधिक वर्कफ़्लो** — एक कमांड में दो या अधिक वर्कफ़्लो चेन करें +- ✅ **पूर्ण प्रबंधित CLI** — वर्कफ़्लो को सूचीबद्ध, निरीक्षण, कॉपी, जोड़ें, हटाएँ और मान्य करें + +```bash +# एकल वर्कफ़्लो लागू करें +skill-seekers create ./my-project --enhance-workflow security-focus + +# एकाधिक वर्कफ़्लो चेन करें (क्रम में लागू) +skill-seekers create ./my-project \ + --enhance-workflow security-focus \ + --enhance-workflow minimal + +# प्रीसेट प्रबंधन +skill-seekers workflows list # सभी सूचीबद्ध करें (बंडल + उपयोगकर्ता) +skill-seekers workflows show security-focus # YAML सामग्री प्रिंट करें +skill-seekers workflows copy security-focus # संपादन के लिए उपयोगकर्ता डायरेक्टरी में कॉपी करें +skill-seekers workflows add ./my-workflow.yaml # कस्टम प्रीसेट इंस्टॉल करें +skill-seekers workflows remove my-workflow # उपयोगकर्ता प्रीसेट हटाएँ +skill-seekers workflows validate security-focus # प्रीसेट संरचना मान्य करें + +# एक साथ कई कॉपी करें +skill-seekers workflows copy security-focus minimal api-documentation + +# एक साथ कई फ़ाइलें जोड़ें +skill-seekers workflows add ./wf-a.yaml ./wf-b.yaml + +# एक साथ कई हटाएँ +skill-seekers workflows remove my-wf-a my-wf-b +``` + +**YAML प्रीसेट प्रारूप:** +```yaml +name: security-focus +description: "सुरक्षा-केंद्रित समीक्षा: कमज़ोरियाँ, प्रमाणीकरण, डेटा हैंडलिंग" +version: "1.0" +stages: + - name: vulnerabilities + type: custom + prompt: "OWASP शीर्ष 10 और सामान्य सुरक्षा कमज़ोरियों की समीक्षा करें..." + - name: auth-review + type: custom + prompt: "प्रमाणीकरण और प्राधिकरण पैटर्न की जाँच करें..." + uses_history: true +``` + +### ⚡ प्रदर्शन और स्केल +- ✅ **एसिंक मोड** - async/await के साथ 2-3 गुना तेज़ स्क्रैपिंग (`--async` फ़्लैग का उपयोग करें) +- ✅ **बड़े दस्तावेज़ समर्थन** - बुद्धिमान विभाजन के साथ 10K-40K+ पेज के दस्तावेज़ संभालें +- ✅ **राउटर/हब कौशल** - विशेष उप-कौशल तक बुद्धिमान रूटिंग +- ✅ **समानांतर स्क्रैपिंग** - एक साथ कई कौशल प्रोसेस करें +- ✅ **चेकपॉइंट/पुनः शुरू** - लंबी स्क्रैप में कभी प्रगति न खोएँ +- ✅ **कैशिंग सिस्टम** - एक बार स्क्रैप करें, तुरंत पुनर्निर्माण करें + +### ✅ गुणवत्ता आश्वासन +- ✅ **पूर्ण परीक्षित** - 2,540+ परीक्षण व्यापक कवरेज के साथ + +--- + +## 📦 इंस्टॉलेशन + +```bash +# बुनियादी इंस्टॉल (डॉक्यूमेंटेशन स्क्रैपिंग, GitHub विश्लेषण, PDF, पैकेजिंग) +pip install skill-seekers + +# सभी LLM प्लेटफ़ॉर्म समर्थन के साथ +pip install skill-seekers[all-llms] + +# MCP सर्वर के साथ +pip install skill-seekers[mcp] + +# सब कुछ +pip install skill-seekers[all] +``` + +**चुनने में मदद चाहिए?** सेटअप विज़ार्ड चलाएँ: +```bash +skill-seekers-setup +``` + +### इंस्टॉलेशन विकल्प + +| इंस्टॉल कमांड | विशेषताएँ | +|---------------|----------| +| `pip install skill-seekers` | स्क्रैपिंग, GitHub विश्लेषण, PDF, सभी प्लेटफ़ॉर्म | +| `pip install skill-seekers[gemini]` | + Google Gemini समर्थन | +| `pip install skill-seekers[openai]` | + OpenAI ChatGPT समर्थन | +| `pip install skill-seekers[all-llms]` | + सभी LLM प्लेटफ़ॉर्म | +| `pip install skill-seekers[mcp]` | + MCP सर्वर | +| `pip install skill-seekers[video]` | + YouTube/Vimeo ट्रांसक्रिप्ट और मेटाडेटा निष्कर्षण | +| `pip install skill-seekers[video-full]` | + Whisper ट्रांसक्रिप्शन और विज़ुअल फ़्रेम निष्कर्षण | +| `pip install skill-seekers[jupyter]` | + Jupyter Notebook समर्थन | +| `pip install skill-seekers[pptx]` | + PowerPoint समर्थन | +| `pip install skill-seekers[confluence]` | + Confluence विकी समर्थन | +| `pip install skill-seekers[notion]` | + Notion पेज समर्थन | +| `pip install skill-seekers[rss]` | + RSS/Atom फ़ीड समर्थन | +| `pip install skill-seekers[chat]` | + Slack/Discord चैट एक्सपोर्ट समर्थन | +| `pip install skill-seekers[asciidoc]` | + AsciiDoc दस्तावेज़ समर्थन | +| `pip install skill-seekers[all]` | सब कुछ सक्षम | + +> **वीडियो विज़ुअल डिपेंडेंसी (GPU-सक्षम):** `skill-seekers[video-full]` इंस्टॉल करने के बाद, +> `skill-seekers video --setup` चलाएँ ताकि आपका GPU स्वचालित रूप से पहचाना जा सके और सही PyTorch +> संस्करण + easyocr इंस्टॉल किया जा सके। यह विज़ुअल निष्कर्षण डिपेंडेंसी इंस्टॉल करने का अनुशंसित तरीका है। + +--- + +## 🚀 एक-कमांड इंस्टॉल वर्कफ़्लो + +**कॉन्फ़िग से अपलोडेड कौशल तक का सबसे तेज़ तरीका — पूर्ण ऑटोमेशन:** + +```bash +# आधिकारिक कॉन्फ़िग से React कौशल इंस्टॉल करें (Claude पर स्वचालित अपलोड) +skill-seekers install --config react + +# स्थानीय कॉन्फ़िग फ़ाइल से इंस्टॉल करें +skill-seekers install --config configs/custom.json + +# अपलोड किए बिना इंस्टॉल करें (केवल पैकेज) +skill-seekers install --config django --no-upload + +# बिना निष्पादन किए वर्कफ़्लो का पूर्वावलोकन करें +skill-seekers install --config react --dry-run +``` + +**समय:** कुल 20-45 मिनट | **गुणवत्ता:** प्रोडक्शन-तैयार (9/10) | **लागत:** मुफ़्त + +**निष्पादित चरण:** +``` +📥 चरण 1: कॉन्फ़िग प्राप्त करें (यदि कॉन्फ़िग नाम दिया गया हो) +📖 चरण 2: दस्तावेज़ स्क्रैप करें +✨ चरण 3: AI एन्हांसमेंट (अनिवार्य - छोड़ने का विकल्प नहीं) +📦 चरण 4: कौशल पैकेज करें +☁️ चरण 5: Claude पर अपलोड करें (वैकल्पिक, API key आवश्यक) +``` + +**आवश्यकताएँ:** +- ANTHROPIC_API_KEY पर्यावरण चर (स्वचालित अपलोड के लिए) +- Claude Code Max प्लान (स्थानीय AI एन्हांसमेंट के लिए) + +--- + +## 📊 फ़ीचर मैट्रिक्स + +Skill Seekers **4 LLM प्लेटफ़ॉर्म**, **17 स्रोत प्रकार** और सभी लक्ष्यों पर पूर्ण फ़ीचर समानता का समर्थन करता है। + +**प्लेटफ़ॉर्म:** Claude AI, Google Gemini, OpenAI ChatGPT, जेनेरिक Markdown +**स्रोत प्रकार:** डॉक्यूमेंटेशन वेबसाइट, GitHub रिपो, PDF, Word (.docx), EPUB, वीडियो, स्थानीय कोडबेस, Jupyter Notebook, स्थानीय HTML, OpenAPI/Swagger, AsciiDoc, PowerPoint (.pptx), RSS/Atom फ़ीड, Man पेज, Confluence विकी, Notion पेज, Slack/Discord चैट एक्सपोर्ट + +विस्तृत प्लेटफ़ॉर्म और फ़ीचर समर्थन के लिए [पूर्ण फ़ीचर मैट्रिक्स](docs/FEATURE_MATRIX.md) देखें। + +### त्वरित प्लेटफ़ॉर्म तुलना + +| विशेषता | Claude | Gemini | OpenAI | Markdown | +|---------|--------|--------|--------|----------| +| प्रारूप | ZIP + YAML | tar.gz | ZIP + Vector | ZIP | +| अपलोड | ✅ API | ✅ API | ✅ API | ❌ मैन्युअल | +| एन्हांसमेंट | ✅ Sonnet 4 | ✅ 2.0 Flash | ✅ GPT-4o | ❌ कोई नहीं | +| सभी कौशल मोड | ✅ | ✅ | ✅ | ✅ | + +--- + +## उपयोग उदाहरण + +### डॉक्यूमेंटेशन स्क्रैपिंग + +```bash +# डॉक्यूमेंटेशन वेबसाइट स्क्रैप करें +skill-seekers scrape --config configs/react.json + +# बिना कॉन्फ़िग के त्वरित स्क्रैप +skill-seekers scrape --url https://react.dev --name react + +# एसिंक मोड के साथ (3 गुना तेज़) +skill-seekers scrape --config configs/godot.json --async --workers 8 +``` + +### PDF निष्कर्षण + +```bash +# बुनियादी PDF निष्कर्षण +skill-seekers pdf --pdf docs/manual.pdf --name myskill + +# उन्नत सुविधाएँ +skill-seekers pdf --pdf docs/manual.pdf --name myskill \ + --extract-tables \ # तालिकाएँ निकालें + --parallel \ # तेज़ समानांतर प्रसंस्करण + --workers 8 # 8 CPU कोर उपयोग करें + +# स्कैन किए गए PDF (आवश्यक: pip install pytesseract Pillow) +skill-seekers pdf --pdf docs/scanned.pdf --name myskill --ocr +``` + +### वीडियो निष्कर्षण + +```bash +# वीडियो समर्थन इंस्टॉल करें +pip install skill-seekers[video] # ट्रांसक्रिप्ट + मेटाडेटा +pip install skill-seekers[video-full] # + Whisper ट्रांसक्रिप्शन + विज़ुअल फ़्रेम निष्कर्षण + +# GPU स्वचालित पहचान और विज़ुअल डिपेंडेंसी इंस्टॉल (PyTorch + easyocr) +skill-seekers video --setup + +# YouTube वीडियो से निकालें +skill-seekers video --url https://www.youtube.com/watch?v=dQw4w9WgXcQ --name mytutorial + +# YouTube प्लेलिस्ट से निकालें +skill-seekers video --playlist https://www.youtube.com/playlist?list=... --name myplaylist + +# स्थानीय वीडियो फ़ाइल से निकालें +skill-seekers video --video-file recording.mp4 --name myrecording + +# विज़ुअल फ़्रेम विश्लेषण के साथ निकालें (video-full डिपेंडेंसी आवश्यक) +skill-seekers video --url https://www.youtube.com/watch?v=... --name mytutorial --visual + +# AI एन्हांसमेंट के साथ (OCR साफ़ करें + पॉलिश SKILL.md जनरेट करें) +skill-seekers video --url https://www.youtube.com/watch?v=... --visual --enhance-level 2 + +# वीडियो का विशिष्ट भाग क्लिप करें (सेकंड, MM:SS, HH:MM:SS समर्थित) +skill-seekers video --url https://www.youtube.com/watch?v=... --start-time 1:30 --end-time 5:00 + +# कम-विश्वसनीय OCR फ़्रेम के लिए Vision API उपयोग करें (ANTHROPIC_API_KEY आवश्यक) +skill-seekers video --url https://www.youtube.com/watch?v=... --visual --vision-ocr + +# पहले से निकाले गए डेटा से कौशल पुनर्निर्माण करें (डाउनलोड छोड़ें) +skill-seekers video --from-json output/mytutorial/video_data/extracted_data.json --name mytutorial +``` + +> **पूर्ण गाइड:** पूर्ण CLI संदर्भ, विज़ुअल पाइपलाइन विवरण, AI एन्हांसमेंट विकल्प +> और समस्या निवारण के लिए [docs/VIDEO_GUIDE.md](docs/VIDEO_GUIDE.md) देखें। + +### GitHub रिपॉज़िटरी विश्लेषण + +```bash +# बुनियादी रिपॉज़िटरी स्क्रैपिंग +skill-seekers github --repo facebook/react + +# प्रमाणीकरण के साथ (उच्च दर सीमा) +export GITHUB_TOKEN=ghp_your_token_here +skill-seekers github --repo facebook/react + +# शामिल सामग्री कस्टमाइज़ करें +skill-seekers github --repo django/django \ + --include-issues \ # GitHub Issues निकालें + --max-issues 100 \ # issue संख्या सीमित करें + --include-changelog # CHANGELOG.md निकालें +``` + +### एकीकृत बहु-स्रोत स्क्रैपिंग + +**विरोध पहचान के साथ डॉक्यूमेंटेशन + GitHub + PDF को एक एकीकृत कौशल में मिलाएँ:** + +```bash +# मौजूदा एकीकृत कॉन्फ़िग का उपयोग करें +skill-seekers unified --config configs/react_unified.json +skill-seekers unified --config configs/django_unified.json + +# या एकीकृत कॉन्फ़िग बनाएँ +cat > configs/myframework_unified.json << 'EOF' +{ + "name": "myframework", + "merge_mode": "rule-based", + "sources": [ + { + "type": "documentation", + "base_url": "https://docs.myframework.com/", + "max_pages": 200 + }, + { + "type": "github", + "repo": "owner/myframework", + "code_analysis_depth": "surface" + } + ] +} +EOF + +skill-seekers unified --config configs/myframework_unified.json +``` + +**विरोध पहचान स्वचालित रूप से खोजती है:** +- 🔴 **कोड में अनुपस्थित** (उच्च): दस्तावेज़ीकृत लेकिन कार्यान्वित नहीं +- 🟡 **डॉक्स में अनुपस्थित** (मध्यम): कार्यान्वित लेकिन दस्तावेज़ीकृत नहीं +- ⚠️ **हस्ताक्षर बेमेल**: भिन्न पैरामीटर/टाइप +- ℹ️ **विवरण बेमेल**: भिन्न स्पष्टीकरण + +**पूर्ण गाइड:** [docs/UNIFIED_SCRAPING.md](docs/UNIFIED_SCRAPING.md) देखें। + +### निजी कॉन्फ़िग रिपॉज़िटरी + +**निजी Git रिपॉज़िटरी का उपयोग करके टीमों में कस्टम कॉन्फ़िग साझा करें:** + +```bash +# विकल्प 1: MCP टूल का उपयोग (अनुशंसित) +# अपनी टीम की निजी रिपो पंजीकृत करें +add_config_source( + name="team", + git_url="https://github.com/mycompany/skill-configs.git", + token_env="GITHUB_TOKEN" +) + +# टीम रिपो से कॉन्फ़िग प्राप्त करें +fetch_config(source="team", config_name="internal-api") +``` + +**समर्थित प्लेटफ़ॉर्म:** +- GitHub (`GITHUB_TOKEN`), GitLab (`GITLAB_TOKEN`), Gitea (`GITEA_TOKEN`), Bitbucket (`BITBUCKET_TOKEN`) + +**पूर्ण गाइड:** [docs/GIT_CONFIG_SOURCES.md](docs/GIT_CONFIG_SOURCES.md) देखें। + +## यह कैसे काम करता है + +```mermaid +graph LR + A[डॉक्यूमेंटेशन वेबसाइट] --> B[Skill Seekers] + B --> C[स्क्रैपर] + B --> D[AI एन्हांसमेंट] + B --> E[पैकेजर] + C --> F[व्यवस्थित संदर्भ] + D --> F + F --> E + E --> G[Claude कौशल .zip] + G --> H[Claude AI पर अपलोड] +``` + +0. **llms.txt पहचान** - पहले llms-full.txt, llms.txt, llms-small.txt की जाँच करता है +1. **स्क्रैप**: दस्तावेज़ीकरण से सभी पेज निकालता है +2. **वर्गीकरण**: सामग्री को विषयों में व्यवस्थित करता है (API, गाइड, ट्यूटोरियल आदि) +3. **एन्हांस**: AI दस्तावेज़ का विश्लेषण करता है और उदाहरणों के साथ व्यापक SKILL.md बनाता है +4. **पैकेज**: सब कुछ Claude-तैयार `.zip` फ़ाइल में बंडल करता है + +## 📋 पूर्वापेक्षाएँ + +**शुरू करने से पहले, सुनिश्चित करें कि आपके पास है:** + +1. **Python 3.10 या उच्चतर** - [डाउनलोड](https://www.python.org/downloads/) | जाँचें: `python3 --version` +2. **Git** - [डाउनलोड](https://git-scm.com/) | जाँचें: `git --version` +3. **15-30 मिनट** पहली बार सेटअप के लिए + +**पहली बार?** → **[यहाँ से शुरू करें: बुलेटप्रूफ़ त्वरित शुरुआत गाइड](BULLETPROOF_QUICKSTART.md)** 🎯 + +--- + +## 📤 Claude पर कौशल अपलोड करना + +आपका कौशल पैकेज हो जाने के बाद, इसे Claude पर अपलोड करना होगा: + +### विकल्प 1: स्वचालित अपलोड (API-आधारित) + +```bash +# अपनी API key सेट करें (एक बार) +export ANTHROPIC_API_KEY=sk-ant-... + +# पैकेज करें और स्वचालित अपलोड करें +skill-seekers package output/react/ --upload + +# या मौजूदा .zip अपलोड करें +skill-seekers upload output/react.zip +``` + +### विकल्प 2: मैन्युअल अपलोड (API Key के बिना) + +```bash +# कौशल पैकेज करें +skill-seekers package output/react/ +# → output/react.zip बनाता है + +# फिर मैन्युअल रूप से अपलोड करें: +# - https://claude.ai/skills पर जाएँ +# - "Upload Skill" पर क्लिक करें +# - output/react.zip चुनें +``` + +### विकल्प 3: MCP (Claude Code) + +``` +Claude Code में, बस पूछें: +"React कौशल पैकेज और अपलोड करें" +``` + +--- + +## 🤖 AI एजेंट में इंस्टॉल करना + +Skill Seekers स्वचालित रूप से 10+ AI कोडिंग एजेंट में कौशल इंस्टॉल कर सकता है। + +```bash +# विशिष्ट एजेंट में इंस्टॉल करें +skill-seekers install-agent output/react/ --agent cursor + +# सभी एजेंट में एक साथ इंस्टॉल करें +skill-seekers install-agent output/react/ --agent all + +# इंस्टॉल किए बिना पूर्वावलोकन करें +skill-seekers install-agent output/react/ --agent cursor --dry-run +``` + +### समर्थित एजेंट + +| एजेंट | पथ | प्रकार | +|-------|-----|--------| +| **Claude Code** | `~/.claude/skills/` | वैश्विक | +| **Cursor** | `.cursor/skills/` | प्रोजेक्ट | +| **VS Code / Copilot** | `.github/skills/` | प्रोजेक्ट | +| **Amp** | `~/.amp/skills/` | वैश्विक | +| **Goose** | `~/.config/goose/skills/` | वैश्विक | +| **OpenCode** | `~/.opencode/skills/` | वैश्विक | +| **Windsurf** | `~/.windsurf/skills/` | वैश्विक | + +--- + +## 🔌 MCP एकीकरण (26 टूल) + +Skill Seekers Claude Code, Cursor, Windsurf, VS Code + Cline, या IntelliJ IDEA से उपयोग के लिए MCP सर्वर प्रदान करता है। + +```bash +# stdio मोड (Claude Code, VS Code + Cline) +python -m skill_seekers.mcp.server_fastmcp + +# HTTP मोड (Cursor, Windsurf, IntelliJ) +python -m skill_seekers.mcp.server_fastmcp --transport http --port 8765 + +# सभी एजेंट को एक साथ स्वचालित कॉन्फ़िगर करें +./setup_mcp.sh +``` + +**सभी 26 टूल उपलब्ध:** +- **मूल (9):** `list_configs`, `generate_config`, `validate_config`, `estimate_pages`, `scrape_docs`, `package_skill`, `upload_skill`, `enhance_skill`, `install_skill` +- **विस्तारित (10):** `scrape_github`, `scrape_pdf`, `unified_scrape`, `merge_sources`, `detect_conflicts`, `add_config_source`, `fetch_config`, `list_config_sources`, `remove_config_source`, `split_config` +- **वेक्टर DB (4):** `export_to_chroma`, `export_to_weaviate`, `export_to_faiss`, `export_to_qdrant` +- **क्लाउड (3):** `cloud_upload`, `cloud_download`, `cloud_list` + +**पूर्ण गाइड:** [docs/MCP_SETUP.md](docs/MCP_SETUP.md) + +--- + +## ⚙️ कॉन्फ़िगरेशन + +### उपलब्ध प्रीसेट (24+) + +```bash +# सभी प्रीसेट सूचीबद्ध करें +skill-seekers list-configs +``` + +| श्रेणी | प्रीसेट | +|--------|---------| +| **वेब फ़्रेमवर्क** | `react`, `vue`, `angular`, `svelte`, `nextjs` | +| **Python** | `django`, `flask`, `fastapi`, `sqlalchemy`, `pytest` | +| **गेम डेवलपमेंट** | `godot`, `pygame`, `unity` | +| **टूल और DevOps** | `docker`, `kubernetes`, `terraform`, `ansible` | +| **एकीकृत (डॉक्स + GitHub)** | `react-unified`, `vue-unified`, `nextjs-unified` और अधिक | + +### अपना कॉन्फ़िग बनाएँ + +```bash +# विकल्प 1: इंटरैक्टिव +skill-seekers scrape --interactive + +# विकल्प 2: प्रीसेट कॉपी करें और संपादित करें +cp configs/react.json configs/myframework.json +nano configs/myframework.json +skill-seekers scrape --config configs/myframework.json +``` + +### कॉन्फ़िग फ़ाइल संरचना + +```json +{ + "name": "myframework", + "description": "इस कौशल का उपयोग कब करें", + "base_url": "https://docs.myframework.com/", + "selectors": { + "main_content": "article", + "title": "h1", + "code_blocks": "pre code" + }, + "url_patterns": { + "include": ["/docs", "/guide"], + "exclude": ["/blog", "/about"] + }, + "categories": { + "getting_started": ["intro", "quickstart"], + "api": ["api", "reference"] + }, + "rate_limit": 0.5, + "max_pages": 500 +} +``` + +### कॉन्फ़िग कहाँ संग्रहीत करें + +टूल इस क्रम में खोजता है: +1. दिए गए सटीक पथ पर +2. `./configs/` (वर्तमान डायरेक्टरी) +3. `~/.config/skill-seekers/configs/` (उपयोगकर्ता कॉन्फ़िग डायरेक्टरी) +4. SkillSeekersWeb.com API (प्रीसेट कॉन्फ़िग) + +--- + +## 📊 क्या बनाया जाता है + +``` +output/ +├── godot_data/ # स्क्रैप किया गया कच्चा डेटा +│ ├── pages/ # JSON फ़ाइलें (प्रति पेज एक) +│ └── summary.json # अवलोकन +│ +└── godot/ # कौशल + ├── SKILL.md # वास्तविक उदाहरणों के साथ संवर्धित + ├── references/ # वर्गीकृत दस्तावेज़ + │ ├── index.md + │ ├── getting_started.md + │ ├── scripting.md + │ └── ... + ├── scripts/ # खाली (अपनी स्क्रिप्ट जोड़ें) + └── assets/ # खाली (अपने संसाधन जोड़ें) +``` + +--- + +## 🐛 समस्या निवारण + +### कोई सामग्री नहीं निकली? +- अपना `main_content` सिलेक्टर जाँचें +- आज़माएँ: `article`, `main`, `div[role="main"]` + +### डेटा है लेकिन उपयोग नहीं हो रहा? +```bash +# बलपूर्वक पुनः स्क्रैप करें +rm -rf output/myframework_data/ +skill-seekers scrape --config configs/myframework.json +``` + +### श्रेणियाँ अच्छी नहीं हैं? +कॉन्फ़िग में `categories` अनुभाग को बेहतर कीवर्ड के साथ संपादित करें। + +### दस्तावेज़ अपडेट करना चाहते हैं? +```bash +# पुराना डेटा हटाएँ और पुनः स्क्रैप करें +rm -rf output/godot_data/ +skill-seekers scrape --config configs/godot.json +``` + +### एन्हांसमेंट काम नहीं कर रहा? +```bash +# जाँचें कि API key सेट है या नहीं +echo $ANTHROPIC_API_KEY + +# इसके बजाय LOCAL मोड आज़माएँ (Claude Code Max उपयोग करता है, API key की आवश्यकता नहीं) +skill-seekers enhance output/react/ --mode LOCAL + +# बैकग्राउंड एन्हांसमेंट स्थिति की निगरानी करें +skill-seekers enhance-status output/react/ --watch +``` + +### GitHub दर सीमा समस्याएँ? +```bash +# GitHub token सेट करें (5000 अनुरोध/घंटा बनाम अनाम 60/घंटा) +export GITHUB_TOKEN=ghp_your_token_here + +# या एकाधिक प्रोफ़ाइल कॉन्फ़िगर करें +skill-seekers config --github +``` + +--- + +## 📈 प्रदर्शन + +| कार्य | समय | टिप्पणियाँ | +|-------|------|-----------| +| स्क्रैपिंग (सिंक) | 15-45 मिनट | केवल पहली बार, थ्रेड-आधारित | +| स्क्रैपिंग (एसिंक) | 5-15 मिनट | `--async` फ़्लैग से 2-3 गुना तेज़ | +| निर्माण | 1-3 मिनट | कैश से तेज़ पुनर्निर्माण | +| पुनर्निर्माण | <1 मिनट | `--skip-scrape` के साथ | +| एन्हांसमेंट (LOCAL) | 30-60 सेकंड | Claude Code Max उपयोग करता है | +| एन्हांसमेंट (API) | 20-40 सेकंड | API key आवश्यक | +| वीडियो (ट्रांसक्रिप्ट) | 1-3 मिनट | YouTube/स्थानीय, केवल ट्रांसक्रिप्ट | +| वीडियो (विज़ुअल) | 5-15 मिनट | + OCR फ़्रेम निष्कर्षण | +| पैकेजिंग | 5-10 सेकंड | अंतिम .zip निर्माण | + +--- + +## 📚 दस्तावेज़ीकरण + +### शुरुआत करना +- **[BULLETPROOF_QUICKSTART.md](BULLETPROOF_QUICKSTART.md)** - 🎯 **नए हैं? यहाँ से शुरू करें!** +- **[QUICKSTART.md](QUICKSTART.md)** - अनुभवी उपयोगकर्ताओं के लिए त्वरित शुरुआत +- **[TROUBLESHOOTING.md](TROUBLESHOOTING.md)** - सामान्य समस्याएँ और समाधान +- **[docs/QUICK_REFERENCE.md](docs/QUICK_REFERENCE.md)** - एक-पेज चीट शीट + +### मार्गदर्शिकाएँ +- **[docs/LARGE_DOCUMENTATION.md](docs/LARGE_DOCUMENTATION.md)** - 10K-40K+ पेज दस्तावेज़ संभालें +- **[ASYNC_SUPPORT.md](ASYNC_SUPPORT.md)** - एसिंक मोड गाइड (2-3 गुना तेज़ स्क्रैपिंग) +- **[docs/ENHANCEMENT_MODES.md](docs/ENHANCEMENT_MODES.md)** - AI एन्हांसमेंट मोड गाइड +- **[docs/MCP_SETUP.md](docs/MCP_SETUP.md)** - MCP एकीकरण सेटअप +- **[docs/UNIFIED_SCRAPING.md](docs/UNIFIED_SCRAPING.md)** - बहु-स्रोत स्क्रैपिंग +- **[docs/VIDEO_GUIDE.md](docs/VIDEO_GUIDE.md)** - वीडियो निष्कर्षण गाइड + +### एकीकरण मार्गदर्शिकाएँ +- **[docs/integrations/LANGCHAIN.md](docs/integrations/LANGCHAIN.md)** - LangChain RAG +- **[docs/integrations/CURSOR.md](docs/integrations/CURSOR.md)** - Cursor IDE +- **[docs/integrations/WINDSURF.md](docs/integrations/WINDSURF.md)** - Windsurf IDE +- **[docs/integrations/CLINE.md](docs/integrations/CLINE.md)** - Cline (VS Code) +- **[docs/integrations/RAG_PIPELINES.md](docs/integrations/RAG_PIPELINES.md)** - सभी RAG पाइपलाइन + +--- + +## 📝 लाइसेंस + +MIT लाइसेंस - विवरण के लिए [LICENSE](LICENSE) फ़ाइल देखें + +--- + +कौशल निर्माण का आनंद लें! 🚀 + +--- + +## 🔒 सुरक्षा + +[![MseeP.ai सुरक्षा मूल्यांकन बैज](https://mseep.net/pr/yusufkaraaslan-skill-seekers-badge.png)](https://mseep.ai/app/yusufkaraaslan-skill-seekers) diff --git a/README.ja.md b/README.ja.md new file mode 100644 index 0000000..ab76ae8 --- /dev/null +++ b/README.ja.md @@ -0,0 +1,1048 @@ +[![MseeP.ai セキュリティ評価バッジ](https://mseep.net/pr/yusufkaraaslan-skill-seekers-badge.png)](https://mseep.ai/app/yusufkaraaslan-skill-seekers) + +# Skill Seekers + +[English](README.md) | [简体中文](README.zh-CN.md) | 日本語 | [한국어](README.ko.md) | [Español](README.es.md) | [Français](README.fr.md) | [Deutsch](README.de.md) | [Português](README.pt-BR.md) | [Türkçe](README.tr.md) | [العربية](README.ar.md) | [हिन्दी](README.hi.md) | [Русский](README.ru.md) + +> ⚠️ **機械翻訳に関する注意** +> +> この文書はAIによって自動翻訳されたものです。翻訳の品質向上に努めていますが、不正確な表現が含まれる場合があります。 +> +> 翻訳の改善にご協力いただける方は、[GitHub Issue #260](https://github.com/yusufkaraaslan/Skill_Seekers/issues/260) からフィードバックをお寄せください。 + +[![バージョン](https://img.shields.io/badge/version-3.2.0-blue.svg)](https://github.com/yusufkaraaslan/Skill_Seekers/releases) +[![ライセンス: MIT](https://img.shields.io/badge/License-MIT-yellow.svg)](https://opensource.org/licenses/MIT) +[![Python 3.10+](https://img.shields.io/badge/python-3.10+-blue.svg)](https://www.python.org/downloads/) +[![MCP 統合](https://img.shields.io/badge/MCP-Integrated-blue.svg)](https://modelcontextprotocol.io) +[![テスト通過](https://img.shields.io/badge/Tests-2540%2B%20Passing-brightgreen.svg)](tests/) +[![プロジェクトボード](https://img.shields.io/badge/Project-Board-purple.svg)](https://github.com/users/yusufkaraaslan/projects/2) +[![PyPI バージョン](https://badge.fury.io/py/skill-seekers.svg)](https://pypi.org/project/skill-seekers/) +[![PyPI - ダウンロード数](https://img.shields.io/pypi/dm/skill-seekers.svg)](https://pypi.org/project/skill-seekers/) +[![PyPI - Python バージョン](https://img.shields.io/pypi/pyversions/skill-seekers.svg)](https://pypi.org/project/skill-seekers/) +[![公式サイト](https://img.shields.io/badge/Website-skillseekersweb.com-blue.svg)](https://skillseekersweb.com/) +[![Twitter フォロー](https://img.shields.io/twitter/follow/_yUSyUS_?style=social)](https://x.com/_yUSyUS_) +[![GitHub Stars](https://img.shields.io/github/stars/yusufkaraaslan/Skill_Seekers?style=social)](https://github.com/yusufkaraaslan/Skill_Seekers) + +**🧠 AI システムのデータレイヤー。** Skill Seekers はドキュメントサイト、GitHub リポジトリ、PDF、動画、Jupyter Notebook、Wiki など 17 種類以上のソースタイプを構造化されたナレッジアセットに変換します。AI スキル(Claude、Gemini、OpenAI)、RAG パイプライン(LangChain、LlamaIndex、Pinecone)、AI コーディングアシスタント(Cursor、Windsurf、Cline)を数分で構築できます。 + +> 🌐 **[SkillSeekersWeb.com にアクセス](https://skillseekersweb.com/)** - 24 以上のプリセット設定を閲覧、設定の共有、完全なドキュメントへのアクセス! + +> 📋 **[開発ロードマップとタスクを確認](https://github.com/users/yusufkaraaslan/projects/2)** - 10 カテゴリで 134 タスク、好きなものを選んで貢献できます! + +## 🧠 AI システムのデータレイヤー + +**Skill Seekers は汎用的な前処理レイヤー**であり、生のドキュメントとそれを利用するすべての AI システムの間に位置します。Claude スキル、LangChain RAG パイプライン、Cursor の `.cursorrules` ファイルのいずれを構築する場合でも、データの準備作業は同じです。一度実行すれば、すべてのターゲットにエクスポートできます。 + +```bash +# 1コマンド → 構造化ナレッジアセット +skill-seekers create https://docs.react.dev/ +# または: skill-seekers create facebook/react +# または: skill-seekers create ./my-project + +# 任意の AI システムにエクスポート +skill-seekers package output/react --target claude # → Claude AI スキル (ZIP) +skill-seekers package output/react --target langchain # → LangChain Documents +skill-seekers package output/react --target llama-index # → LlamaIndex TextNodes +skill-seekers package output/react --target cursor # → .cursorrules +``` + +### 生成される出力 + +| 出力 | ターゲット | 用途 | +|------|-----------|------| +| **Claude スキル** (ZIP + YAML) | `--target claude` | Claude Code、Claude API | +| **Gemini スキル** (tar.gz) | `--target gemini` | Google Gemini | +| **OpenAI / Custom GPT** (ZIP) | `--target openai` | GPT-4o、カスタムアシスタント | +| **LangChain Documents** | `--target langchain` | QA チェーン、エージェント、リトリーバー | +| **LlamaIndex TextNodes** | `--target llama-index` | クエリエンジン、チャットエンジン | +| **Haystack Documents** | `--target haystack` | エンタープライズ RAG パイプライン | +| **Pinecone 対応** (Markdown) | `--target markdown` | ベクトルアップサート | +| **ChromaDB / FAISS / Qdrant** | `--format chroma/faiss/qdrant` | ローカルベクトル DB | +| **Cursor** `.cursorrules` | `--target claude` → コピー | Cursor IDE AI コンテキスト | +| **Windsurf / Cline / Continue** | `--target claude` → コピー | VS Code、IntelliJ、Vim | + +### 選ばれる理由 + +- ⚡ **99% 高速化** — 数日の手作業データ準備 → 15〜45 分 +- 🎯 **AI スキル品質** — サンプル、パターン、ガイドを含む 500 行以上の SKILL.md ファイル +- 📊 **RAG 対応チャンク** — コードブロックを保持しコンテキストを維持するスマートチャンキング +- 🔄 **17 種類のソースタイプ** — ドキュメント + GitHub + PDF + 動画 + ノートブック + Wiki などを 1 つのナレッジアセットに統合 +- 🌐 **一度の準備で全ターゲット** — 再スクレイピングなしで 16 プラットフォームにエクスポート +- 🎬 **動画** — YouTube やローカル動画からコード、字幕、構造化知識を抽出 +- ✅ **実戦テスト済み** — 2,540 以上のテスト、24 以上のフレームワークプリセット、本番運用可能 + +## クイックスタート + +```bash +pip install skill-seekers + +# 任意のソースから AI スキルを構築 +skill-seekers create https://docs.django.com/ # ドキュメントサイト +skill-seekers create django/django # GitHub リポジトリ +skill-seekers create ./my-codebase # ローカルプロジェクト +skill-seekers create manual.pdf # PDF ファイル +skill-seekers create manual.docx # Word ドキュメント +skill-seekers create book.epub # EPUB 電子書籍 +skill-seekers create notebook.ipynb # Jupyter Notebook +skill-seekers create page.html # ローカル HTML +skill-seekers create api-spec.yaml # OpenAPI/Swagger 仕様 +skill-seekers create guide.adoc # AsciiDoc ドキュメント +skill-seekers create slides.pptx # PowerPoint プレゼンテーション + +# 動画(YouTube、Vimeo、またはローカルファイル — skill-seekers[video] が必要) +skill-seekers video --url https://www.youtube.com/watch?v=... --name mytutorial +# 初回使用時は GPU 対応のビジュアル依存関係を自動インストール: +skill-seekers video --setup + +# 用途に応じてエクスポート +skill-seekers package output/django --target claude # Claude AI スキル +skill-seekers package output/django --target langchain # LangChain RAG +skill-seekers package output/django --target cursor # Cursor IDE コンテキスト +``` + +**完全なサンプル:** +- [Claude AI スキル](examples/claude-skill/) - Claude Code 向けスキル +- [LangChain RAG パイプライン](examples/langchain-rag-pipeline/) - Chroma ベースの QA チェーン +- [Cursor IDE コンテキスト](examples/cursor-react-skill/) - フレームワーク対応 AI コーディング + +## Skill Seekers とは? + +Skill Seekers は **AI システムのデータレイヤー**であり、17 種類のソースタイプ——ドキュメントサイト、GitHub リポジトリ、PDF、動画、Jupyter Notebook、Word/EPUB/AsciiDoc ドキュメント、OpenAPI/Swagger 仕様、PowerPoint プレゼンテーション、RSS/Atom フィード、Man ページ、Confluence Wiki、Notion ページ、Slack/Discord チャットエクスポートなど——をすべての AI ターゲットに適した構造化ナレッジアセットに変換します: + +| ユースケース | 得られるもの | 例 | +|-------------|-------------|-----| +| **AI スキル** | 包括的な SKILL.md + 参照ファイル | Claude Code、Gemini、GPT | +| **RAG パイプライン** | リッチなメタデータ付きチャンクドキュメント | LangChain、LlamaIndex、Haystack | +| **ベクトルデータベース** | アップサート用にフォーマット済みデータ | Pinecone、Chroma、Weaviate、FAISS | +| **AI コーディングアシスタント** | IDE の AI が自動的に読み取るコンテキストファイル | Cursor、Windsurf、Cline、Continue.dev | + +Skill Seekers は以下のステップで数日の手動前処理作業を代替します: + +1. **取り込み** — ドキュメント、GitHub リポジトリ、ローカルコードベース、PDF、動画、Jupyter Notebook、Wiki など 17 種類以上のソースタイプ +2. **分析** — 高度な AST 解析、パターン検出、API 抽出 +3. **構造化** — メタデータ付きのカテゴリ分類された参照ファイル +4. **強化** — AI 駆動の SKILL.md 生成(Claude、Gemini、またはローカル) +5. **エクスポート** — 1 つのアセットから 16 種類のプラットフォーム専用フォーマットにエクスポート + +## なぜ Skill Seekers を使うのか? + +### AI スキルビルダー向け(Claude、Gemini、OpenAI) + +- 🎯 **本番グレードのスキル** — コード例、パターン、ガイドを含む 500 行以上の SKILL.md ファイル +- 🔄 **強化ワークフロー** — `security-focus`、`architecture-comprehensive` またはカスタム YAML プリセットを適用 +- 🎮 **あらゆるドメイン** — ゲームエンジン(Godot、Unity)、フレームワーク(React、Django)、社内ツール +- 🔧 **チーム向け** — 社内ドキュメント + コードを単一の信頼できるソースに統合 +- 📚 **高品質** — サンプル、クイックリファレンス、ナビゲーションガイド付きの AI 強化 + +### RAG ビルダー & AI エンジニア向け + +- 🤖 **RAG 対応データ** — 事前チャンク済みの LangChain `Documents`、LlamaIndex `TextNodes`、Haystack `Documents` +- 🚀 **99% 高速化** — 数日の前処理 → 15〜45 分 +- 📊 **スマートメタデータ** — カテゴリ、ソース、タイプ → より高い検索精度 +- 🔄 **マルチソース** — 1 つのパイプラインでドキュメント + GitHub + PDF を統合 +- 🌐 **プラットフォーム非依存** — 再スクレイピングなしで任意のベクトル DB やフレームワークにエクスポート + +### AI コーディングアシスタントユーザー向け + +- 💻 **Cursor / Windsurf / Cline** — `.cursorrules` / `.windsurfrules` / `.clinerules` を自動生成 +- 🎯 **永続的コンテキスト** — AI がフレームワークを「理解」し、繰り返しのプロンプトが不要に +- 📚 **常に最新** — ドキュメント更新時に数分でコンテキストを更新 + +## 主要機能 + +### 🌐 ドキュメントスクレイピング +- ✅ **llms.txt サポート** - LLM 対応ドキュメントファイルを自動検出し使用(10 倍高速) +- ✅ **汎用スクレイパー** - あらゆるドキュメントサイトに対応 +- ✅ **スマート分類** - トピック別にコンテンツを自動整理 +- ✅ **コード言語検出** - Python、JavaScript、C++、GDScript などを認識 +- ✅ **24 以上のプリセット** - Godot、React、Vue、Django、FastAPI など + +### 📄 PDF サポート +- ✅ **基本 PDF 抽出** - PDF からテキスト、コード、画像を抽出 +- ✅ **スキャン PDF の OCR** - スキャンドキュメントからテキストを抽出 +- ✅ **パスワード保護 PDF** - 暗号化 PDF の処理 +- ✅ **テーブル抽出** - 複雑なテーブルの抽出 +- ✅ **並列処理** - 大規模 PDF で 3 倍高速 +- ✅ **インテリジェントキャッシュ** - 再実行時に 50% 高速 + +### 🎬 動画抽出 +- ✅ **YouTube & ローカル動画** - 動画から字幕、コード、構造化知識を抽出 +- ✅ **ビジュアルフレーム分析** - コードエディタ、ターミナル、スライドの OCR 抽出 +- ✅ **GPU 自動検出** - 正しい PyTorch ビルド(CUDA/ROCm/MPS/CPU)を自動インストール +- ✅ **AI 強化** - 2 パス処理:OCR アーティファクトのクリーンアップ + 洗練された SKILL.md の生成 +- ✅ **時間トリミング** - `--start-time` と `--end-time` で特定のセクションを抽出 +- ✅ **プレイリストサポート** - YouTube プレイリスト内のすべての動画を一括処理 + +### 🐙 GitHub リポジトリ分析 +- ✅ **高度なコード分析** - Python、JavaScript、TypeScript、Java、C++、Go の AST 解析 +- ✅ **API 抽出** - 関数、クラス、メソッドのパラメータと型情報 +- ✅ **リポジトリメタデータ** - README、ファイルツリー、言語構成、スター/フォーク数 +- ✅ **GitHub Issues & PR** - ラベルとマイルストーン付きの Issue を取得 +- ✅ **CHANGELOG & リリース** - バージョン履歴を自動抽出 +- ✅ **コンフリクト検出** - ドキュメント化された API と実際のコード実装を比較 +- ✅ **MCP 統合** - 自然言語で操作:「GitHub リポジトリ facebook/react をスクレイプ」 + +### 🔄 統合マルチソーススクレイピング +- ✅ **複数ソースの統合** - 1 つのスキルでドキュメント + GitHub + PDF を混合 +- ✅ **コンフリクト検出** - ドキュメントとコード間の不一致を自動検出 +- ✅ **インテリジェントマージ** - ルールベースまたは AI 駆動のコンフリクト解決 +- ✅ **透明なレポート** - ⚠️ 警告付きの並列比較 +- ✅ **ドキュメントギャップ分析** - 古いドキュメントや未文書化機能を特定 +- ✅ **唯一の信頼できるソース** - 意図(ドキュメント)と現実(コード)の両方を示す 1 つのスキル +- ✅ **後方互換性** - レガシーの単一ソース設定は引き続き動作 + +### 🤖 マルチ LLM プラットフォームサポート +- ✅ **4 つの LLM プラットフォーム** - Claude AI、Google Gemini、OpenAI ChatGPT、汎用 Markdown +- ✅ **汎用スクレイピング** - 同じドキュメントがすべてのプラットフォームで使用可能 +- ✅ **プラットフォーム固有のパッケージング** - 各 LLM に最適化されたフォーマット +- ✅ **ワンコマンドエクスポート** - `--target` フラグでプラットフォームを選択 +- ✅ **オプション依存関係** - 必要なものだけインストール +- ✅ **100% 後方互換** - 既存の Claude ワークフローは変更不要 + +| プラットフォーム | フォーマット | アップロード | 強化 | API キー | カスタムエンドポイント | +|----------------|------------|------------|------|---------|-------------------| +| **Claude AI** | ZIP + YAML | ✅ 自動 | ✅ あり | ANTHROPIC_API_KEY | ANTHROPIC_BASE_URL | +| **Google Gemini** | tar.gz | ✅ 自動 | ✅ あり | GOOGLE_API_KEY | - | +| **OpenAI ChatGPT** | ZIP + Vector Store | ✅ 自動 | ✅ あり | OPENAI_API_KEY | - | +| **汎用 Markdown** | ZIP | ❌ 手動 | ❌ なし | - | - | + +```bash +# Claude(デフォルト — 変更不要!) +skill-seekers package output/react/ +skill-seekers upload react.zip + +# Google Gemini +pip install skill-seekers[gemini] +skill-seekers package output/react/ --target gemini +skill-seekers upload react-gemini.tar.gz --target gemini + +# OpenAI ChatGPT +pip install skill-seekers[openai] +skill-seekers package output/react/ --target openai +skill-seekers upload react-openai.zip --target openai + +# 汎用 Markdown(ユニバーサルエクスポート) +skill-seekers package output/react/ --target markdown +``` + +
+🔧 Claude 互換 API の環境変数(例:GLM-4.7) + +Skill Seekers は任意の Claude 互換 API エンドポイントをサポートしています: + +```bash +# オプション 1:公式 Anthropic API(デフォルト) +export ANTHROPIC_API_KEY=sk-ant-... + +# オプション 2:GLM-4.7 Claude 互換 API +export ANTHROPIC_API_KEY=your-glm-47-api-key +export ANTHROPIC_BASE_URL=https://glm-4-7-endpoint.com/v1 + +# すべての AI 強化機能は設定されたエンドポイントを使用します +skill-seekers enhance output/react/ +skill-seekers analyze --directory . --enhance +``` + +**注意**:`ANTHROPIC_BASE_URL` を設定すると、GLM-4.7(智谱 AI)やその他の互換サービスなど、任意の Claude 互換 API エンドポイントを使用できます。 + +
+ +**インストール:** +```bash +# Gemini サポートをインストール +pip install skill-seekers[gemini] + +# OpenAI サポートをインストール +pip install skill-seekers[openai] + +# すべての LLM プラットフォームをインストール +pip install skill-seekers[all-llms] +``` + +### 🔗 RAG フレームワーク統合 + +- ✅ **LangChain Documents** - `page_content` + メタデータ付きの `Document` フォーマットに直接エクスポート + - 最適な用途:QA チェーン、リトリーバー、ベクトルストア、エージェント + - サンプル:[LangChain RAG パイプライン](examples/langchain-rag-pipeline/) + - ガイド:[LangChain 統合](docs/integrations/LANGCHAIN.md) + +- ✅ **LlamaIndex TextNodes** - ユニーク ID + エンベディング付きの `TextNode` フォーマットにエクスポート + - 最適な用途:クエリエンジン、チャットエンジン、ストレージコンテキスト + - サンプル:[LlamaIndex クエリエンジン](examples/llama-index-query-engine/) + - ガイド:[LlamaIndex 統合](docs/integrations/LLAMA_INDEX.md) + +- ✅ **Pinecone 対応フォーマット** - ベクトルデータベースアップサートに最適化 + - 最適な用途:プロダクションベクトル検索、セマンティック検索、ハイブリッド検索 + - サンプル:[Pinecone アップサート](examples/pinecone-upsert/) + - ガイド:[Pinecone 統合](docs/integrations/PINECONE.md) + +**クイックエクスポート:** +```bash +# LangChain Documents(JSON) +skill-seekers package output/django --target langchain +# → output/django-langchain.json + +# LlamaIndex TextNodes(JSON) +skill-seekers package output/django --target llama-index +# → output/django-llama-index.json + +# Markdown(汎用) +skill-seekers package output/django --target markdown +# → output/django-markdown/SKILL.md + references/ +``` + +**完全な RAG パイプラインガイド:** [RAG パイプラインドキュメント](docs/integrations/RAG_PIPELINES.md) + +--- + +### 🧠 AI コーディングアシスタント統合 + +任意のフレームワークドキュメントを 4 つ以上の AI アシスタント向けのエキスパートコーディングコンテキストに変換: + +- ✅ **Cursor IDE** - AI 駆動のコード提案用に `.cursorrules` を生成 + - 最適な用途:フレームワーク固有のコード生成、一貫したパターン + - ガイド:[Cursor 統合](docs/integrations/CURSOR.md) + - サンプル:[Cursor React スキル](examples/cursor-react-skill/) + +- ✅ **Windsurf** - `.windsurfrules` で Windsurf AI アシスタントのコンテキストをカスタマイズ + - 最適な用途:IDE ネイティブの AI 支援、フローベースのコーディング + - ガイド:[Windsurf 統合](docs/integrations/WINDSURF.md) + - サンプル:[Windsurf FastAPI コンテキスト](examples/windsurf-fastapi-context/) + +- ✅ **Cline(VS Code)** - VS Code エージェント用のシステムプロンプト + MCP + - 最適な用途:VS Code でのインテリジェントなコード生成 + - ガイド:[Cline 統合](docs/integrations/CLINE.md) + - サンプル:[Cline Django アシスタント](examples/cline-django-assistant/) + +- ✅ **Continue.dev** - IDE 非依存の AI コンテキストサーバー + - 最適な用途:マルチ IDE 環境(VS Code、JetBrains、Vim)、カスタム LLM プロバイダー + - ガイド:[Continue 統合](docs/integrations/CONTINUE_DEV.md) + - サンプル:[Continue ユニバーサルコンテキスト](examples/continue-dev-universal/) + +**AI コーディングツール向けクイックエクスポート:** +```bash +# 任意の AI コーディングアシスタント向け(Cursor、Windsurf、Cline、Continue.dev) +skill-seekers scrape --config configs/django.json +skill-seekers package output/django --target claude + +# プロジェクトにコピー(Cursor の場合) +cp output/django-claude/SKILL.md my-project/.cursorrules + +# Windsurf の場合 +cp output/django-claude/SKILL.md my-project/.windsurf/rules/django.md + +# Cline の場合 +cp output/django-claude/SKILL.md my-project/.clinerules +``` + +**統合ハブ:** [すべての AI システム統合](docs/integrations/INTEGRATIONS.md) + +--- + +### 🌊 3 ストリーム GitHub アーキテクチャ +- ✅ **3 ストリーム分析** - GitHub リポジトリをコード、ドキュメント、インサイトの 3 ストリームに分割 +- ✅ **統合コードベースアナライザー** - GitHub URL とローカルパスの両方に対応 +- ✅ **C3.x 分析深度** - 「basic」(1〜2 分)または「c3x」(20〜60 分)分析を選択 +- ✅ **強化ルーター生成** - GitHub メタデータ、README クイックスタート、よくある問題 +- ✅ **Issue 統合** - GitHub Issues からのよくある問題と解決策 +- ✅ **スマートルーティングキーワード** - GitHub ラベルの重み付けが 2 倍でトピック検出精度を向上 + +**3 ストリームの説明:** +- **ストリーム 1:コード** - 高度な C3.x 分析(パターン、サンプル、ガイド、設定、アーキテクチャ) +- **ストリーム 2:ドキュメント** - リポジトリドキュメント(README、CONTRIBUTING、docs/*.md) +- **ストリーム 3:インサイト** - コミュニティ知識(Issues、ラベル、Stars、Forks) + +```python +from skill_seekers.cli.unified_codebase_analyzer import UnifiedCodebaseAnalyzer + +# 3 ストリームで GitHub リポジトリを分析 +analyzer = UnifiedCodebaseAnalyzer() +result = analyzer.analyze( + source="https://github.com/facebook/react", + depth="c3x", # または "basic" でクイック分析 + fetch_github_metadata=True +) + +print(f"デザインパターン: {len(result.code_analysis['c3_1_patterns'])}") +print(f"Stars: {result.github_insights['metadata']['stars']}") +``` + +**完全なドキュメント**:[3 ストリーム実装サマリー](docs/IMPLEMENTATION_SUMMARY_THREE_STREAM.md) + +### 🔐 スマートレート制限管理と設定 +- ✅ **マルチトークン設定システム** - 複数の GitHub アカウント(個人、仕事、OSS)を管理 + - セキュアな設定ストレージ `~/.config/skill-seekers/config.json`(パーミッション 600) + - プロファイルごとのレート制限戦略:`prompt`、`wait`、`switch`、`fail` + - スマートフォールバックチェーン:CLI 引数 → 環境変数 → 設定ファイル → プロンプト +- ✅ **対話式設定ウィザード** - 美しいターミナル UI で簡単セットアップ +- ✅ **インテリジェントレート制限ハンドラー** - 無限待ちはもう終わり! + - リアルタイムカウントダウンと自動プロファイル切り替え + - 4 つの戦略:prompt(確認)、wait(カウントダウン)、switch(切り替え)、fail(中止) +- ✅ **レジューム機能** - 中断されたジョブの再開 +- ✅ **CI/CD サポート** - `--non-interactive` フラグで自動化対応 + +**クイックセットアップ:** +```bash +# 初回設定(5 分) +skill-seekers config --github + +# プライベートリポジトリ用に特定のプロファイルを使用 +skill-seekers github --repo mycompany/private-repo --profile work + +# CI/CD モード(即時失敗、プロンプトなし) +skill-seekers github --repo owner/repo --non-interactive +``` + +### 🎯 Bootstrap スキル — セルフホスティング + +skill-seekers 自体を Claude Code スキルとして生成: + +```bash +./scripts/bootstrap_skill.sh +cp -r output/skill-seekers ~/.claude/skills/ +``` + +### 🔐 プライベート設定リポジトリ +- ✅ **Git ベースの設定ソース** - プライベート/チーム Git リポジトリから設定を取得 +- ✅ **マルチソース管理** - GitHub、GitLab、Bitbucket リポジトリを無制限に登録 +- ✅ **チームコラボレーション** - 3〜5 人のチーム間でカスタム設定を共有 +- ✅ **エンタープライズサポート** - 500 人以上の開発者にスケール +- ✅ **セキュア認証** - 環境変数トークン(GITHUB_TOKEN、GITLAB_TOKEN) + +### 🤖 コードベース分析(C3.x) + +**C3.4:AI 強化付き設定パターン抽出** +- ✅ **9 つの設定フォーマット** - JSON、YAML、TOML、ENV、INI、Python、JavaScript、Dockerfile、Docker Compose +- ✅ **7 つのパターンタイプ** - データベース、API、ロギング、キャッシュ、メール、認証、サーバー設定 +- ✅ **AI 強化** - オプションのデュアルモード AI 分析(API + LOCAL) +- ✅ **セキュリティ分析** - ハードコードされたシークレットや公開された認証情報を検出 + +**C3.3:AI 強化操作ガイド** +- ✅ **包括的な AI 強化** - 基本ガイドをプロフェッショナルなチュートリアルに変換 +- ✅ **5 つの自動改善** - ステップ説明、トラブルシューティング、前提条件、次のステップ、ユースケース +- ✅ **デュアルモードサポート** - API モード(Claude API)または LOCAL モード(Claude Code CLI) +- ✅ **LOCAL モードはコスト無料** - Claude Code Max プランで無料強化 + +**使用方法:** +```bash +# クイック分析(1〜2 分、基本機能のみ) +skill-seekers analyze --directory tests/ --quick + +# 包括的分析(AI 付き、20〜60 分) +skill-seekers analyze --directory tests/ --comprehensive + +# AI 強化付き +skill-seekers analyze --directory tests/ --enhance +``` + +**完全なドキュメント:** [docs/HOW_TO_GUIDES.md](docs/HOW_TO_GUIDES.md#ai-enhancement-new) + +### 🔄 強化ワークフロープリセット + +再利用可能な YAML 定義の強化パイプラインで、AI が生のドキュメントを洗練されたスキルに変換する方法を制御します。 + +- ✅ **5 つの組み込みプリセット** — `default`、`minimal`、`security-focus`、`architecture-comprehensive`、`api-documentation` +- ✅ **ユーザー定義プリセット** — `~/.config/skill-seekers/workflows/` にカスタムワークフローを追加 +- ✅ **複数ワークフローチェーン** — 1 つのコマンドで 2 つ以上のワークフローをチェーン +- ✅ **完全な CLI 管理** — ワークフローの一覧表示、確認、コピー、追加、削除、検証 + +```bash +# 単一ワークフローの適用 +skill-seekers create ./my-project --enhance-workflow security-focus + +# 複数ワークフローのチェーン(順序どおりに適用) +skill-seekers create ./my-project \ + --enhance-workflow security-focus \ + --enhance-workflow minimal + +# プリセットの管理 +skill-seekers workflows list # すべて一覧表示(組み込み + ユーザー) +skill-seekers workflows show security-focus # YAML 内容を表示 +skill-seekers workflows copy security-focus # 編集用にユーザーディレクトリにコピー +skill-seekers workflows add ./my-workflow.yaml # カスタムプリセットをインストール +skill-seekers workflows remove my-workflow # ユーザープリセットを削除 +skill-seekers workflows validate security-focus # プリセット構造を検証 + +# 複数を同時にコピー +skill-seekers workflows copy security-focus minimal api-documentation + +# 複数ファイルを同時に追加 +skill-seekers workflows add ./wf-a.yaml ./wf-b.yaml + +# 複数を同時に削除 +skill-seekers workflows remove my-wf-a my-wf-b +``` + +**YAML プリセットフォーマット:** +```yaml +name: security-focus +description: "セキュリティ重点レビュー:脆弱性、認証、データ処理" +version: "1.0" +stages: + - name: vulnerabilities + type: custom + prompt: "OWASP Top 10 と一般的なセキュリティ脆弱性をレビュー..." + - name: auth-review + type: custom + prompt: "認証と認可パターンを検査..." + uses_history: true +``` + +### ⚡ パフォーマンスとスケール +- ✅ **非同期モード** - async/await で 2〜3 倍高速なスクレイピング(`--async` フラグを使用) +- ✅ **大規模ドキュメントサポート** - インテリジェントな分割で 10K〜40K 以上のページを処理 +- ✅ **ルーター/ハブスキル** - 専用サブスキルへのインテリジェントルーティング +- ✅ **並列スクレイピング** - 複数のスキルを同時処理 +- ✅ **チェックポイント/レジューム** - 長時間スクレイプでも進捗を失わない +- ✅ **キャッシュシステム** - 一度スクレイプすれば即座にリビルド + +### ✅ 品質保証 +- ✅ **完全テスト** - 2,540 以上のテスト、包括的なカバレッジ + +--- + +## 📦 インストール + +```bash +# 基本インストール(ドキュメントスクレイピング、GitHub 分析、PDF、パッケージング) +pip install skill-seekers + +# すべての LLM プラットフォームサポート付き +pip install skill-seekers[all-llms] + +# MCP サーバー付き +pip install skill-seekers[mcp] + +# 全機能 +pip install skill-seekers[all] +``` + +**選択に迷ったら?** セットアップウィザードを実行: +```bash +skill-seekers-setup +``` + +### インストールオプション + +| インストールコマンド | 機能 | +|-------------------|------| +| `pip install skill-seekers` | スクレイピング、GitHub 分析、PDF、全プラットフォーム | +| `pip install skill-seekers[gemini]` | + Google Gemini サポート | +| `pip install skill-seekers[openai]` | + OpenAI ChatGPT サポート | +| `pip install skill-seekers[all-llms]` | + すべての LLM プラットフォーム | +| `pip install skill-seekers[mcp]` | + MCP サーバー | +| `pip install skill-seekers[video]` | + YouTube/Vimeo 字幕 & メタデータ抽出 | +| `pip install skill-seekers[video-full]` | + Whisper 文字起こし & ビジュアルフレーム抽出 | +| `pip install skill-seekers[jupyter]` | + Jupyter Notebook サポート | +| `pip install skill-seekers[ocr]` | + OCR サポート(PDF スキャン、ビジュアルフレーム) | +| `pip install skill-seekers[confluence]` | + Confluence Wiki サポート | +| `pip install skill-seekers[notion]` | + Notion ページサポート | +| `pip install skill-seekers[all]` | 全機能 | + +> **動画ビジュアル依存関係(GPU 対応):** `skill-seekers[video-full]` をインストールした後、 +> `skill-seekers video --setup` を実行して GPU を自動検出し、正しい PyTorch +> バージョン + easyocr をインストールします。これはビジュアル抽出依存関係のインストールに推奨される方法です。 + +--- + +## 🚀 ワンコマンドインストールワークフロー + +**設定からスキルアップロードまでの最速の方法——完全自動化:** + +```bash +# 公式設定から React スキルをインストール(Claude に自動アップロード) +skill-seekers install --config react + +# ローカル設定ファイルからインストール +skill-seekers install --config configs/custom.json + +# アップロードなしでインストール(パッケージのみ) +skill-seekers install --config django --no-upload + +# 実行せずにワークフローをプレビュー +skill-seekers install --config react --dry-run +``` + +**実行フェーズ:** +``` +📥 フェーズ 1:設定の取得(設定名が指定された場合) +📖 フェーズ 2:ドキュメントのスクレイピング +✨ フェーズ 3:AI 強化 +📦 フェーズ 4:スキルのパッケージング +☁️ フェーズ 5:Claude にアップロード(オプション、API キーが必要) +``` + +--- + +## 📊 機能マトリックス + +Skill Seekers は **4 つの LLM プラットフォーム**、**17 種類のソースタイプ**、**5 つのスキルモード**をサポートし、機能は完全に同等です。 + +**プラットフォーム:** Claude AI、Google Gemini、OpenAI ChatGPT、汎用 Markdown +**ソースタイプ:** ドキュメントサイト、GitHub リポジトリ、PDF、Word、EPUB、動画、ローカルコードベース、Jupyter Notebook、ローカル HTML、OpenAPI/Swagger 仕様、AsciiDoc ドキュメント、PowerPoint プレゼンテーション、RSS/Atom フィード、Man ページ、Confluence Wiki、Notion ページ、Slack/Discord チャットエクスポート +**スキルモード:** ドキュメント、GitHub、PDF、統合マルチソース、ローカルリポジトリ + +詳細は [完全な機能マトリックス](docs/FEATURE_MATRIX.md) をご覧ください。 + +### プラットフォーム簡易比較 + +| 機能 | Claude | Gemini | OpenAI | Markdown | +|------|--------|--------|--------|----------| +| フォーマット | ZIP + YAML | tar.gz | ZIP + Vector | ZIP | +| アップロード | ✅ API | ✅ API | ✅ API | ❌ 手動 | +| 強化 | ✅ Sonnet 4 | ✅ 2.0 Flash | ✅ GPT-4o | ❌ なし | +| 全スキルモード | ✅ | ✅ | ✅ | ✅ | + +--- + +## 使用例 + +### ドキュメントスクレイピング + +```bash +# ドキュメントサイトをスクレイプ +skill-seekers scrape --config configs/react.json + +# 設定なしでクイックスクレイプ +skill-seekers scrape --url https://react.dev --name react + +# 非同期モード(3 倍高速) +skill-seekers scrape --config configs/godot.json --async --workers 8 +``` + +### PDF 抽出 + +```bash +# 基本 PDF 抽出 +skill-seekers pdf --pdf docs/manual.pdf --name myskill + +# 高度な機能 +skill-seekers pdf --pdf docs/manual.pdf --name myskill \ + --extract-tables \ # テーブル抽出 + --parallel \ # 高速並列処理 + --workers 8 # 8 CPU コアを使用 + +# スキャン PDF(必要:pip install pytesseract Pillow) +skill-seekers pdf --pdf docs/scanned.pdf --name myskill --ocr +``` + +### 動画抽出 + +```bash +# 動画サポートのインストール +pip install skill-seekers[video] # 字幕 + メタデータ +pip install skill-seekers[video-full] # + Whisper 文字起こし + ビジュアルフレーム抽出 + +# GPU 自動検出とビジュアル依存関係のインストール(PyTorch + easyocr) +skill-seekers video --setup + +# YouTube 動画から抽出 +skill-seekers video --url https://www.youtube.com/watch?v=dQw4w9WgXcQ --name mytutorial + +# YouTube プレイリストから抽出 +skill-seekers video --playlist https://www.youtube.com/playlist?list=... --name myplaylist + +# ローカル動画ファイルから抽出 +skill-seekers video --video-file recording.mp4 --name myrecording + +# ビジュアルフレーム分析付きで抽出(video-full 依存関係が必要) +skill-seekers video --url https://www.youtube.com/watch?v=... --name mytutorial --visual + +# AI 強化付き(OCR クリーンアップ + 洗練された SKILL.md を生成) +skill-seekers video --url https://www.youtube.com/watch?v=... --visual --enhance-level 2 + +# 動画の特定セクションをトリミング(秒数、MM:SS、HH:MM:SS 形式に対応) +skill-seekers video --url https://www.youtube.com/watch?v=... --start-time 1:30 --end-time 5:00 + +# 低信頼度 OCR フレームに Vision API を使用(ANTHROPIC_API_KEY が必要) +skill-seekers video --url https://www.youtube.com/watch?v=... --visual --vision-ocr + +# 以前に抽出したデータからスキルを再構築(ダウンロードをスキップ) +skill-seekers video --from-json output/mytutorial/video_data/extracted_data.json --name mytutorial +``` + +> **完全ガイド:** [docs/VIDEO_GUIDE.md](docs/VIDEO_GUIDE.md) で完全な CLI リファレンス、 +> ビジュアルパイプラインの詳細、AI 強化オプション、トラブルシューティングを参照してください。 + +### GitHub リポジトリ分析 + +```bash +# 基本リポジトリスクレイピング +skill-seekers github --repo facebook/react + +# 認証付き(より高いレート制限) +export GITHUB_TOKEN=ghp_your_token_here +skill-seekers github --repo facebook/react + +# 含めるコンテンツのカスタマイズ +skill-seekers github --repo django/django \ + --include-issues \ # GitHub Issues を抽出 + --max-issues 100 \ # Issue 数を制限 + --include-changelog # CHANGELOG.md を抽出 +``` + +### 統合マルチソーススクレイピング + +**ドキュメント + GitHub + PDF をコンフリクト検出付きの統合スキルに統合:** + +```bash +# 既存の統合設定を使用 +skill-seekers unified --config configs/react_unified.json + +# または統合設定を作成 +cat > configs/myframework_unified.json << 'EOF' +{ + "name": "myframework", + "merge_mode": "rule-based", + "sources": [ + { + "type": "documentation", + "base_url": "https://docs.myframework.com/", + "max_pages": 200 + }, + { + "type": "github", + "repo": "owner/myframework", + "code_analysis_depth": "surface" + } + ] +} +EOF + +skill-seekers unified --config configs/myframework_unified.json +``` + +**コンフリクト検出が自動的に発見するもの:** +- 🔴 **コードに存在しない**(高):文書化されているが未実装 +- 🟡 **ドキュメントに存在しない**(中):実装されているが未文書化 +- ⚠️ **シグネチャ不一致**:パラメータ/型が異なる +- ℹ️ **説明の不一致**:説明が異なる + +**完全ガイド:** [docs/UNIFIED_SCRAPING.md](docs/UNIFIED_SCRAPING.md) を参照してください。 + +### プライベート設定リポジトリ + +**プライベート Git リポジトリを使用してチーム間でカスタム設定を共有:** + +```bash +# MCP ツールでチームのプライベートリポジトリを登録 +add_config_source( + name="team", + git_url="https://github.com/mycompany/skill-configs.git", + token_env="GITHUB_TOKEN" +) + +# チームリポジトリから設定を取得 +fetch_config(source="team", config_name="internal-api") +``` + +**サポートされるプラットフォーム:** +- GitHub(`GITHUB_TOKEN`)、GitLab(`GITLAB_TOKEN`)、Gitea(`GITEA_TOKEN`)、Bitbucket(`BITBUCKET_TOKEN`) + +**完全ガイド:** [docs/GIT_CONFIG_SOURCES.md](docs/GIT_CONFIG_SOURCES.md) を参照してください。 + +## 仕組み + +```mermaid +graph LR + A[ドキュメントサイト] --> B[Skill Seekers] + B --> C[スクレイパー] + B --> D[AI 強化] + B --> E[パッケージャー] + C --> F[整理された参照ファイル] + D --> F + F --> E + E --> G[Claude スキル .zip] + G --> H[Claude AI にアップロード] +``` + +0. **llms.txt の検出** - llms-full.txt、llms.txt、llms-small.txt を優先チェック +1. **スクレイプ**:ドキュメントからすべてのページを抽出 +2. **カテゴリ分類**:コンテンツをトピック別に整理(API、ガイド、チュートリアルなど) +3. **強化**:AI がドキュメントを分析し、サンプル付きの包括的な SKILL.md を作成 +4. **パッケージ**:すべてを Claude 対応の `.zip` ファイルにバンドル + +## 📋 前提条件 + +**開始前に以下を確認してください:** + +1. **Python 3.10 以上** - [ダウンロード](https://www.python.org/downloads/) | 確認:`python3 --version` +2. **Git** - [ダウンロード](https://git-scm.com/) | 確認:`git --version` +3. **15〜30 分**の初回セットアップ時間 + +**初めての方は?** → **[こちらから開始:確実なクイックスタートガイド](BULLETPROOF_QUICKSTART.md)** 🎯 + +--- + +## 📤 Claude へのスキルアップロード + +スキルのパッケージが完了したら、Claude にアップロードする必要があります: + +### オプション 1:自動アップロード(API ベース) + +```bash +# API キーを設定(一度だけ) +export ANTHROPIC_API_KEY=sk-ant-... + +# パッケージと自動アップロード +skill-seekers package output/react/ --upload + +# または既存の .zip をアップロード +skill-seekers upload output/react.zip +``` + +### オプション 2:手動アップロード(API キー不要) + +```bash +# スキルをパッケージ +skill-seekers package output/react/ +# → output/react.zip が作成されます + +# 手動でアップロード: +# - https://claude.ai/skills にアクセス +# - 「スキルをアップロード」をクリック +# - output/react.zip を選択 +``` + +### オプション 3:MCP(Claude Code) + +``` +Claude Code で直接聞くだけ: +「React スキルをパッケージしてアップロードして」 +``` + +--- + +## 🤖 AI エージェントへのインストール + +Skill Seekers は 10 以上の AI コーディングエージェントにスキルを自動インストールできます。 + +```bash +# 特定のエージェントにインストール +skill-seekers install-agent output/react/ --agent cursor + +# すべてのエージェントに一括インストール +skill-seekers install-agent output/react/ --agent all + +# インストールせずにプレビュー +skill-seekers install-agent output/react/ --agent cursor --dry-run +``` + +### サポートされるエージェント + +| エージェント | パス | タイプ | +|------------|------|-------| +| **Claude Code** | `~/.claude/skills/` | グローバル | +| **Cursor** | `.cursor/skills/` | プロジェクト | +| **VS Code / Copilot** | `.github/skills/` | プロジェクト | +| **Amp** | `~/.amp/skills/` | グローバル | +| **Goose** | `~/.config/goose/skills/` | グローバル | +| **OpenCode** | `~/.opencode/skills/` | グローバル | +| **Windsurf** | `~/.windsurf/skills/` | グローバル | + +--- + +## 🔌 MCP 統合(27 ツール) + +Skill Seekers は Claude Code、Cursor、Windsurf、VS Code + Cline、IntelliJ IDEA で使用できる MCP サーバーを提供します。 + +```bash +# stdio モード(Claude Code、VS Code + Cline) +python -m skill_seekers.mcp.server_fastmcp + +# HTTP モード(Cursor、Windsurf、IntelliJ) +python -m skill_seekers.mcp.server_fastmcp --transport http --port 8765 + +# すべてのエージェントを一括自動設定 +./setup_mcp.sh +``` + +**全 27 ツール:** +- **コア(9):** `list_configs`、`generate_config`、`validate_config`、`estimate_pages`、`scrape_docs`、`package_skill`、`upload_skill`、`enhance_skill`、`install_skill` +- **拡張(11):** `scrape_github`、`scrape_pdf`、`scrape_generic`、`unified_scrape`、`merge_sources`、`detect_conflicts`、`add_config_source`、`fetch_config`、`list_config_sources`、`remove_config_source`、`split_config` +- **ベクトル DB(4):** `export_to_chroma`、`export_to_weaviate`、`export_to_faiss`、`export_to_qdrant` +- **クラウドストレージ(3):** `cloud_upload`、`cloud_download`、`cloud_list` + +> `scrape_generic` は 10 種類の新しいソースタイプをサポート:Jupyter Notebook、ローカル HTML、OpenAPI/Swagger 仕様、AsciiDoc ドキュメント、PowerPoint プレゼンテーション、RSS/Atom フィード、Man ページ、Confluence Wiki、Notion ページ、Slack/Discord チャットエクスポート。 + +**完全ガイド:** [docs/MCP_SETUP.md](docs/MCP_SETUP.md) + +--- + +## ⚙️ 設定 + +### 利用可能なプリセット(24 以上) + +```bash +# すべてのプリセットを一覧表示 +skill-seekers list-configs +``` + +| カテゴリ | プリセット | +|---------|----------| +| **Web フレームワーク** | `react`、`vue`、`angular`、`svelte`、`nextjs` | +| **Python** | `django`、`flask`、`fastapi`、`sqlalchemy`、`pytest` | +| **ゲーム開発** | `godot`、`pygame`、`unity` | +| **ツール & DevOps** | `docker`、`kubernetes`、`terraform`、`ansible` | +| **統合(ドキュメント + GitHub)** | `react-unified`、`vue-unified`、`nextjs-unified` など | + +### 独自の設定を作成 + +```bash +# オプション 1:対話式 +skill-seekers scrape --interactive + +# オプション 2:プリセットをコピーして編集 +cp configs/react.json configs/myframework.json +nano configs/myframework.json +skill-seekers scrape --config configs/myframework.json +``` + +### 設定ファイルの構造 + +```json +{ + "name": "myframework", + "description": "このスキルを使用するタイミング", + "base_url": "https://docs.myframework.com/", + "selectors": { + "main_content": "article", + "title": "h1", + "code_blocks": "pre code" + }, + "url_patterns": { + "include": ["/docs", "/guide"], + "exclude": ["/blog", "/about"] + }, + "categories": { + "getting_started": ["intro", "quickstart"], + "api": ["api", "reference"] + }, + "rate_limit": 0.5, + "max_pages": 500 +} +``` + +### 設定の保存場所 + +ツールは以下の順序で検索します: +1. 指定された正確なパス +2. `./configs/`(カレントディレクトリ) +3. `~/.config/skill-seekers/configs/`(ユーザー設定ディレクトリ) +4. SkillSeekersWeb.com API(プリセット設定) + +--- + +## 📊 作成されるもの + +``` +output/ +├── godot_data/ # スクレイプされた生データ +│ ├── pages/ # JSON ファイル(ページごとに 1 つ) +│ └── summary.json # 概要 +│ +└── godot/ # スキルファイル + ├── SKILL.md # 実際のサンプル付き強化版 + ├── references/ # カテゴリ分類されたドキュメント + │ ├── index.md + │ ├── getting_started.md + │ ├── scripting.md + │ └── ... + ├── scripts/ # 空(独自のスクリプトを追加可能) + └── assets/ # 空(独自のアセットを追加可能) +``` + +--- + +## 🐛 トラブルシューティング + +### コンテンツが抽出されない場合 +- `main_content` セレクタを確認してください +- 試してみてください:`article`、`main`、`div[role="main"]` + +### データはあるのに使用されない場合 +```bash +# 強制再スクレイプ +rm -rf output/myframework_data/ +skill-seekers scrape --config configs/myframework.json +``` + +### カテゴリ分類が不適切な場合 +設定の `categories` セクションをより適切なキーワードで編集してください。 + +### ドキュメントを更新したい場合 +```bash +# 古いデータを削除して再スクレイプ +rm -rf output/godot_data/ +skill-seekers scrape --config configs/godot.json +``` + +### 強化が動作しない場合 +```bash +# API キーが設定されているか確認 +echo $ANTHROPIC_API_KEY + +# LOCAL モードを試す(Claude Code Max を使用、API キー不要) +skill-seekers enhance output/react/ --mode LOCAL + +# バックグラウンド強化の状態を監視 +skill-seekers enhance-status output/react/ --watch +``` + +### GitHub レート制限の問題? +```bash +# GitHub トークンを設定(匿名 60 回/時間 → 5000 回/時間) +export GITHUB_TOKEN=ghp_your_token_here + +# または複数のプロファイルを設定 +skill-seekers config --github +``` + +--- + +## 📈 パフォーマンス + +| タスク | 時間 | 備考 | +|-------|------|------| +| スクレイピング(同期)| 15〜45 分 | 初回のみ、スレッドベース | +| スクレイピング(非同期)| 5〜15 分 | `--async` フラグで 2〜3 倍高速 | +| ビルド | 1〜3 分 | キャッシュからの高速リビルド | +| リビルド | 1 分未満 | `--skip-scrape` 使用時 | +| 強化(LOCAL)| 30〜60 秒 | Claude Code Max を使用 | +| 強化(API)| 20〜40 秒 | API キーが必要 | +| パッケージング | 5〜10 秒 | 最終 .zip の作成 | + +--- + +## 📚 ドキュメント + +### はじめに +- **[BULLETPROOF_QUICKSTART.md](BULLETPROOF_QUICKSTART.md)** - 🎯 **初めての方はこちらから!** +- **[QUICKSTART.md](QUICKSTART.md)** - 経験者向けクイックスタート +- **[TROUBLESHOOTING.md](TROUBLESHOOTING.md)** - よくある問題と解決策 +- **[docs/QUICK_REFERENCE.md](docs/QUICK_REFERENCE.md)** - 1 ページチートシート + +### ガイド +- **[docs/LARGE_DOCUMENTATION.md](docs/LARGE_DOCUMENTATION.md)** - 10K〜40K 以上のページの処理 +- **[ASYNC_SUPPORT.md](ASYNC_SUPPORT.md)** - 非同期モードガイド(2〜3 倍高速スクレイピング) +- **[docs/ENHANCEMENT_MODES.md](docs/ENHANCEMENT_MODES.md)** - AI 強化モードガイド +- **[docs/MCP_SETUP.md](docs/MCP_SETUP.md)** - MCP 統合セットアップ +- **[docs/UNIFIED_SCRAPING.md](docs/UNIFIED_SCRAPING.md)** - マルチソーススクレイピング +- **[docs/VIDEO_GUIDE.md](docs/VIDEO_GUIDE.md)** - 動画抽出完全ガイド + +### 統合ガイド +- **[docs/integrations/LANGCHAIN.md](docs/integrations/LANGCHAIN.md)** - LangChain RAG +- **[docs/integrations/CURSOR.md](docs/integrations/CURSOR.md)** - Cursor IDE +- **[docs/integrations/WINDSURF.md](docs/integrations/WINDSURF.md)** - Windsurf IDE +- **[docs/integrations/CLINE.md](docs/integrations/CLINE.md)** - Cline(VS Code) +- **[docs/integrations/RAG_PIPELINES.md](docs/integrations/RAG_PIPELINES.md)** - すべての RAG パイプライン + +--- + +## 📝 ライセンス + +MIT ライセンス - 詳細は [LICENSE](LICENSE) ファイルを参照してください + +--- + +スキル構築をお楽しみください! 🚀 diff --git a/README.ko.md b/README.ko.md new file mode 100644 index 0000000..ff523dd --- /dev/null +++ b/README.ko.md @@ -0,0 +1,1058 @@ +

+ Skill Seekers +

+ +# Skill Seekers + +[English](README.md) | [简体中文](README.zh-CN.md) | [日本語](README.ja.md) | 한국어 | [Español](README.es.md) | [Français](README.fr.md) | [Deutsch](README.de.md) | [Português](README.pt-BR.md) | [Türkçe](README.tr.md) | [العربية](README.ar.md) | [हिन्दी](README.hi.md) | [Русский](README.ru.md) + +> ⚠️ **기계 번역 안내** +> +> 이 문서는 AI에 의해 자동 번역되었습니다. 번역 품질 향상을 위해 노력하고 있으나 부정확한 표현이 포함될 수 있습니다. +> +> 번역 개선에 도움을 주시려면 [GitHub Issue #260](https://github.com/yusufkaraaslan/Skill_Seekers/issues/260)에 참여해 주세요! 여러분의 피드백은 매우 소중합니다. + +[![버전](https://img.shields.io/badge/version-3.2.0-blue.svg)](https://github.com/yusufkaraaslan/Skill_Seekers/releases) +[![라이선스: MIT](https://img.shields.io/badge/License-MIT-yellow.svg)](https://opensource.org/licenses/MIT) +[![Python 3.10+](https://img.shields.io/badge/python-3.10+-blue.svg)](https://www.python.org/downloads/) +[![MCP 통합](https://img.shields.io/badge/MCP-Integrated-blue.svg)](https://modelcontextprotocol.io) +[![테스트 통과](https://img.shields.io/badge/Tests-2540%2B%20Passing-brightgreen.svg)](tests/) +[![프로젝트 보드](https://img.shields.io/badge/Project-Board-purple.svg)](https://github.com/users/yusufkaraaslan/projects/2) +[![PyPI 버전](https://badge.fury.io/py/skill-seekers.svg)](https://pypi.org/project/skill-seekers/) +[![PyPI - 다운로드](https://img.shields.io/pypi/dm/skill-seekers.svg)](https://pypi.org/project/skill-seekers/) +[![PyPI - Python 버전](https://img.shields.io/pypi/pyversions/skill-seekers.svg)](https://pypi.org/project/skill-seekers/) +[![공식 웹사이트](https://img.shields.io/badge/Website-skillseekersweb.com-blue.svg)](https://skillseekersweb.com/) +[![Twitter 팔로우](https://img.shields.io/twitter/follow/_yUSyUS_?style=social)](https://x.com/_yUSyUS_) +[![GitHub Stars](https://img.shields.io/github/stars/yusufkaraaslan/Skill_Seekers?style=social)](https://github.com/yusufkaraaslan/Skill_Seekers) + +**🧠 AI 시스템을 위한 데이터 레이어.** Skill Seekers는 문서 사이트, GitHub 저장소, PDF, 동영상, Jupyter 노트북, 위키 등 17가지 이상의 소스 유형을 구조화된 지식 자산으로 변환합니다. 몇 분 만에 AI 스킬(Claude, Gemini, OpenAI), RAG 파이프라인(LangChain, LlamaIndex, Pinecone), AI 코딩 어시스턴트(Cursor, Windsurf, Cline)에 활용할 수 있습니다. + +> 🌐 **[SkillSeekersWeb.com 방문하기](https://skillseekersweb.com/)** - 24개 이상의 프리셋 설정을 둘러보고, 설정을 공유하고, 전체 문서에 접근하세요! + +> 📋 **[개발 로드맵 및 작업 보기](https://github.com/users/yusufkaraaslan/projects/2)** - 10개 카테고리에 걸친 134개 작업, 원하는 것을 선택하여 기여하세요! + +## 🧠 AI 시스템을 위한 데이터 레이어 + +**Skill Seekers는 범용 전처리 레이어**로, 원시 문서와 이를 활용하는 모든 AI 시스템 사이에 위치합니다. Claude 스킬을 구축하든, LangChain RAG 파이프라인을 만들든, Cursor `.cursorrules` 파일을 작성하든 — 데이터 준비 작업은 동일합니다. 한 번만 수행하면 모든 대상 플랫폼으로 내보낼 수 있습니다. + +```bash +# 한 줄 명령 → 구조화된 지식 자산 +skill-seekers create https://docs.react.dev/ +# 또는: skill-seekers create facebook/react +# 또는: skill-seekers create ./my-project + +# 모든 AI 시스템으로 내보내기 +skill-seekers package output/react --target claude # → Claude AI 스킬 (ZIP) +skill-seekers package output/react --target langchain # → LangChain Documents +skill-seekers package output/react --target llama-index # → LlamaIndex TextNodes +skill-seekers package output/react --target cursor # → .cursorrules +``` + +### 생성되는 출력물 + +| 출력 | 대상 | 활용 분야 | +|------|------|----------| +| **Claude 스킬** (ZIP + YAML) | `--target claude` | Claude Code, Claude API | +| **Gemini 스킬** (tar.gz) | `--target gemini` | Google Gemini | +| **OpenAI / Custom GPT** (ZIP) | `--target openai` | GPT-4o, 커스텀 어시스턴트 | +| **LangChain Documents** | `--target langchain` | QA 체인, 에이전트, 리트리버 | +| **LlamaIndex TextNodes** | `--target llama-index` | 쿼리 엔진, 대화 엔진 | +| **Haystack Documents** | `--target haystack` | 엔터프라이즈 RAG 파이프라인 | +| **Pinecone 준비 완료** (Markdown) | `--target markdown` | 벡터 업서트 | +| **ChromaDB / FAISS / Qdrant** | `--format chroma/faiss/qdrant` | 로컬 벡터 데이터베이스 | +| **Cursor** `.cursorrules` | `--target claude` → 복사 | Cursor IDE AI 컨텍스트 | +| **Windsurf / Cline / Continue** | `--target claude` → 복사 | VS Code, IntelliJ, Vim | + +### Skill Seekers를 선택해야 하는 이유 + +- ⚡ **99% 더 빠름** — 수일 간의 수동 데이터 준비 → 15–45분 +- 🎯 **AI 스킬 품질** — 예제, 패턴, 가이드를 포함한 500줄 이상의 SKILL.md 파일 +- 📊 **RAG 준비 완료 청킹** — 코드 블록을 보존하고 컨텍스트를 유지하는 스마트 청킹 +- 🎬 **동영상** — YouTube 및 로컬 동영상에서 코드, 자막, 구조화된 지식 추출 +- 🔄 **17가지 소스 유형** — 문서 + GitHub + PDF + 동영상 + 노트북 + 위키 등을 하나의 지식 자산으로 결합 +- 🌐 **한 번 준비, 모든 대상으로 내보내기** — 재스크래핑 없이 16개 플랫폼으로 내보내기 +- ✅ **실전 검증 완료** — 2,540+ 테스트, 24+ 프레임워크 프리셋, 프로덕션 준비 완료 + +## 빠른 시작 + +```bash +pip install skill-seekers + +# 모든 소스에서 AI 스킬 생성 +skill-seekers create https://docs.django.com/ # 문서 사이트 +skill-seekers create django/django # GitHub 저장소 +skill-seekers create ./my-codebase # 로컬 프로젝트 +skill-seekers create manual.pdf # PDF 파일 +skill-seekers create manual.docx # Word 문서 +skill-seekers create book.epub # EPUB 전자책 +skill-seekers create notebook.ipynb # Jupyter 노트북 +skill-seekers create page.html # 로컬 HTML +skill-seekers create api-spec.yaml # OpenAPI/Swagger 스펙 +skill-seekers create guide.adoc # AsciiDoc 문서 +skill-seekers create slides.pptx # PowerPoint 프레젠테이션 + +# 동영상 (YouTube, Vimeo 또는 로컬 파일 — skill-seekers[video] 필요) +skill-seekers video --url https://www.youtube.com/watch?v=... --name mytutorial +# 처음 사용하시나요? GPU 인식 시각 종속성 자동 설치: +skill-seekers video --setup + +# 용도별 내보내기 +skill-seekers package output/django --target claude # Claude AI 스킬 +skill-seekers package output/django --target langchain # LangChain RAG +skill-seekers package output/django --target cursor # Cursor IDE 컨텍스트 +``` + +**전체 예제:** +- [Claude AI 스킬](examples/claude-skill/) - Claude Code용 스킬 +- [LangChain RAG 파이프라인](examples/langchain-rag-pipeline/) - Chroma 기반 QA 체인 +- [Cursor IDE 컨텍스트](examples/cursor-react-skill/) - 프레임워크 인식 AI 코딩 + +## Skill Seekers란? + +Skill Seekers는 **AI 시스템을 위한 데이터 레이어**로, 17가지 소스 유형 — 문서 사이트, GitHub 저장소, PDF, 동영상, Jupyter 노트북, Word/EPUB/AsciiDoc 문서, OpenAPI/Swagger 스펙, PowerPoint 프레젠테이션, RSS/Atom 피드, Man 페이지, Confluence 위키, Notion 페이지, Slack/Discord 내보내기 등 — 을 모든 AI 대상에 적합한 구조화된 지식 자산으로 변환합니다: + +| 사용 사례 | 얻을 수 있는 것 | 예시 | +|----------|---------------|------| +| **AI 스킬** | 완전한 SKILL.md + 참조 파일 | Claude Code, Gemini, GPT | +| **RAG 파이프라인** | 풍부한 메타데이터를 포함한 청크 문서 | LangChain, LlamaIndex, Haystack | +| **벡터 데이터베이스** | 업서트 준비 완료된 사전 포맷 데이터 | Pinecone, Chroma, Weaviate, FAISS | +| **AI 코딩 어시스턴트** | IDE AI가 자동으로 읽는 컨텍스트 파일 | Cursor, Windsurf, Cline, Continue.dev | + +Skill Seekers는 수일간의 수동 전처리 작업을 대체합니다: + +1. **수집** — 문서, GitHub 저장소, 로컬 코드베이스, PDF, 동영상, Jupyter 노트북, 위키 등 17가지 이상의 소스 유형 +2. **분석** — 심층 AST 파싱, 패턴 감지, API 추출 +3. **구조화** — 메타데이터가 포함된 분류된 참조 파일 +4. **강화** — AI 기반 SKILL.md 생성 (Claude, Gemini 또는 로컬) +5. **내보내기** — 하나의 자산에서 16개 플랫폼 전용 형식으로 내보내기 + +## 왜 Skill Seekers를 사용해야 하나요? + +### AI 스킬 빌더를 위해 (Claude, Gemini, OpenAI) + +- 🎯 **프로덕션급 스킬** — 코드 예제, 패턴, 가이드를 포함한 500줄 이상의 SKILL.md 파일 +- 🔄 **강화 워크플로** — `security-focus`, `architecture-comprehensive` 또는 커스텀 YAML 프리셋 적용 +- 🎮 **모든 도메인** — 게임 엔진(Godot, Unity), 프레임워크(React, Django), 내부 도구 +- 🔧 **팀 협업** — 내부 문서 + 코드를 단일 진실 공급원으로 통합 +- 📚 **고품질** — 예제, 빠른 참조, 내비게이션 가이드를 포함한 AI 강화 + +### RAG 빌더 및 AI 엔지니어를 위해 + +- 🤖 **RAG 준비 완료 데이터** — 사전 청킹된 LangChain `Documents`, LlamaIndex `TextNodes`, Haystack `Documents` +- 🚀 **99% 더 빠름** — 수일간의 전처리 → 15–45분 +- 📊 **스마트 메타데이터** — 카테고리, 소스, 유형 → 더 높은 검색 정확도 +- 🔄 **다중 소스** — 하나의 파이프라인에서 문서 + GitHub + PDF 결합 +- 🌐 **플랫폼 독립적** — 재스크래핑 없이 모든 벡터 DB나 프레임워크로 내보내기 + +### AI 코딩 어시스턴트 사용자를 위해 + +- 💻 **Cursor / Windsurf / Cline** — `.cursorrules` / `.windsurfrules` / `.clinerules` 자동 생성 +- 🎯 **영구적 컨텍스트** — 반복 프롬프팅 없이 AI가 프레임워크를 "이해" +- 📚 **항상 최신** — 문서 변경 시 몇 분 만에 컨텍스트 업데이트 + +## 핵심 기능 + +### 🌐 문서 스크래핑 +- ✅ **llms.txt 지원** - LLM 준비 완료 문서 파일 자동 감지 및 사용 (10배 빠름) +- ✅ **범용 스크래퍼** - 모든 문서 사이트에서 작동 +- ✅ **스마트 분류** - 주제별 자동 콘텐츠 정리 +- ✅ **코드 언어 감지** - Python, JavaScript, C++, GDScript 등 인식 +- ✅ **24+ 즉시 사용 가능 프리셋** - Godot, React, Vue, Django, FastAPI 등 + +### 📄 PDF 지원 +- ✅ **기본 PDF 추출** - PDF에서 텍스트, 코드, 이미지 추출 +- ✅ **스캔 PDF OCR** - 스캔 문서에서 텍스트 추출 +- ✅ **비밀번호 보호 PDF** - 암호화된 PDF 처리 +- ✅ **표 추출** - 복잡한 표 추출 +- ✅ **병렬 처리** - 대용량 PDF 3배 빠른 처리 +- ✅ **지능형 캐싱** - 재실행 시 50% 빠름 + +### 🎬 동영상 추출 +- ✅ **YouTube 및 로컬 동영상** - 동영상에서 자막, 코드, 구조화된 지식 추출 +- ✅ **시각 프레임 분석** - 코드 편집기, 터미널, 슬라이드의 화면 OCR 추출 +- ✅ **GPU 자동 감지** - 올바른 PyTorch 빌드 자동 설치 (CUDA/ROCm/MPS/CPU) +- ✅ **AI 강화** - 2단계: OCR 정리 + 완성도 높은 SKILL.md 생성 +- ✅ **시간 클리핑** - `--start-time`과 `--end-time`으로 특정 구간 추출 +- ✅ **재생 목록 지원** - YouTube 재생 목록의 모든 동영상 일괄 처리 + +### 🐙 GitHub 저장소 분석 +- ✅ **심층 코드 분석** - Python, JavaScript, TypeScript, Java, C++, Go AST 파싱 +- ✅ **API 추출** - 함수, 클래스, 메서드의 매개변수 및 타입 +- ✅ **저장소 메타데이터** - README, 파일 트리, 언어 통계, 스타/포크 수 +- ✅ **GitHub Issues 및 PR** - 라벨과 마일스톤이 포함된 이슈 가져오기 +- ✅ **CHANGELOG 및 릴리스** - 버전 히스토리 자동 추출 +- ✅ **충돌 감지** - 문서화된 API와 실제 코드 구현 비교 +- ✅ **MCP 통합** - 자연어: "GitHub 저장소 facebook/react 스크래핑" + +### 🔄 통합 다중 소스 스크래핑 +- ✅ **다중 소스 결합** - 하나의 스킬에서 문서 + GitHub + PDF 혼합 +- ✅ **충돌 감지** - 문서와 코드 간의 불일치 자동 발견 +- ✅ **지능형 병합** - 규칙 기반 또는 AI 기반 충돌 해결 +- ✅ **투명한 보고** - ⚠️ 경고가 포함된 나란히 비교 +- ✅ **문서 갭 분석** - 오래된 문서와 미문서화 기능 식별 +- ✅ **단일 진실 공급원** - 의도(문서)와 현실(코드)을 동시에 보여주는 하나의 스킬 +- ✅ **하위 호환** - 레거시 단일 소스 설정 계속 작동 + +### 🤖 다중 LLM 플랫폼 지원 +- ✅ **4개 LLM 플랫폼** - Claude AI, Google Gemini, OpenAI ChatGPT, 범용 Markdown +- ✅ **범용 스크래핑** - 동일한 문서가 모든 플랫폼에 적용 +- ✅ **플랫폼별 패키징** - 각 LLM에 최적화된 형식 +- ✅ **원커맨드 내보내기** - `--target` 플래그로 플랫폼 선택 +- ✅ **선택적 종속성** - 필요한 것만 설치 +- ✅ **100% 하위 호환** - 기존 Claude 워크플로 변경 불필요 + +| 플랫폼 | 형식 | 업로드 | 강화 | API Key | 커스텀 엔드포인트 | +|--------|------|--------|------|---------|-----------------| +| **Claude AI** | ZIP + YAML | ✅ 자동 | ✅ 예 | ANTHROPIC_API_KEY | ANTHROPIC_BASE_URL | +| **Google Gemini** | tar.gz | ✅ 자동 | ✅ 예 | GOOGLE_API_KEY | - | +| **OpenAI ChatGPT** | ZIP + Vector Store | ✅ 자동 | ✅ 예 | OPENAI_API_KEY | - | +| **범용 Markdown** | ZIP | ❌ 수동 | ❌ 아니오 | - | - | + +```bash +# Claude (기본값 - 변경 불필요!) +skill-seekers package output/react/ +skill-seekers upload react.zip + +# Google Gemini +pip install skill-seekers[gemini] +skill-seekers package output/react/ --target gemini +skill-seekers upload react-gemini.tar.gz --target gemini + +# OpenAI ChatGPT +pip install skill-seekers[openai] +skill-seekers package output/react/ --target openai +skill-seekers upload react-openai.zip --target openai + +# 범용 Markdown (범용 내보내기) +skill-seekers package output/react/ --target markdown +``` + +
+🔧 Claude 호환 API 환경 변수 (예: GLM-4.7) + +Skill Seekers는 모든 Claude 호환 API 엔드포인트를 지원합니다: + +```bash +# 옵션 1: 공식 Anthropic API (기본값) +export ANTHROPIC_API_KEY=sk-ant-... + +# 옵션 2: GLM-4.7 Claude 호환 API +export ANTHROPIC_API_KEY=your-glm-47-api-key +export ANTHROPIC_BASE_URL=https://glm-4-7-endpoint.com/v1 + +# 모든 AI 강화 기능이 설정된 엔드포인트를 사용합니다 +skill-seekers enhance output/react/ +skill-seekers analyze --directory . --enhance +``` + +**참고**: `ANTHROPIC_BASE_URL`을 설정하면 GLM-4.7(智谱 AI) 또는 기타 호환 서비스와 같은 모든 Claude 호환 API 엔드포인트를 사용할 수 있습니다. + +
+ +**설치:** +```bash +# Gemini 지원 설치 +pip install skill-seekers[gemini] + +# OpenAI 지원 설치 +pip install skill-seekers[openai] + +# 모든 LLM 플랫폼 설치 +pip install skill-seekers[all-llms] +``` + +### 🔗 RAG 프레임워크 통합 + +- ✅ **LangChain Documents** - `page_content` + 메타데이터가 포함된 `Document` 형식으로 직접 내보내기 + - 적합: QA 체인, 리트리버, 벡터 스토어, 에이전트 + - 예제: [LangChain RAG 파이프라인](examples/langchain-rag-pipeline/) + - 가이드: [LangChain 통합](docs/integrations/LANGCHAIN.md) + +- ✅ **LlamaIndex TextNodes** - 고유 ID + 임베딩이 포함된 `TextNode` 형식으로 내보내기 + - 적합: 쿼리 엔진, 대화 엔진, 스토리지 컨텍스트 + - 예제: [LlamaIndex 쿼리 엔진](examples/llama-index-query-engine/) + - 가이드: [LlamaIndex 통합](docs/integrations/LLAMA_INDEX.md) + +- ✅ **Pinecone 준비 완료 형식** - 벡터 데이터베이스 업서트에 최적화 + - 적합: 프로덕션 벡터 검색, 시맨틱 검색, 하이브리드 검색 + - 예제: [Pinecone 업서트](examples/pinecone-upsert/) + - 가이드: [Pinecone 통합](docs/integrations/PINECONE.md) + +**빠른 내보내기:** +```bash +# LangChain Documents (JSON) +skill-seekers package output/django --target langchain +# → output/django-langchain.json + +# LlamaIndex TextNodes (JSON) +skill-seekers package output/django --target llama-index +# → output/django-llama-index.json + +# Markdown (범용) +skill-seekers package output/django --target markdown +# → output/django-markdown/SKILL.md + references/ +``` + +**전체 RAG 파이프라인 가이드:** [RAG 파이프라인 문서](docs/integrations/RAG_PIPELINES.md) + +--- + +### 🧠 AI 코딩 어시스턴트 통합 + +모든 프레임워크 문서를 4개 이상의 AI 어시스턴트를 위한 전문 코딩 컨텍스트로 변환합니다: + +- ✅ **Cursor IDE** - AI 기반 코드 제안을 위한 `.cursorrules` 생성 + - 적합: 프레임워크별 코드 생성, 일관된 코딩 패턴 + - 가이드: [Cursor 통합](docs/integrations/CURSOR.md) + - 예제: [Cursor React 스킬](examples/cursor-react-skill/) + +- ✅ **Windsurf** - `.windsurfrules`로 Windsurf AI 어시스턴트 컨텍스트 커스터마이징 + - 적합: IDE 네이티브 AI 지원, 플로우 기반 코딩 + - 가이드: [Windsurf 통합](docs/integrations/WINDSURF.md) + - 예제: [Windsurf FastAPI 컨텍스트](examples/windsurf-fastapi-context/) + +- ✅ **Cline (VS Code)** - VS Code 에이전트를 위한 시스템 프롬프트 + MCP + - 적합: VS Code에서의 에이전틱 코드 생성 + - 가이드: [Cline 통합](docs/integrations/CLINE.md) + - 예제: [Cline Django 어시스턴트](examples/cline-django-assistant/) + +- ✅ **Continue.dev** - IDE에 구애받지 않는 AI 컨텍스트 서버 + - 적합: 멀티 IDE 환경(VS Code, JetBrains, Vim), 커스텀 LLM 제공자 + - 가이드: [Continue 통합](docs/integrations/CONTINUE_DEV.md) + - 예제: [Continue 범용 컨텍스트](examples/continue-dev-universal/) + +**AI 코딩 도구를 위한 빠른 내보내기:** +```bash +# 모든 AI 코딩 어시스턴트에 적용 (Cursor, Windsurf, Cline, Continue.dev) +skill-seekers scrape --config configs/django.json +skill-seekers package output/django --target claude + +# 프로젝트에 복사 (Cursor 예시) +cp output/django-claude/SKILL.md my-project/.cursorrules + +# 또는 Windsurf용 +cp output/django-claude/SKILL.md my-project/.windsurf/rules/django.md + +# 또는 Cline용 +cp output/django-claude/SKILL.md my-project/.clinerules +``` + +**통합 허브:** [모든 AI 시스템 통합](docs/integrations/INTEGRATIONS.md) + +--- + +### 🌊 3-스트림 GitHub 아키텍처 +- ✅ **3-스트림 분석** - GitHub 저장소를 코드, 문서, 인사이트 스트림으로 분할 +- ✅ **통합 코드베이스 분석기** - GitHub URL과 로컬 경로 모두 지원 +- ✅ **C3.x 분석 깊이** - 'basic' (1–2분) 또는 'c3x' (20–60분) 분석 선택 +- ✅ **향상된 라우터 생성** - GitHub 메타데이터, README 빠른 시작, 자주 발생하는 문제 +- ✅ **Issue 통합** - GitHub Issues의 주요 문제 및 해결책 +- ✅ **스마트 라우팅 키워드** - GitHub 라벨 가중치 2배로 주제 감지 향상 + +**3-스트림 설명:** +- **스트림 1: 코드** - 심층 C3.x 분석 (패턴, 예제, 가이드, 설정, 아키텍처) +- **스트림 2: 문서** - 저장소 문서 (README, CONTRIBUTING, docs/*.md) +- **스트림 3: 인사이트** - 커뮤니티 지식 (Issues, 라벨, Stars, Forks) + +```python +from skill_seekers.cli.unified_codebase_analyzer import UnifiedCodebaseAnalyzer + +# 3-스트림으로 GitHub 저장소 분석 +analyzer = UnifiedCodebaseAnalyzer() +result = analyzer.analyze( + source="https://github.com/facebook/react", + depth="c3x", # 또는 "basic"으로 빠른 분석 + fetch_github_metadata=True +) + +print(f"디자인 패턴: {len(result.code_analysis['c3_1_patterns'])}") +print(f"Stars: {result.github_insights['metadata']['stars']}") +``` + +**전체 문서**: [3-스트림 구현 요약](docs/IMPLEMENTATION_SUMMARY_THREE_STREAM.md) + +### 🔐 스마트 속도 제한 관리 및 설정 +- ✅ **다중 토큰 설정 시스템** - 여러 GitHub 계정 관리 (개인, 업무, 오픈소스) + - `~/.config/skill-seekers/config.json`에 보안 설정 저장 (권한 600) + - 프로필별 속도 제한 전략: `prompt`, `wait`, `switch`, `fail` + - 스마트 폴백 체인: CLI 인자 → 환경 변수 → 설정 파일 → 프롬프트 +- ✅ **대화형 설정 마법사** - 아름다운 터미널 UI로 쉬운 설정 +- ✅ **지능형 속도 제한 핸들러** - 더 이상 무한 대기 없음! + - 실시간 카운트다운, 자동 프로필 전환 + - 4가지 전략: prompt (질문), wait (카운트다운), switch (전환), fail (중단) +- ✅ **중단점 재개** - 중단된 작업 계속하기 +- ✅ **CI/CD 지원** - 자동화를 위한 `--non-interactive` 플래그 + +**빠른 설정:** +```bash +# 일회성 설정 (5분) +skill-seekers config --github + +# 프라이빗 저장소에 특정 프로필 사용 +skill-seekers github --repo mycompany/private-repo --profile work + +# CI/CD 모드 (즉시 실패, 프롬프트 없음) +skill-seekers github --repo owner/repo --non-interactive +``` + +### 🎯 부트스트랩 스킬 - 셀프 호스팅 + +skill-seekers 자체를 Claude Code 스킬로 생성합니다: + +```bash +./scripts/bootstrap_skill.sh +cp -r output/skill-seekers ~/.claude/skills/ +``` + +### 🔐 프라이빗 설정 저장소 +- ✅ **Git 기반 설정 소스** - 프라이빗/팀 Git 저장소에서 설정 가져오기 +- ✅ **다중 소스 관리** - 무제한 GitHub, GitLab, Bitbucket 저장소 등록 +- ✅ **팀 협업** - 3–5인 팀 간 커스텀 설정 공유 +- ✅ **엔터프라이즈 지원** - 500명 이상의 개발자까지 확장 +- ✅ **보안 인증** - 환경 변수 토큰 (GITHUB_TOKEN, GITLAB_TOKEN) + +### 🤖 코드베이스 분석 (C3.x) + +**C3.4: 설정 패턴 추출 (AI 강화 포함)** +- ✅ **9가지 설정 형식** - JSON, YAML, TOML, ENV, INI, Python, JavaScript, Dockerfile, Docker Compose +- ✅ **7가지 패턴 유형** - 데이터베이스, API, 로깅, 캐시, 이메일, 인증, 서버 설정 +- ✅ **AI 강화** - 선택적 듀얼 모드 AI 분석 (API + LOCAL) +- ✅ **보안 분석** - 하드코딩된 시크릿과 노출된 자격 증명 탐지 + +**C3.3: AI 강화 사용 가이드** +- ✅ **종합 AI 강화** - 기본 가이드를 전문 튜토리얼로 변환 +- ✅ **5가지 자동 개선** - 단계 설명, 문제 해결, 전제 조건, 다음 단계, 사용 사례 +- ✅ **듀얼 모드 지원** - API 모드 (Claude API) 또는 LOCAL 모드 (Claude Code CLI) +- ✅ **LOCAL 모드 무료** - Claude Code Max 플랜으로 무료 강화 + +**사용법:** +```bash +# 빠른 분석 (1–2분, 기본 기능만) +skill-seekers analyze --directory tests/ --quick + +# 종합 분석 (AI 포함, 20–60분) +skill-seekers analyze --directory tests/ --comprehensive + +# AI 강화 포함 +skill-seekers analyze --directory tests/ --enhance +``` + +**전체 문서:** [docs/HOW_TO_GUIDES.md](docs/HOW_TO_GUIDES.md#ai-enhancement-new) + +### 🔄 강화 워크플로 프리셋 + +AI가 원시 문서를 세련된 스킬로 변환하는 방법을 제어하는 재사용 가능한 YAML 정의 강화 파이프라인입니다. + +- ✅ **5개 내장 프리셋** — `default`, `minimal`, `security-focus`, `architecture-comprehensive`, `api-documentation` +- ✅ **사용자 정의 프리셋** — `~/.config/skill-seekers/workflows/`에 커스텀 워크플로 추가 +- ✅ **다중 워크플로 체이닝** — 하나의 명령에서 두 개 이상의 워크플로 체이닝 +- ✅ **완전한 CLI 관리** — 목록, 조회, 복사, 추가, 삭제, 유효성 검사 + +```bash +# 단일 워크플로 적용 +skill-seekers create ./my-project --enhance-workflow security-focus + +# 다중 워크플로 체이닝 (순서대로 적용) +skill-seekers create ./my-project \ + --enhance-workflow security-focus \ + --enhance-workflow minimal + +# 프리셋 관리 +skill-seekers workflows list # 모든 항목 나열 (내장 + 사용자) +skill-seekers workflows show security-focus # YAML 내용 출력 +skill-seekers workflows copy security-focus # 편집을 위해 사용자 디렉터리에 복사 +skill-seekers workflows add ./my-workflow.yaml # 커스텀 프리셋 설치 +skill-seekers workflows remove my-workflow # 사용자 프리셋 삭제 +skill-seekers workflows validate security-focus # 프리셋 구조 유효성 검사 + +# 여러 개 동시 복사 +skill-seekers workflows copy security-focus minimal api-documentation + +# 여러 파일 동시 추가 +skill-seekers workflows add ./wf-a.yaml ./wf-b.yaml + +# 여러 개 동시 삭제 +skill-seekers workflows remove my-wf-a my-wf-b +``` + +**YAML 프리셋 형식:** +```yaml +name: security-focus +description: "보안 중심 검토: 취약점, 인증, 데이터 처리" +version: "1.0" +stages: + - name: vulnerabilities + type: custom + prompt: "OWASP Top 10 및 일반적인 보안 취약점 검토..." + - name: auth-review + type: custom + prompt: "인증 및 권한 부여 패턴 검사..." + uses_history: true +``` + +### ⚡ 성능 및 확장성 +- ✅ **비동기 모드** - async/await로 2–3배 빠른 스크래핑 (`--async` 플래그 사용) +- ✅ **대규모 문서 지원** - 지능형 분할로 10K–40K+ 페이지 문서 처리 +- ✅ **라우터/허브 스킬** - 전문 서브 스킬로의 지능형 라우팅 +- ✅ **병렬 스크래핑** - 여러 스킬 동시 처리 +- ✅ **체크포인트/재개** - 장시간 스크래핑에서 진행 상황 손실 방지 +- ✅ **캐싱 시스템** - 한 번 스크래핑, 즉시 재구축 + +### ✅ 품질 보증 +- ✅ **완전한 테스트** - 2,540+ 테스트, 포괄적 커버리지 + +--- + +## 📦 설치 + +```bash +# 기본 설치 (문서 스크래핑, GitHub 분석, PDF, 패키징) +pip install skill-seekers + +# 모든 LLM 플랫폼 지원 포함 +pip install skill-seekers[all-llms] + +# MCP 서버 포함 +pip install skill-seekers[mcp] + +# 전체 기능 +pip install skill-seekers[all] +``` + +**선택에 도움이 필요하신가요?** 설정 마법사를 실행하세요: +```bash +skill-seekers-setup +``` + +### 설치 옵션 + +| 설치 명령 | 기능 | +|----------|------| +| `pip install skill-seekers` | 스크래핑, GitHub 분석, PDF, 모든 플랫폼 | +| `pip install skill-seekers[gemini]` | + Google Gemini 지원 | +| `pip install skill-seekers[openai]` | + OpenAI ChatGPT 지원 | +| `pip install skill-seekers[all-llms]` | + 모든 LLM 플랫폼 | +| `pip install skill-seekers[mcp]` | + MCP 서버 | +| `pip install skill-seekers[video]` | + YouTube/Vimeo 자막 및 메타데이터 추출 | +| `pip install skill-seekers[video-full]` | + Whisper 전사 및 시각 프레임 추출 | +| `pip install skill-seekers[jupyter]` | + Jupyter 노트북 지원 | +| `pip install skill-seekers[pptx]` | + PowerPoint 지원 | +| `pip install skill-seekers[confluence]` | + Confluence 위키 지원 | +| `pip install skill-seekers[notion]` | + Notion 페이지 지원 | +| `pip install skill-seekers[rss]` | + RSS/Atom 피드 지원 | +| `pip install skill-seekers[chat]` | + Slack/Discord 채팅 내보내기 지원 | +| `pip install skill-seekers[asciidoc]` | + AsciiDoc 문서 지원 | +| `pip install skill-seekers[all]` | 모든 기능 활성화 | + +> **동영상 시각 종속성 (GPU 인식):** `skill-seekers[video-full]` 설치 후, +> `skill-seekers video --setup`을 실행하여 GPU를 자동 감지하고 올바른 PyTorch +> 빌드 + easyocr을 설치하세요. 이것이 시각 추출 종속성 설치의 권장 방법입니다. + +--- + +## 🚀 원커맨드 설치 워크플로 + +**설정에서 업로드된 스킬까지 가장 빠른 방법 — 완전 자동화:** + +```bash +# 공식 설정에서 React 스킬 설치 (Claude에 자동 업로드) +skill-seekers install --config react + +# 로컬 설정 파일에서 설치 +skill-seekers install --config configs/custom.json + +# 업로드 없이 설치 (패키징만) +skill-seekers install --config django --no-upload + +# 실행 없이 워크플로 미리보기 +skill-seekers install --config react --dry-run +``` + +**실행 단계:** +``` +📥 단계 1: 설정 가져오기 (설정 이름이 제공된 경우) +📖 단계 2: 문서 스크래핑 +✨ 단계 3: AI 강화 +📦 단계 4: 스킬 패키징 +☁️ 단계 5: Claude에 업로드 (선택사항, API Key 필요) +``` + +--- + +## 📊 기능 매트릭스 + +Skill Seekers는 **4개 LLM 플랫폼**, **17가지 소스 유형**을 지원하며 모든 대상에서 완전한 기능 동등성을 제공합니다. + +**플랫폼:** Claude AI, Google Gemini, OpenAI ChatGPT, 범용 Markdown +**소스 유형:** 문서 사이트, GitHub 저장소, PDF, Word (.docx), EPUB, 동영상, 로컬 코드베이스, Jupyter 노트북, 로컬 HTML, OpenAPI/Swagger, AsciiDoc, PowerPoint (.pptx), RSS/Atom 피드, Man 페이지, Confluence 위키, Notion 페이지, Slack/Discord 채팅 내보내기 + +전체 내용은 [전체 기능 매트릭스](docs/FEATURE_MATRIX.md)를 참조하세요. + +### 빠른 플랫폼 비교 + +| 기능 | Claude | Gemini | OpenAI | Markdown | +|------|--------|--------|--------|----------| +| 형식 | ZIP + YAML | tar.gz | ZIP + Vector | ZIP | +| 업로드 | ✅ API | ✅ API | ✅ API | ❌ 수동 | +| 강화 | ✅ Sonnet 4 | ✅ 2.0 Flash | ✅ GPT-4o | ❌ 없음 | +| 모든 스킬 모드 | ✅ | ✅ | ✅ | ✅ | + +--- + +## 사용 예제 + +### 문서 스크래핑 + +```bash +# 문서 사이트 스크래핑 +skill-seekers scrape --config configs/react.json + +# 설정 없이 빠른 스크래핑 +skill-seekers scrape --url https://react.dev --name react + +# 비동기 모드 (3배 빠름) +skill-seekers scrape --config configs/godot.json --async --workers 8 +``` + +### PDF 추출 + +```bash +# 기본 PDF 추출 +skill-seekers pdf --pdf docs/manual.pdf --name myskill + +# 고급 기능 +skill-seekers pdf --pdf docs/manual.pdf --name myskill \ + --extract-tables \ # 표 추출 + --parallel \ # 빠른 병렬 처리 + --workers 8 # 8개 CPU 코어 사용 + +# 스캔 PDF (필요: pip install pytesseract Pillow) +skill-seekers pdf --pdf docs/scanned.pdf --name myskill --ocr +``` + +### 동영상 추출 + +```bash +# 동영상 지원 설치 +pip install skill-seekers[video] # 자막 + 메타데이터 +pip install skill-seekers[video-full] # + Whisper 전사 + 시각 프레임 추출 + +# GPU 자동 감지 및 시각 종속성 설치 (PyTorch + easyocr) +skill-seekers video --setup + +# YouTube 동영상에서 추출 +skill-seekers video --url https://www.youtube.com/watch?v=dQw4w9WgXcQ --name mytutorial + +# YouTube 재생 목록에서 추출 +skill-seekers video --playlist https://www.youtube.com/playlist?list=... --name myplaylist + +# 로컬 동영상 파일에서 추출 +skill-seekers video --video-file recording.mp4 --name myrecording + +# 시각 프레임 분석으로 추출 (video-full 종속성 필요) +skill-seekers video --url https://www.youtube.com/watch?v=... --name mytutorial --visual + +# AI 강화 적용 (OCR 정리 + 완성도 높은 SKILL.md 생성) +skill-seekers video --url https://www.youtube.com/watch?v=... --visual --enhance-level 2 + +# 동영상의 특정 구간 클리핑 (초, MM:SS, HH:MM:SS 형식 지원) +skill-seekers video --url https://www.youtube.com/watch?v=... --start-time 1:30 --end-time 5:00 + +# 낮은 신뢰도 OCR 프레임에 Vision API 사용 (ANTHROPIC_API_KEY 필요) +skill-seekers video --url https://www.youtube.com/watch?v=... --visual --vision-ocr + +# 이전에 추출된 데이터에서 스킬 재구축 (다운로드 건너뛰기) +skill-seekers video --from-json output/mytutorial/video_data/extracted_data.json --name mytutorial +``` + +> **전체 가이드:** [docs/VIDEO_GUIDE.md](docs/VIDEO_GUIDE.md)에서 전체 CLI 레퍼런스, +> 시각 파이프라인 상세 정보, AI 강화 옵션, 문제 해결을 확인하세요. + +### GitHub 저장소 분석 + +```bash +# 기본 저장소 스크래핑 +skill-seekers github --repo facebook/react + +# 인증 설정 (더 높은 속도 제한) +export GITHUB_TOKEN=ghp_your_token_here +skill-seekers github --repo facebook/react + +# 포함 내용 커스터마이징 +skill-seekers github --repo django/django \ + --include-issues \ # GitHub Issues 추출 + --max-issues 100 \ # Issue 수 제한 + --include-changelog # CHANGELOG.md 추출 +``` + +### 통합 다중 소스 스크래핑 + +**문서 + GitHub + PDF를 충돌 감지가 포함된 하나의 통합 스킬로 결합:** + +```bash +# 기존 통합 설정 사용 +skill-seekers unified --config configs/react_unified.json + +# 또는 통합 설정 생성 +cat > configs/myframework_unified.json << 'EOF' +{ + "name": "myframework", + "merge_mode": "rule-based", + "sources": [ + { + "type": "documentation", + "base_url": "https://docs.myframework.com/", + "max_pages": 200 + }, + { + "type": "github", + "repo": "owner/myframework", + "code_analysis_depth": "surface" + } + ] +} +EOF + +skill-seekers unified --config configs/myframework_unified.json +``` + +**충돌 감지가 자동으로 발견하는 항목:** +- 🔴 **코드에 누락** (높음): 문서화되었으나 미구현 +- 🟡 **문서에 누락** (중간): 구현되었으나 미문서화 +- ⚠️ **시그니처 불일치**: 매개변수/타입 차이 +- ℹ️ **설명 불일치**: 설명 차이 + +**전체 가이드:** [docs/UNIFIED_SCRAPING.md](docs/UNIFIED_SCRAPING.md) 참조. + +### 프라이빗 설정 저장소 + +**프라이빗 Git 저장소를 사용하여 팀 간 커스텀 설정 공유:** + +```bash +# MCP 도구로 팀 프라이빗 저장소 등록 +add_config_source( + name="team", + git_url="https://github.com/mycompany/skill-configs.git", + token_env="GITHUB_TOKEN" +) + +# 팀 저장소에서 설정 가져오기 +fetch_config(source="team", config_name="internal-api") +``` + +**지원 플랫폼:** +- GitHub (`GITHUB_TOKEN`), GitLab (`GITLAB_TOKEN`), Gitea (`GITEA_TOKEN`), Bitbucket (`BITBUCKET_TOKEN`) + +**전체 가이드:** [docs/GIT_CONFIG_SOURCES.md](docs/GIT_CONFIG_SOURCES.md) 참조. + +## 작동 원리 + +```mermaid +graph LR + A[문서 사이트] --> B[Skill Seekers] + B --> C[스크래퍼] + B --> D[AI 강화] + B --> E[패키저] + C --> F[정리된 참조 파일] + D --> F + F --> E + E --> G[Claude 스킬 .zip] + G --> H[Claude AI에 업로드] +``` + +0. **llms.txt 감지** - llms-full.txt, llms.txt, llms-small.txt를 우선 확인 +1. **스크래핑**: 문서의 모든 페이지 추출 +2. **분류**: 콘텐츠를 주제별로 정리 (API, 가이드, 튜토리얼 등) +3. **강화**: AI가 문서를 분석하고 예제가 포함된 종합적인 SKILL.md 생성 +4. **패키징**: 모든 내용을 Claude 준비 완료된 `.zip` 파일로 번들링 + +## 📋 사전 요구 사항 + +**시작하기 전에 다음 사항을 확인하세요:** + +1. **Python 3.10 이상** - [다운로드](https://www.python.org/downloads/) | 확인: `python3 --version` +2. **Git** - [다운로드](https://git-scm.com/) | 확인: `git --version` +3. **15–30분** (최초 설정 시간) + +**처음 사용하시나요?** → **[여기에서 시작: 확실한 빠른 시작 가이드](BULLETPROOF_QUICKSTART.md)** 🎯 + +--- + +## 📤 Claude에 스킬 업로드 + +스킬이 패키징된 후, Claude에 업로드해야 합니다: + +### 옵션 1: 자동 업로드 (API 기반) + +```bash +# API Key 설정 (일회성) +export ANTHROPIC_API_KEY=sk-ant-... + +# 패키징 후 자동 업로드 +skill-seekers package output/react/ --upload + +# 또는 기존 .zip 업로드 +skill-seekers upload output/react.zip +``` + +### 옵션 2: 수동 업로드 (API Key 불필요) + +```bash +# 스킬 패키징 +skill-seekers package output/react/ +# → output/react.zip 생성 + +# 그런 다음 수동으로 업로드: +# - https://claude.ai/skills 방문 +# - "스킬 업로드" 클릭 +# - output/react.zip 선택 +``` + +### 옵션 3: MCP (Claude Code) + +``` +Claude Code에서 직접 요청: +"React 스킬을 패키징하고 업로드해 줘" +``` + +--- + +## 🤖 AI 에이전트에 설치 + +Skill Seekers는 10개 이상의 AI 코딩 에이전트에 스킬을 자동으로 설치할 수 있습니다. + +```bash +# 특정 에이전트에 설치 +skill-seekers install-agent output/react/ --agent cursor + +# 모든 에이전트에 한 번에 설치 +skill-seekers install-agent output/react/ --agent all + +# 설치 없이 미리보기 +skill-seekers install-agent output/react/ --agent cursor --dry-run +``` + +### 지원되는 에이전트 + +| 에이전트 | 경로 | 유형 | +|---------|------|------| +| **Claude Code** | `~/.claude/skills/` | 전역 | +| **Cursor** | `.cursor/skills/` | 프로젝트 | +| **VS Code / Copilot** | `.github/skills/` | 프로젝트 | +| **Amp** | `~/.amp/skills/` | 전역 | +| **Goose** | `~/.config/goose/skills/` | 전역 | +| **OpenCode** | `~/.opencode/skills/` | 전역 | +| **Windsurf** | `~/.windsurf/skills/` | 전역 | + +--- + +## 🔌 MCP 통합 (26개 도구) + +Skill Seekers는 Claude Code, Cursor, Windsurf, VS Code + Cline 또는 IntelliJ IDEA에서 사용할 수 있는 MCP 서버를 제공합니다. + +```bash +# stdio 모드 (Claude Code, VS Code + Cline) +python -m skill_seekers.mcp.server_fastmcp + +# HTTP 모드 (Cursor, Windsurf, IntelliJ) +python -m skill_seekers.mcp.server_fastmcp --transport http --port 8765 + +# 모든 에이전트 일괄 자동 설정 +./setup_mcp.sh +``` + +**전체 26개 도구:** +- **핵심 (9개):** `list_configs`, `generate_config`, `validate_config`, `estimate_pages`, `scrape_docs`, `package_skill`, `upload_skill`, `enhance_skill`, `install_skill` +- **확장 (10개):** `scrape_github`, `scrape_pdf`, `unified_scrape`, `merge_sources`, `detect_conflicts`, `add_config_source`, `fetch_config`, `list_config_sources`, `remove_config_source`, `split_config` +- **벡터 DB (4개):** `export_to_chroma`, `export_to_weaviate`, `export_to_faiss`, `export_to_qdrant` +- **클라우드 (3개):** `cloud_upload`, `cloud_download`, `cloud_list` + +**전체 가이드:** [docs/MCP_SETUP.md](docs/MCP_SETUP.md) + +--- + +## ⚙️ 설정 + +### 사용 가능한 프리셋 (24+) + +```bash +# 모든 프리셋 나열 +skill-seekers list-configs +``` + +| 카테고리 | 프리셋 | +|---------|--------| +| **웹 프레임워크** | `react`, `vue`, `angular`, `svelte`, `nextjs` | +| **Python** | `django`, `flask`, `fastapi`, `sqlalchemy`, `pytest` | +| **게임 개발** | `godot`, `pygame`, `unity` | +| **도구 및 DevOps** | `docker`, `kubernetes`, `terraform`, `ansible` | +| **통합 (문서 + GitHub)** | `react-unified`, `vue-unified`, `nextjs-unified` 등 | + +### 나만의 설정 만들기 + +```bash +# 옵션 1: 대화형 +skill-seekers scrape --interactive + +# 옵션 2: 프리셋 복사 후 편집 +cp configs/react.json configs/myframework.json +nano configs/myframework.json +skill-seekers scrape --config configs/myframework.json +``` + +### 설정 파일 구조 + +```json +{ + "name": "myframework", + "description": "이 스킬을 사용할 시점", + "base_url": "https://docs.myframework.com/", + "selectors": { + "main_content": "article", + "title": "h1", + "code_blocks": "pre code" + }, + "url_patterns": { + "include": ["/docs", "/guide"], + "exclude": ["/blog", "/about"] + }, + "categories": { + "getting_started": ["intro", "quickstart"], + "api": ["api", "reference"] + }, + "rate_limit": 0.5, + "max_pages": 500 +} +``` + +### 설정 저장 위치 + +도구는 다음 순서로 검색합니다: +1. 제공된 정확한 경로 +2. `./configs/` (현재 디렉터리) +3. `~/.config/skill-seekers/configs/` (사용자 설정 디렉터리) +4. SkillSeekersWeb.com API (프리셋 설정) + +--- + +## 📊 생성되는 내용 + +``` +output/ +├── godot_data/ # 스크래핑된 원시 데이터 +│ ├── pages/ # JSON 파일 (페이지당 하나) +│ └── summary.json # 개요 +│ +└── godot/ # 스킬 파일 + ├── SKILL.md # 실제 예제가 포함된 강화 버전 + ├── references/ # 분류된 문서 + │ ├── index.md + │ ├── getting_started.md + │ ├── scripting.md + │ └── ... + ├── scripts/ # 비어 있음 (직접 추가 가능) + └── assets/ # 비어 있음 (직접 추가 가능) +``` + +--- + +## 🐛 문제 해결 + +### 콘텐츠가 추출되지 않나요? +- `main_content` 선택자를 확인하세요 +- 시도해 보세요: `article`, `main`, `div[role="main"]` + +### 데이터가 있는데 사용되지 않나요? +```bash +# 강제 재스크래핑 +rm -rf output/myframework_data/ +skill-seekers scrape --config configs/myframework.json +``` + +### 분류가 적절하지 않나요? +설정의 `categories` 섹션을 더 적합한 키워드로 편집하세요. + +### 문서를 업데이트하고 싶으신가요? +```bash +# 이전 데이터 삭제 후 재스크래핑 +rm -rf output/godot_data/ +skill-seekers scrape --config configs/godot.json +``` + +### 강화가 작동하지 않나요? +```bash +# API Key가 설정되어 있는지 확인 +echo $ANTHROPIC_API_KEY + +# LOCAL 모드 시도 (Claude Code Max 사용, API Key 불필요) +skill-seekers enhance output/react/ --mode LOCAL + +# 백그라운드 강화 상태 모니터링 +skill-seekers enhance-status output/react/ --watch +``` + +### GitHub 속도 제한 문제? +```bash +# GitHub 토큰 설정 (시간당 5000회 vs 익명 60회) +export GITHUB_TOKEN=ghp_your_token_here + +# 또는 여러 프로필 설정 +skill-seekers config --github +``` + +--- + +## 📈 성능 + +| 작업 | 시간 | 참고 | +|------|------|------| +| 스크래핑 (동기) | 15–45분 | 최초 실행만, 스레드 기반 | +| 스크래핑 (비동기) | 5–15분 | `--async` 플래그로 2–3배 빠름 | +| 빌드 | 1–3분 | 캐시에서 빠른 재구축 | +| 재구축 | <1분 | `--skip-scrape` 사용 | +| 강화 (LOCAL) | 30–60초 | Claude Code Max 사용 | +| 강화 (API) | 20–40초 | API Key 필요 | +| 동영상 (자막) | 1–3분 | YouTube/로컬, 자막만 | +| 동영상 (시각) | 5–15분 | + OCR 프레임 추출 | +| 패키징 | 5–10초 | 최종 .zip 생성 | + +--- + +## 📚 문서 + +### 시작 가이드 +- **[BULLETPROOF_QUICKSTART.md](BULLETPROOF_QUICKSTART.md)** - 🎯 **신규 사용자는 여기에서 시작!** +- **[QUICKSTART.md](QUICKSTART.md)** - 경험 있는 사용자를 위한 빠른 시작 +- **[TROUBLESHOOTING.md](TROUBLESHOOTING.md)** - 일반적인 문제와 해결 방법 +- **[docs/QUICK_REFERENCE.md](docs/QUICK_REFERENCE.md)** - 한 페이지 치트 시트 + +### 가이드 +- **[docs/LARGE_DOCUMENTATION.md](docs/LARGE_DOCUMENTATION.md)** - 10K–40K+ 페이지 문서 처리 +- **[ASYNC_SUPPORT.md](ASYNC_SUPPORT.md)** - 비동기 모드 가이드 (2–3배 빠른 스크래핑) +- **[docs/ENHANCEMENT_MODES.md](docs/ENHANCEMENT_MODES.md)** - AI 강화 모드 가이드 +- **[docs/MCP_SETUP.md](docs/MCP_SETUP.md)** - MCP 통합 설정 +- **[docs/UNIFIED_SCRAPING.md](docs/UNIFIED_SCRAPING.md)** - 다중 소스 스크래핑 +- **[docs/VIDEO_GUIDE.md](docs/VIDEO_GUIDE.md)** - 동영상 추출 전체 가이드 + +### 통합 가이드 +- **[docs/integrations/LANGCHAIN.md](docs/integrations/LANGCHAIN.md)** - LangChain RAG +- **[docs/integrations/CURSOR.md](docs/integrations/CURSOR.md)** - Cursor IDE +- **[docs/integrations/WINDSURF.md](docs/integrations/WINDSURF.md)** - Windsurf IDE +- **[docs/integrations/CLINE.md](docs/integrations/CLINE.md)** - Cline (VS Code) +- **[docs/integrations/RAG_PIPELINES.md](docs/integrations/RAG_PIPELINES.md)** - 모든 RAG 파이프라인 + +--- + +## 📝 라이선스 + +MIT 라이선스 - 자세한 내용은 [LICENSE](LICENSE) 파일을 참조하세요 + +--- + +즐거운 스킬 빌딩 되세요! 🚀 + +--- + +## 🔒 보안 + +[![MseeP.ai 보안 평가 배지](https://mseep.net/pr/yusufkaraaslan-skill-seekers-badge.png)](https://mseep.ai/app/yusufkaraaslan-skill-seekers) diff --git a/README.md b/README.md index b8f59d6..14299c5 100644 --- a/README.md +++ b/README.md @@ -4,7 +4,7 @@ # Skill Seekers -English | [简体中文](https://github.com/yusufkaraaslan/Skill_Seekers/blob/main/README.zh-CN.md) +English | [简体中文](README.zh-CN.md) | [日本語](README.ja.md) | [한국어](README.ko.md) | [Español](README.es.md) | [Français](README.fr.md) | [Deutsch](README.de.md) | [Português](README.pt-BR.md) | [Türkçe](README.tr.md) | [العربية](README.ar.md) | [हिन्दी](README.hi.md) | [Русский](README.ru.md) [![Version](https://img.shields.io/badge/version-3.2.0-blue.svg)](https://github.com/yusufkaraaslan/Skill_Seekers/releases) [![License: MIT](https://img.shields.io/badge/License-MIT-yellow.svg)](https://opensource.org/licenses/MIT) diff --git a/README.pt-BR.md b/README.pt-BR.md new file mode 100644 index 0000000..b9ed56d --- /dev/null +++ b/README.pt-BR.md @@ -0,0 +1,1168 @@ +

+ Skill Seekers +

+ +# Skill Seekers + +[English](README.md) | [简体中文](README.zh-CN.md) | [日本語](README.ja.md) | [한국어](README.ko.md) | [Español](README.es.md) | [Français](README.fr.md) | [Deutsch](README.de.md) | Português | [Türkçe](README.tr.md) | [العربية](README.ar.md) | [हिन्दी](README.hi.md) | [Русский](README.ru.md) + +> ⚠️ **Aviso de tradução automática** +> +> Este documento foi traduzido automaticamente por IA. Embora nos esforcemos para garantir a qualidade, podem existir expressões imprecisas. +> +> Ajude a melhorar a tradução através do [GitHub Issue #260](https://github.com/yusufkaraaslan/Skill_Seekers/issues/260)! Seu feedback é muito valioso para nós. + +[![Versão](https://img.shields.io/badge/version-3.2.0-blue.svg)](https://github.com/yusufkaraaslan/Skill_Seekers/releases) +[![Licença: MIT](https://img.shields.io/badge/License-MIT-yellow.svg)](https://opensource.org/licenses/MIT) +[![Python 3.10+](https://img.shields.io/badge/python-3.10+-blue.svg)](https://www.python.org/downloads/) +[![Integração MCP](https://img.shields.io/badge/MCP-Integrated-blue.svg)](https://modelcontextprotocol.io) +[![Testes Aprovados](https://img.shields.io/badge/Tests-2540%2B%20Passing-brightgreen.svg)](tests/) +[![Quadro do Projeto](https://img.shields.io/badge/Project-Board-purple.svg)](https://github.com/users/yusufkaraaslan/projects/2) +[![Versão PyPI](https://badge.fury.io/py/skill-seekers.svg)](https://pypi.org/project/skill-seekers/) +[![PyPI - Downloads](https://img.shields.io/pypi/dm/skill-seekers.svg)](https://pypi.org/project/skill-seekers/) +[![PyPI - Versão Python](https://img.shields.io/pypi/pyversions/skill-seekers.svg)](https://pypi.org/project/skill-seekers/) +[![Site Oficial](https://img.shields.io/badge/Website-skillseekersweb.com-blue.svg)](https://skillseekersweb.com/) +[![Seguir no Twitter](https://img.shields.io/twitter/follow/_yUSyUS_?style=social)](https://x.com/_yUSyUS_) +[![GitHub Stars](https://img.shields.io/github/stars/yusufkaraaslan/Skill_Seekers?style=social)](https://github.com/yusufkaraaslan/Skill_Seekers) + +**🧠 A camada de dados para sistemas de IA.** O Skill Seekers transforma sites de documentação, repositórios GitHub, PDFs, vídeos, Jupyter Notebooks, wikis e mais de 17 tipos de fontes em ativos de conhecimento estruturado — prontos para alimentar AI Skills (Claude, Gemini, OpenAI), pipelines RAG (LangChain, LlamaIndex, Pinecone) e assistentes de programação com IA (Cursor, Windsurf, Cline) em minutos, não horas. + +> 🌐 **[Visite SkillSeekersWeb.com](https://skillseekersweb.com/)** - Navegue por mais de 24 configurações predefinidas, compartilhe suas configurações e acesse a documentação completa! + +> 📋 **[Veja o Roteiro de Desenvolvimento e Tarefas](https://github.com/users/yusufkaraaslan/projects/2)** - 134 tarefas em 10 categorias, escolha qualquer uma para contribuir! + +## 🧠 A Camada de Dados para Sistemas de IA + +**Skill Seekers é a camada universal de pré-processamento** que fica entre a documentação bruta e todo sistema de IA que a consome. Seja para construir Claude Skills, um pipeline RAG com LangChain ou um arquivo `.cursorrules` para o Cursor — a preparação dos dados é idêntica. Faça uma vez e exporte para todos os destinos. + +```bash +# Um comando → ativo de conhecimento estruturado +skill-seekers create https://docs.react.dev/ +# ou: skill-seekers create facebook/react +# ou: skill-seekers create ./my-project + +# Exporte para qualquer sistema de IA +skill-seekers package output/react --target claude # → Claude AI Skill (ZIP) +skill-seekers package output/react --target langchain # → LangChain Documents +skill-seekers package output/react --target llama-index # → LlamaIndex TextNodes +skill-seekers package output/react --target cursor # → .cursorrules +``` + +### O que é gerado + +| Saída | Destino | Para que serve | +|-------|---------|----------------| +| **Claude Skill** (ZIP + YAML) | `--target claude` | Claude Code, Claude API | +| **Gemini Skill** (tar.gz) | `--target gemini` | Google Gemini | +| **OpenAI / Custom GPT** (ZIP) | `--target openai` | GPT-4o, assistentes personalizados | +| **LangChain Documents** | `--target langchain` | Cadeias de QA, agentes, recuperadores | +| **LlamaIndex TextNodes** | `--target llama-index` | Motores de consulta, motores de chat | +| **Haystack Documents** | `--target haystack` | Pipelines RAG empresariais | +| **Pinecone-ready** (Markdown) | `--target markdown` | Upload de vetores | +| **ChromaDB / FAISS / Qdrant** | `--format chroma/faiss/qdrant` | Bancos de dados vetoriais locais | +| **Cursor** `.cursorrules` | `--target claude` → copiar | Contexto de IA do Cursor IDE | +| **Windsurf / Cline / Continue** | `--target claude` → copiar | VS Code, IntelliJ, Vim | + +### Por que isso importa + +- ⚡ **99% mais rápido** — Dias de preparação manual de dados → 15–45 minutos +- 🎯 **Qualidade de AI Skill** — Arquivos SKILL.md com mais de 500 linhas com exemplos, padrões e guias +- 📊 **Chunks prontos para RAG** — Chunking inteligente que preserva blocos de código e mantém o contexto +- 🎬 **Vídeos** — Extraia código, transcrições e conhecimento estruturado do YouTube e vídeos locais +- 🔄 **Multi-fonte** — Combine 17 tipos de fontes (docs, GitHub, PDFs, vídeos, notebooks, wikis e mais) em um único ativo de conhecimento +- 🌐 **Uma preparação, todos os destinos** — Exporte o mesmo ativo para 16 plataformas sem precisar recoletá-lo +- ✅ **Testado em batalha** — Mais de 2.540 testes, mais de 24 presets de frameworks, pronto para produção + +## 🚀 Início Rápido (3 Comandos) + +```bash +# 1. Instalar +pip install skill-seekers + +# 2. Criar skill a partir de qualquer fonte +skill-seekers create https://docs.django.com/ + +# 3. Empacotar para sua plataforma de IA +skill-seekers package output/django --target claude +``` + +**Pronto!** Agora você tem `output/django-claude.zip` pronto para usar. + +### Outras Fontes (17 Suportadas) + +```bash +# Repositório GitHub +skill-seekers create facebook/react + +# Projeto local +skill-seekers create ./my-project + +# Documento PDF +skill-seekers create manual.pdf + +# Documento Word +skill-seekers create report.docx + +# E-book EPUB +skill-seekers create book.epub + +# Jupyter Notebook +skill-seekers create notebook.ipynb + +# Especificação OpenAPI +skill-seekers create openapi.yaml + +# Apresentação PowerPoint +skill-seekers create presentation.pptx + +# Documento AsciiDoc +skill-seekers create guide.adoc + +# Arquivo HTML local +skill-seekers create page.html + +# Feed RSS/Atom +skill-seekers create feed.rss + +# Man page +skill-seekers create curl.1 + +# Vídeo (YouTube, Vimeo ou arquivo local — requer skill-seekers[video]) +skill-seekers video --url https://www.youtube.com/watch?v=... --name mytutorial +# Primeira vez? Instale automaticamente as dependências visuais com detecção de GPU: +skill-seekers video --setup + +# Wiki Confluence +skill-seekers confluence --space TEAM --name wiki + +# Páginas Notion +skill-seekers notion --database-id ... --name docs + +# Exportação de chat Slack/Discord +skill-seekers chat --export-dir ./slack-export --name team-chat +``` + +### Exporte para Qualquer Lugar + +```bash +# Empacote para múltiplas plataformas +for platform in claude gemini openai langchain; do + skill-seekers package output/django --target $platform +done +``` + +## O que é o Skill Seekers? + +O Skill Seekers é a **camada de dados para sistemas de IA**. Ele transforma 17 tipos de fontes — sites de documentação, repositórios GitHub, PDFs, vídeos, Jupyter Notebooks, documentos Word/EPUB/AsciiDoc, especificações OpenAPI, apresentações PowerPoint, feeds RSS, man pages, wikis Confluence, páginas Notion, exportações Slack/Discord e mais — em ativos de conhecimento estruturado para qualquer destino de IA: + +| Caso de Uso | O que você obtém | Exemplos | +|-------------|-----------------|----------| +| **AI Skills** | SKILL.md abrangente + referências | Claude Code, Gemini, GPT | +| **Pipelines RAG** | Documentos fragmentados com metadados ricos | LangChain, LlamaIndex, Haystack | +| **Bancos de Dados Vetoriais** | Dados pré-formatados prontos para upload | Pinecone, Chroma, Weaviate, FAISS | +| **Assistentes de Programação com IA** | Arquivos de contexto que sua IDE lê automaticamente | Cursor, Windsurf, Cline, Continue.dev | + +O Skill Seekers substitui dias de pré-processamento manual com os seguintes passos: + +1. **Coleta** — Docs, repositórios GitHub, bases de código locais, PDFs, vídeos, Jupyter Notebooks, wikis e mais de 17 tipos de fontes +2. **Análise** — Parsing AST profundo, detecção de padrões, extração de APIs +3. **Estruturação** — Arquivos de referência categorizados com metadados +4. **Aprimoramento** — Geração de SKILL.md com IA (Claude, Gemini ou local) +5. **Exportação** — 16 formatos específicos por plataforma a partir de um único ativo + +## Por que Usar o Skill Seekers? + +### Para Construtores de AI Skills (Claude, Gemini, OpenAI) + +- 🎯 **Skills de nível de produção** — Arquivos SKILL.md com mais de 500 linhas com exemplos de código, padrões e guias +- 🔄 **Workflows de aprimoramento** — Aplique `security-focus`, `architecture-comprehensive` ou presets YAML personalizados +- 🎮 **Qualquer domínio** — Motores de jogos (Godot, Unity), frameworks (React, Django), ferramentas internas +- 🔧 **Equipes** — Combine documentação interna + código em uma única fonte da verdade +- 📚 **Qualidade** — Aprimorado por IA com exemplos, referência rápida e orientação de navegação + +### Para Construtores de RAG e Engenheiros de IA + +- 🤖 **Dados prontos para RAG** — `Documents` LangChain, `TextNodes` LlamaIndex, `Documents` Haystack pré-fragmentados +- 🚀 **99% mais rápido** — Dias de pré-processamento → 15–45 minutos +- 📊 **Metadados inteligentes** — Categorias, fontes, tipos → melhor precisão de recuperação +- 🔄 **Multi-fonte** — Combine docs + GitHub + PDFs + vídeos em um pipeline +- 🌐 **Agnóstico de plataforma** — Exporte para qualquer banco vetorial ou framework sem recoleta + +### Para Usuários de Assistentes de Programação com IA + +- 💻 **Cursor / Windsurf / Cline** — Gere `.cursorrules` / `.windsurfrules` / `.clinerules` automaticamente +- 🎯 **Contexto persistente** — A IA "conhece" seus frameworks sem prompts repetidos +- 📚 **Sempre atualizado** — Atualize o contexto em minutos quando a documentação mudar + +## Funcionalidades Principais + +### 🌐 Coleta de Documentação +- ✅ **Suporte a llms.txt** - Detecta e usa automaticamente arquivos de documentação prontos para LLM (10x mais rápido) +- ✅ **Scraper Universal** - Funciona com QUALQUER site de documentação +- ✅ **Categorização Inteligente** - Organiza conteúdo automaticamente por tópico +- ✅ **Detecção de Linguagem de Código** - Reconhece Python, JavaScript, C++, GDScript, etc. +- ✅ **Mais de 24 Presets Prontos** - Godot, React, Vue, Django, FastAPI e mais + +### 📄 Suporte a PDF +- ✅ **Extração Básica de PDF** - Extraia texto, código e imagens de arquivos PDF +- ✅ **OCR para PDFs Digitalizados** - Extraia texto de documentos digitalizados +- ✅ **PDFs Protegidos por Senha** - Processe PDFs criptografados +- ✅ **Extração de Tabelas** - Extraia tabelas complexas de PDFs +- ✅ **Processamento Paralelo** - 3x mais rápido para PDFs grandes +- ✅ **Cache Inteligente** - 50% mais rápido em re-execuções + +### 🎬 Extração de Vídeo +- ✅ **YouTube e Vídeos Locais** - Extraia transcrições, código na tela e conhecimento estruturado de vídeos +- ✅ **Análise Visual de Frames** - Extração OCR de editores de código, terminais, slides e diagramas +- ✅ **Detecção Automática de GPU** - Instala automaticamente a versão correta do PyTorch (CUDA/ROCm/MPS/CPU) +- ✅ **Aprimoramento com IA** - Dois passes: limpeza de artefatos OCR + geração de SKILL.md polido +- ✅ **Recorte Temporal** - Extraia seções específicas com `--start-time` e `--end-time` +- ✅ **Suporte a Playlists** - Processe em lote todos os vídeos de uma playlist do YouTube +- ✅ **Fallback com Vision API** - Use Claude Vision para frames OCR de baixa confiança + +### 🐙 Análise de Repositórios GitHub +- ✅ **Análise Profunda de Código** - Parsing AST para Python, JavaScript, TypeScript, Java, C++, Go +- ✅ **Extração de API** - Funções, classes, métodos com parâmetros e tipos +- ✅ **Metadados do Repositório** - README, árvore de arquivos, distribuição de linguagens, stars/forks +- ✅ **GitHub Issues e PRs** - Obtenha issues abertas/fechadas com labels e milestones +- ✅ **CHANGELOG e Releases** - Extração automática do histórico de versões +- ✅ **Detecção de Conflitos** - Compare APIs documentadas vs implementação real do código +- ✅ **Integração MCP** - Linguagem natural: "Colete o repositório GitHub facebook/react" + +### 🔄 Coleta Unificada Multi-Fonte +- ✅ **Combine Múltiplas Fontes** - Misture documentação + GitHub + PDF em uma skill +- ✅ **Detecção de Conflitos** - Encontra automaticamente discrepâncias entre docs e código +- ✅ **Mesclagem Inteligente** - Resolução de conflitos baseada em regras ou com IA +- ✅ **Relatórios Transparentes** - Comparação lado a lado com avisos ⚠️ +- ✅ **Análise de Lacunas na Documentação** - Identifica docs desatualizadas e funcionalidades não documentadas +- ✅ **Fonte Única da Verdade** - Uma skill mostrando tanto a intenção (docs) quanto a realidade (código) +- ✅ **Retrocompatível** - Configurações legadas de fonte única continuam funcionando + +### 🤖 Suporte a Múltiplas Plataformas LLM +- ✅ **4 Plataformas LLM** - Claude AI, Google Gemini, OpenAI ChatGPT, Markdown Genérico +- ✅ **Coleta Universal** - A mesma documentação funciona para todas as plataformas +- ✅ **Empacotamento Específico por Plataforma** - Formatos otimizados para cada LLM +- ✅ **Exportação com Um Comando** - Flag `--target` seleciona a plataforma +- ✅ **Dependências Opcionais** - Instale apenas o que precisa +- ✅ **100% Retrocompatível** - Workflows existentes do Claude permanecem inalterados + +| Plataforma | Formato | Upload | Aprimoramento | API Key | Endpoint Personalizado | +|------------|---------|--------|---------------|---------|----------------------| +| **Claude AI** | ZIP + YAML | ✅ Automático | ✅ Sim | ANTHROPIC_API_KEY | ANTHROPIC_BASE_URL | +| **Google Gemini** | tar.gz | ✅ Automático | ✅ Sim | GOOGLE_API_KEY | - | +| **OpenAI ChatGPT** | ZIP + Vector Store | ✅ Automático | ✅ Sim | OPENAI_API_KEY | - | +| **Markdown Genérico** | ZIP | ❌ Manual | ❌ Não | - | - | + +```bash +# Claude (padrão - sem alterações necessárias!) +skill-seekers package output/react/ +skill-seekers upload react.zip + +# Google Gemini +pip install skill-seekers[gemini] +skill-seekers package output/react/ --target gemini +skill-seekers upload react-gemini.tar.gz --target gemini + +# OpenAI ChatGPT +pip install skill-seekers[openai] +skill-seekers package output/react/ --target openai +skill-seekers upload react-openai.zip --target openai + +# Markdown Genérico (exportação universal) +skill-seekers package output/react/ --target markdown +# Use os arquivos markdown diretamente em qualquer LLM +``` + +
+🔧 Variáveis de Ambiente para APIs Compatíveis com Claude (ex.: GLM-4.7) + +O Skill Seekers suporta qualquer endpoint de API compatível com Claude: + +```bash +# Opção 1: API oficial da Anthropic (padrão) +export ANTHROPIC_API_KEY=sk-ant-... + +# Opção 2: API compatível com Claude GLM-4.7 +export ANTHROPIC_API_KEY=your-glm-47-api-key +export ANTHROPIC_BASE_URL=https://glm-4-7-endpoint.com/v1 + +# Todas as funcionalidades de aprimoramento com IA usarão o endpoint configurado +skill-seekers enhance output/react/ +skill-seekers analyze --directory . --enhance +``` + +**Nota**: Configurar `ANTHROPIC_BASE_URL` permite que você use qualquer endpoint de API compatível com Claude, como GLM-4.7 ou outros serviços compatíveis. + +
+ +**Instalação:** +```bash +# Instalar com suporte ao Gemini +pip install skill-seekers[gemini] + +# Instalar com suporte ao OpenAI +pip install skill-seekers[openai] + +# Instalar com todas as plataformas LLM +pip install skill-seekers[all-llms] +``` + +### 🔗 Integrações com Frameworks RAG + +- ✅ **LangChain Documents** - Exportação direta para formato `Document` com `page_content` + metadados + - Ideal para: Cadeias de QA, recuperadores, armazenamentos vetoriais, agentes + - Exemplo: [Pipeline RAG LangChain](examples/langchain-rag-pipeline/) + - Guia: [Integração LangChain](docs/integrations/LANGCHAIN.md) + +- ✅ **LlamaIndex TextNodes** - Exportação para formato `TextNode` com IDs únicos + embeddings + - Ideal para: Motores de consulta, motores de chat, contexto de armazenamento + - Exemplo: [Motor de Consulta LlamaIndex](examples/llama-index-query-engine/) + - Guia: [Integração LlamaIndex](docs/integrations/LLAMA_INDEX.md) + +- ✅ **Formato Pinecone-Ready** - Otimizado para upload em bancos de dados vetoriais + - Ideal para: Busca vetorial em produção, busca semântica, busca híbrida + - Exemplo: [Upload Pinecone](examples/pinecone-upsert/) + - Guia: [Integração Pinecone](docs/integrations/PINECONE.md) + +**Exportação Rápida:** +```bash +# LangChain Documents (JSON) +skill-seekers package output/django --target langchain +# → output/django-langchain.json + +# LlamaIndex TextNodes (JSON) +skill-seekers package output/django --target llama-index +# → output/django-llama-index.json + +# Markdown (Universal) +skill-seekers package output/django --target markdown +# → output/django-markdown/SKILL.md + references/ +``` + +**Guia Completo de Pipeline RAG:** [Documentação de Pipelines RAG](docs/integrations/RAG_PIPELINES.md) + +--- + +### 🧠 Integrações com Assistentes de Programação com IA + +Transforme qualquer documentação de framework em contexto especializado de programação para mais de 4 assistentes de IA: + +- ✅ **Cursor IDE** - Gere `.cursorrules` para sugestões de código com IA + - Ideal para: Geração de código específica de framework, padrões consistentes + - Funciona com: Cursor IDE (fork do VS Code) + - Guia: [Integração Cursor](docs/integrations/CURSOR.md) + - Exemplo: [Cursor React Skill](examples/cursor-react-skill/) + +- ✅ **Windsurf** - Personalize o contexto do assistente de IA do Windsurf com `.windsurfrules` + - Ideal para: Assistência de IA nativa na IDE, programação baseada em fluxo + - Funciona com: Windsurf IDE da Codeium + - Guia: [Integração Windsurf](docs/integrations/WINDSURF.md) + - Exemplo: [Contexto FastAPI Windsurf](examples/windsurf-fastapi-context/) + +- ✅ **Cline (VS Code)** - Prompts de sistema + MCP para agente VS Code + - Ideal para: Geração de código agentiva no VS Code + - Funciona com: Extensão Cline para VS Code + - Guia: [Integração Cline](docs/integrations/CLINE.md) + - Exemplo: [Assistente Django Cline](examples/cline-django-assistant/) + +- ✅ **Continue.dev** - Servidores de contexto para IA agnóstica de IDE + - Ideal para: Ambientes multi-IDE (VS Code, JetBrains, Vim), provedores de LLM personalizados + - Funciona com: Qualquer IDE com plugin Continue.dev + - Guia: [Integração Continue](docs/integrations/CONTINUE_DEV.md) + - Exemplo: [Contexto Universal Continue](examples/continue-dev-universal/) + +**Exportação Rápida para Ferramentas de Programação com IA:** +```bash +# Para qualquer assistente de programação com IA (Cursor, Windsurf, Cline, Continue.dev) +skill-seekers scrape --config configs/django.json +skill-seekers package output/django --target claude # ou --target markdown + +# Copie para seu projeto (exemplo para Cursor) +cp output/django-claude/SKILL.md my-project/.cursorrules + +# Ou para Windsurf +cp output/django-claude/SKILL.md my-project/.windsurf/rules/django.md + +# Ou para Cline +cp output/django-claude/SKILL.md my-project/.clinerules + +# Ou para Continue.dev (servidor HTTP) +python examples/continue-dev-universal/context_server.py +# Configure em ~/.continue/config.json +``` + +**Hub de Integrações:** [Todas as Integrações com Sistemas de IA](docs/integrations/INTEGRATIONS.md) + +--- + +### 🌊 Arquitetura GitHub de Três Fluxos +- ✅ **Análise em Três Fluxos** - Divide repositórios GitHub em fluxos de Código, Docs e Insights +- ✅ **Analisador de Codebase Unificado** - Funciona com URLs do GitHub E caminhos locais +- ✅ **C3.x como Profundidade de Análise** - Escolha 'basic' (1-2 min) ou 'c3x' (20-60 min) +- ✅ **Geração Aprimorada de Router** - Metadados do GitHub, quick start do README, problemas comuns +- ✅ **Integração de Issues** - Principais problemas e soluções dos GitHub Issues +- ✅ **Keywords de Roteamento Inteligente** - Labels do GitHub com peso 2x para melhor detecção de tópicos + +**Explicação dos Três Fluxos:** +- **Fluxo 1: Código** - Análise profunda C3.x (padrões, exemplos, guias, configs, arquitetura) +- **Fluxo 2: Docs** - Documentação do repositório (README, CONTRIBUTING, docs/*.md) +- **Fluxo 3: Insights** - Conhecimento da comunidade (issues, labels, stars, forks) + +```python +from skill_seekers.cli.unified_codebase_analyzer import UnifiedCodebaseAnalyzer + +# Analise repositório GitHub com os três fluxos +analyzer = UnifiedCodebaseAnalyzer() +result = analyzer.analyze( + source="https://github.com/facebook/react", + depth="c3x", # ou "basic" para análise rápida + fetch_github_metadata=True +) + +# Acesse o fluxo de código (análise C3.x) +print(f"Padrões de design: {len(result.code_analysis['c3_1_patterns'])}") +print(f"Exemplos de teste: {result.code_analysis['c3_2_examples_count']}") + +# Acesse o fluxo de docs (documentação do repositório) +print(f"README: {result.github_docs['readme'][:100]}") + +# Acesse o fluxo de insights (metadados do GitHub) +print(f"Stars: {result.github_insights['metadata']['stars']}") +print(f"Problemas comuns: {len(result.github_insights['common_problems'])}") +``` + +**Documentação completa**: [Resumo da Implementação de Três Fluxos](docs/IMPLEMENTATION_SUMMARY_THREE_STREAM.md) + +### 🔐 Gerenciamento Inteligente de Rate Limit e Configuração +- ✅ **Sistema de Configuração Multi-Token** - Gerencie múltiplas contas GitHub (pessoal, trabalho, OSS) + - Armazenamento seguro de configurações em `~/.config/skill-seekers/config.json` (permissões 600) + - Estratégias de rate limit por perfil: `prompt`, `wait`, `switch`, `fail` + - Timeout configurável por perfil (padrão: 30 min, evita esperas indefinidas) + - Cadeia de fallback inteligente: Argumento CLI → Variável de ambiente → Arquivo de configuração → Prompt + - Gerenciamento de API keys para Claude, Gemini, OpenAI +- ✅ **Assistente de Configuração Interativo** - Interface de terminal elegante para fácil configuração + - Integração com navegador para criação de tokens (abre automaticamente GitHub, etc.) + - Validação de tokens e teste de conexão + - Exibição visual de status com código de cores +- ✅ **Gerenciador Inteligente de Rate Limit** - Chega de esperas indefinidas! + - Aviso prévio sobre rate limits (60/hora vs 5000/hora) + - Detecção em tempo real das respostas da API do GitHub + - Contadores regressivos ao vivo com progresso + - Troca automática de perfil quando limitado + - Quatro estratégias: prompt (perguntar), wait (contagem regressiva), switch (tentar outro), fail (abortar) +- ✅ **Capacidade de Retomada** - Continue trabalhos interrompidos + - Salvamento automático de progresso em intervalos configuráveis (padrão: 60 seg) + - Liste todos os trabalhos retomáveis com detalhes de progresso + - Limpeza automática de trabalhos antigos (padrão: 7 dias) +- ✅ **Suporte CI/CD** - Modo não interativo para automação + - Flag `--non-interactive` falha rapidamente sem prompts + - Flag `--profile` para selecionar conta GitHub específica + - Mensagens de erro claras para logs de pipeline + +**Configuração Rápida:** +```bash +# Configuração única (5 minutos) +skill-seekers config --github + +# Use perfil específico para repos privados +skill-seekers github --repo mycompany/private-repo --profile work + +# Modo CI/CD (falha rápida, sem prompts) +skill-seekers github --repo owner/repo --non-interactive + +# Retomar trabalho interrompido +skill-seekers resume --list +skill-seekers resume github_react_20260117_143022 +``` + +**Estratégias de Rate Limit Explicadas:** +- **prompt** (padrão) - Pergunta o que fazer quando limitado (esperar, trocar, configurar token, cancelar) +- **wait** - Espera automaticamente com contador regressivo (respeita timeout) +- **switch** - Tenta automaticamente o próximo perfil disponível (para configurações multi-conta) +- **fail** - Falha imediatamente com erro claro (ideal para CI/CD) + +### 🎯 Bootstrap Skill - Auto-Hospedagem + +Gere o skill-seekers como uma Claude Code Skill para uso dentro do Claude: + +```bash +# Gere a skill +./scripts/bootstrap_skill.sh + +# Instale no Claude Code +cp -r output/skill-seekers ~/.claude/skills/ +``` + +**O que você obtém:** +- ✅ **Documentação completa da skill** - Todos os comandos CLI e padrões de uso +- ✅ **Referência de comandos CLI** - Cada ferramenta e suas opções documentadas +- ✅ **Exemplos de início rápido** - Workflows comuns e melhores práticas +- ✅ **Documentação de API auto-gerada** - Análise de código, padrões e exemplos + +### 🔐 Repositórios Privados de Configuração +- ✅ **Fontes de Config Baseadas em Git** - Busque configs de repositórios Git privados/de equipe +- ✅ **Gerenciamento Multi-Fonte** - Registre repositórios ilimitados do GitHub, GitLab, Bitbucket +- ✅ **Colaboração em Equipe** - Compartilhe configs personalizadas entre equipes de 3-5 pessoas +- ✅ **Suporte Empresarial** - Escale para mais de 500 desenvolvedores com resolução baseada em prioridade +- ✅ **Autenticação Segura** - Tokens em variáveis de ambiente (GITHUB_TOKEN, GITLAB_TOKEN) +- ✅ **Cache Inteligente** - Clone uma vez, receba atualizações automaticamente +- ✅ **Modo Offline** - Trabalhe com configs em cache quando estiver offline + +### 🤖 Análise de Codebase (C3.x) + +**C3.4: Extração de Padrões de Configuração com Aprimoramento por IA** +- ✅ **9 Formatos de Config** - JSON, YAML, TOML, ENV, INI, Python, JavaScript, Dockerfile, Docker Compose +- ✅ **7 Tipos de Padrão** - Banco de dados, API, logging, cache, e-mail, autenticação, configurações de servidor +- ✅ **Aprimoramento por IA** - Análise de IA opcional em modo duplo (API + LOCAL) + - Explica o que cada config faz + - Sugere melhores práticas e melhorias + - **Análise de segurança** - Encontra segredos hardcoded, credenciais expostas +- ✅ **Auto-Documentação** - Gera documentação JSON + Markdown de todas as configs +- ✅ **Integração MCP** - Ferramenta `extract_config_patterns` com suporte a aprimoramento + +**C3.3: Guias How-To Aprimorados por IA** +- ✅ **Aprimoramento Abrangente por IA** - Transforma guias básicos em tutoriais profissionais +- ✅ **5 Melhorias Automáticas** - Descrições de etapas, troubleshooting, pré-requisitos, próximos passos, casos de uso +- ✅ **Suporte Dual-Mode** - Modo API (Claude API) ou modo LOCAL (Claude Code CLI) +- ✅ **Sem Custo com Modo LOCAL** - Aprimoramento GRATUITO usando seu plano Claude Code Max +- ✅ **Transformação de Qualidade** - Templates de 75 linhas → guias abrangentes de mais de 500 linhas + +**Uso:** +```bash +# Análise rápida (1-2 min, apenas funcionalidades básicas) +skill-seekers analyze --directory tests/ --quick + +# Análise abrangente com IA (20-60 min, todas as funcionalidades) +skill-seekers analyze --directory tests/ --comprehensive + +# Com aprimoramento por IA +skill-seekers analyze --directory tests/ --enhance +``` + +**Documentação Completa:** [docs/HOW_TO_GUIDES.md](docs/HOW_TO_GUIDES.md#ai-enhancement-new) + +### 🔄 Presets de Workflow de Aprimoramento + +Pipelines de aprimoramento reutilizáveis definidos em YAML que controlam como a IA transforma sua documentação bruta em uma skill polida. + +- ✅ **5 Presets Incluídos** — `default`, `minimal`, `security-focus`, `architecture-comprehensive`, `api-documentation` +- ✅ **Presets Definidos pelo Usuário** — Adicione workflows personalizados em `~/.config/skill-seekers/workflows/` +- ✅ **Múltiplos Workflows** — Encadeie dois ou mais workflows em um comando +- ✅ **CLI Totalmente Gerenciada** — Liste, inspecione, copie, adicione, remova e valide workflows + +```bash +# Aplique um único workflow +skill-seekers create ./my-project --enhance-workflow security-focus + +# Encadeie múltiplos workflows (aplicados em ordem) +skill-seekers create ./my-project \ + --enhance-workflow security-focus \ + --enhance-workflow minimal + +# Gerencie presets +skill-seekers workflows list # Liste todos (incluídos + usuário) +skill-seekers workflows show security-focus # Exiba conteúdo YAML +skill-seekers workflows copy security-focus # Copie para diretório do usuário para edição +skill-seekers workflows add ./my-workflow.yaml # Instale um preset personalizado +skill-seekers workflows remove my-workflow # Remova um preset do usuário +skill-seekers workflows validate security-focus # Valide a estrutura do preset + +# Copie múltiplos de uma vez +skill-seekers workflows copy security-focus minimal api-documentation + +# Adicione múltiplos arquivos de uma vez +skill-seekers workflows add ./wf-a.yaml ./wf-b.yaml + +# Remova múltiplos de uma vez +skill-seekers workflows remove my-wf-a my-wf-b +``` + +**Formato de preset YAML:** +```yaml +name: security-focus +description: "Revisão focada em segurança: vulnerabilidades, autenticação, tratamento de dados" +version: "1.0" +stages: + - name: vulnerabilities + type: custom + prompt: "Revise vulnerabilidades OWASP top 10 e vulnerabilidades de segurança comuns..." + - name: auth-review + type: custom + prompt: "Examine padrões de autenticação e autorização..." + uses_history: true +``` + +### ⚡ Performance e Escalabilidade +- ✅ **Modo Assíncrono** - Coleta 2-3x mais rápida com async/await (use a flag `--async`) +- ✅ **Suporte a Documentações Grandes** - Processe docs de 10K-40K+ páginas com divisão inteligente +- ✅ **Skills Router/Hub** - Roteamento inteligente para sub-skills especializadas +- ✅ **Coleta Paralela** - Processe múltiplas skills simultaneamente +- ✅ **Checkpoint/Retomada** - Nunca perca progresso em coletas longas +- ✅ **Sistema de Cache** - Colete uma vez, reconstrua instantaneamente + +### ✅ Garantia de Qualidade +- ✅ **Totalmente Testado** - Mais de 2.540 testes com cobertura abrangente + +--- + +## 📦 Instalação + +```bash +# Instalação básica (coleta de documentação, análise GitHub, PDF, empacotamento) +pip install skill-seekers + +# Com suporte a todas as plataformas LLM +pip install skill-seekers[all-llms] + +# Com servidor MCP +pip install skill-seekers[mcp] + +# Tudo incluído +pip install skill-seekers[all] +``` + +**Precisa de ajuda para escolher?** Execute o assistente de configuração: +```bash +skill-seekers-setup +``` + +### Opções de Instalação + +| Instalação | Funcionalidades | +|-----------|----------------| +| `pip install skill-seekers` | Coleta, análise GitHub, PDF, todas as plataformas | +| `pip install skill-seekers[gemini]` | + Suporte ao Google Gemini | +| `pip install skill-seekers[openai]` | + Suporte ao OpenAI ChatGPT | +| `pip install skill-seekers[all-llms]` | + Todas as plataformas LLM | +| `pip install skill-seekers[mcp]` | + Servidor MCP para Claude Code, Cursor, etc. | +| `pip install skill-seekers[video]` | + Extração de transcrições e metadados do YouTube/Vimeo | +| `pip install skill-seekers[video-full]` | + Transcrição Whisper e extração visual de frames | +| `pip install skill-seekers[jupyter]` | + Suporte a Jupyter Notebook | +| `pip install skill-seekers[pptx]` | + Suporte a PowerPoint | +| `pip install skill-seekers[confluence]` | + Suporte a wiki Confluence | +| `pip install skill-seekers[notion]` | + Suporte a páginas Notion | +| `pip install skill-seekers[rss]` | + Suporte a feeds RSS/Atom | +| `pip install skill-seekers[chat]` | + Suporte a exportação de chat Slack/Discord | +| `pip install skill-seekers[asciidoc]` | + Suporte a documentos AsciiDoc | +| `pip install skill-seekers[all]` | Tudo habilitado | + +> **Dependências visuais de vídeo (detecção de GPU):** Após instalar `skill-seekers[video-full]`, execute +> `skill-seekers video --setup` para detectar automaticamente sua GPU e instalar a variante +> correta do PyTorch + easyocr. Esta é a forma recomendada de instalar as dependências de extração visual. + +--- + +## 🚀 Workflow de Instalação com Um Comando + +**A forma mais rápida de ir da configuração à skill enviada — automação completa:** + +```bash +# Instale a skill React a partir das configs oficiais (upload automático para o Claude) +skill-seekers install --config react + +# Instale a partir de arquivo de configuração local +skill-seekers install --config configs/custom.json + +# Instale sem fazer upload (apenas empacotar) +skill-seekers install --config django --no-upload + +# Visualize o workflow sem executar +skill-seekers install --config react --dry-run +``` + +**Tempo:** 20-45 minutos no total | **Qualidade:** Pronto para produção (9/10) | **Custo:** Gratuito + +**Fases executadas:** +``` +📥 FASE 1: Buscar Configuração (se nome da config for fornecido) +📖 FASE 2: Coletar Documentação +✨ FASE 3: Aprimoramento com IA (OBRIGATÓRIO - sem opção de pular) +📦 FASE 4: Empacotar Skill +☁️ FASE 5: Upload para o Claude (opcional, requer API key) +``` + +**Requisitos:** +- Variável de ambiente ANTHROPIC_API_KEY (para upload automático) +- Plano Claude Code Max (para aprimoramento com IA local) + +--- + +## 📊 Matriz de Funcionalidades + +O Skill Seekers suporta **4 plataformas LLM**, **17 tipos de fontes** e paridade completa de funcionalidades em todos os destinos. + +**Plataformas:** Claude AI, Google Gemini, OpenAI ChatGPT, Markdown Genérico +**Tipos de Fontes:** Sites de documentação, repositórios GitHub, PDFs, Word (.docx), EPUB, Vídeo, Codebases locais, Jupyter Notebooks, HTML local, OpenAPI/Swagger, AsciiDoc, PowerPoint (.pptx), feeds RSS/Atom, Man pages, wikis Confluence, páginas Notion, exportações de chat Slack/Discord + +Consulte a [Matriz Completa de Funcionalidades](docs/FEATURE_MATRIX.md) para suporte detalhado por plataforma e funcionalidade. + +### Comparação Rápida de Plataformas + +| Funcionalidade | Claude | Gemini | OpenAI | Markdown | +|---------------|--------|--------|--------|----------| +| Formato | ZIP + YAML | tar.gz | ZIP + Vector | ZIP | +| Upload | ✅ API | ✅ API | ✅ API | ❌ Manual | +| Aprimoramento | ✅ Sonnet 4 | ✅ 2.0 Flash | ✅ GPT-4o | ❌ Nenhum | +| Todos os Modos de Skill | ✅ | ✅ | ✅ | ✅ | + +--- + +## Exemplos de Uso + +### Coleta de Documentação + +```bash +# Coletar site de documentação +skill-seekers scrape --config configs/react.json + +# Coleta rápida sem configuração +skill-seekers scrape --url https://react.dev --name react + +# Com modo assíncrono (3x mais rápido) +skill-seekers scrape --config configs/godot.json --async --workers 8 +``` + +### Extração de PDF + +```bash +# Extração básica de PDF +skill-seekers pdf --pdf docs/manual.pdf --name myskill + +# Funcionalidades avançadas +skill-seekers pdf --pdf docs/manual.pdf --name myskill \ + --extract-tables \ # Extrair tabelas + --parallel \ # Processamento paralelo rápido + --workers 8 # Usar 8 núcleos de CPU + +# PDFs digitalizados (requer: pip install pytesseract Pillow) +skill-seekers pdf --pdf docs/scanned.pdf --name myskill --ocr +``` + +### Extração de Vídeo + +```bash +# Instalar suporte a vídeo +pip install skill-seekers[video] # Transcrições + metadados +pip install skill-seekers[video-full] # + Whisper + extração visual de frames + +# Detectar GPU automaticamente e instalar dependências visuais (PyTorch + easyocr) +skill-seekers video --setup + +# Extrair de vídeo do YouTube +skill-seekers video --url https://www.youtube.com/watch?v=dQw4w9WgXcQ --name mytutorial + +# Extrair de uma playlist do YouTube +skill-seekers video --playlist https://www.youtube.com/playlist?list=... --name myplaylist + +# Extrair de um arquivo de vídeo local +skill-seekers video --video-file recording.mp4 --name myrecording + +# Extrair com análise visual de frames (requer dependências video-full) +skill-seekers video --url https://www.youtube.com/watch?v=... --name mytutorial --visual + +# Com aprimoramento por IA (limpa OCR + gera SKILL.md polido) +skill-seekers video --url https://www.youtube.com/watch?v=... --visual --enhance-level 2 + +# Recortar seção específica de um vídeo (suporta segundos, MM:SS, HH:MM:SS) +skill-seekers video --url https://www.youtube.com/watch?v=... --start-time 1:30 --end-time 5:00 + +# Usar Vision API para frames OCR de baixa confiança (requer ANTHROPIC_API_KEY) +skill-seekers video --url https://www.youtube.com/watch?v=... --visual --vision-ocr + +# Reconstruir skill a partir de dados previamente extraídos (pular download) +skill-seekers video --from-json output/mytutorial/video_data/extracted_data.json --name mytutorial +``` + +> **Guia completo:** Consulte [docs/VIDEO_GUIDE.md](docs/VIDEO_GUIDE.md) para referência CLI completa, +> detalhes do pipeline visual, opções de aprimoramento com IA e troubleshooting. + +### Análise de Repositórios GitHub + +```bash +# Coleta básica de repositório +skill-seekers github --repo facebook/react + +# Com autenticação (rate limits mais altos) +export GITHUB_TOKEN=ghp_your_token_here +skill-seekers github --repo facebook/react + +# Personalizar o que incluir +skill-seekers github --repo django/django \ + --include-issues \ # Extrair GitHub Issues + --max-issues 100 \ # Limitar quantidade de issues + --include-changelog # Extrair CHANGELOG.md +``` + +### Coleta Unificada Multi-Fonte + +**Combine documentação + GitHub + PDF em uma skill unificada com detecção de conflitos:** + +```bash +# Use configs unificadas existentes +skill-seekers unified --config configs/react_unified.json +skill-seekers unified --config configs/django_unified.json + +# Ou crie uma config unificada +cat > configs/myframework_unified.json << 'EOF' +{ + "name": "myframework", + "merge_mode": "rule-based", + "sources": [ + { + "type": "documentation", + "base_url": "https://docs.myframework.com/", + "max_pages": 200 + }, + { + "type": "github", + "repo": "owner/myframework", + "code_analysis_depth": "surface" + } + ] +} +EOF + +skill-seekers unified --config configs/myframework_unified.json +``` + +**A Detecção de Conflitos encontra automaticamente:** +- 🔴 **Ausente no código** (alta): Documentado mas não implementado +- 🟡 **Ausente nos docs** (média): Implementado mas não documentado +- ⚠️ **Assinatura incompatível**: Parâmetros/tipos diferentes +- ℹ️ **Descrição incompatível**: Explicações diferentes + +**Guia Completo:** Consulte [docs/UNIFIED_SCRAPING.md](docs/UNIFIED_SCRAPING.md) para documentação completa. + +### Repositórios Privados de Configuração + +**Compartilhe configs personalizadas entre equipes usando repositórios Git privados:** + +```bash +# Opção 1: Usando ferramentas MCP (recomendado) +# Registre o repositório privado da sua equipe +add_config_source( + name="team", + git_url="https://github.com/mycompany/skill-configs.git", + token_env="GITHUB_TOKEN" +) + +# Busque config do repositório da equipe +fetch_config(source="team", config_name="internal-api") +``` + +**Plataformas Suportadas:** +- GitHub (`GITHUB_TOKEN`), GitLab (`GITLAB_TOKEN`), Gitea (`GITEA_TOKEN`), Bitbucket (`BITBUCKET_TOKEN`) + +**Guia Completo:** Consulte [docs/GIT_CONFIG_SOURCES.md](docs/GIT_CONFIG_SOURCES.md) para documentação completa. + +## Como Funciona + +```mermaid +graph LR + A[Site de Documentação] --> B[Skill Seekers] + B --> C[Coletor] + B --> D[Aprimoramento IA] + B --> E[Empacotador] + C --> F[Referências Organizadas] + D --> F + F --> E + E --> G[Claude Skill .zip] + G --> H[Upload para Claude AI] +``` + +0. **Detectar llms.txt** - Verifica primeiro por llms-full.txt, llms.txt, llms-small.txt +1. **Coletar**: Extrai todas as páginas da documentação +2. **Categorizar**: Organiza o conteúdo em tópicos (API, guias, tutoriais, etc.) +3. **Aprimorar**: IA analisa os docs e cria SKILL.md abrangente com exemplos +4. **Empacotar**: Empacota tudo em um arquivo `.zip` pronto para o Claude + +## 📋 Pré-requisitos + +**Antes de começar, certifique-se de ter:** + +1. **Python 3.10 ou superior** - [Download](https://www.python.org/downloads/) | Verificar: `python3 --version` +2. **Git** - [Download](https://git-scm.com/) | Verificar: `git --version` +3. **15-30 minutos** para a configuração inicial + +**Primeira vez?** → **[Comece Aqui: Guia de Início Rápido Infalível](BULLETPROOF_QUICKSTART.md)** 🎯 + +--- + +## 📤 Enviando Skills para o Claude + +Depois que sua skill estiver empacotada, você precisa enviá-la para o Claude: + +### Opção 1: Upload Automático (via API) + +```bash +# Configure sua API key (uma única vez) +export ANTHROPIC_API_KEY=sk-ant-... + +# Empacote e faça upload automaticamente +skill-seekers package output/react/ --upload + +# OU faça upload de um .zip existente +skill-seekers upload output/react.zip +``` + +### Opção 2: Upload Manual (Sem API Key) + +```bash +# Empacote a skill +skill-seekers package output/react/ +# → Cria output/react.zip + +# Depois faça upload manualmente: +# - Acesse https://claude.ai/skills +# - Clique em "Upload Skill" +# - Selecione output/react.zip +``` + +### Opção 3: MCP (Claude Code) + +``` +No Claude Code, basta pedir: +"Empacote e faça upload da skill React" +``` + +--- + +## 🤖 Instalando em Agentes de IA + +O Skill Seekers pode instalar automaticamente skills em mais de 10 agentes de programação com IA. + +```bash +# Instalar em agente específico +skill-seekers install-agent output/react/ --agent cursor + +# Instalar em todos os agentes de uma vez +skill-seekers install-agent output/react/ --agent all + +# Visualizar sem instalar +skill-seekers install-agent output/react/ --agent cursor --dry-run +``` + +### Agentes Suportados + +| Agente | Caminho | Tipo | +|--------|---------|------| +| **Claude Code** | `~/.claude/skills/` | Global | +| **Cursor** | `.cursor/skills/` | Projeto | +| **VS Code / Copilot** | `.github/skills/` | Projeto | +| **Amp** | `~/.amp/skills/` | Global | +| **Goose** | `~/.config/goose/skills/` | Global | +| **OpenCode** | `~/.opencode/skills/` | Global | +| **Windsurf** | `~/.windsurf/skills/` | Global | + +--- + +## 🔌 Integração MCP (26 Ferramentas) + +O Skill Seekers inclui um servidor MCP para uso com Claude Code, Cursor, Windsurf, VS Code + Cline ou IntelliJ IDEA. + +```bash +# Modo stdio (Claude Code, VS Code + Cline) +python -m skill_seekers.mcp.server_fastmcp + +# Modo HTTP (Cursor, Windsurf, IntelliJ) +python -m skill_seekers.mcp.server_fastmcp --transport http --port 8765 + +# Configurar automaticamente todos os agentes de uma vez +./setup_mcp.sh +``` + +**Todas as 26 ferramentas disponíveis:** +- **Núcleo (9):** `list_configs`, `generate_config`, `validate_config`, `estimate_pages`, `scrape_docs`, `package_skill`, `upload_skill`, `enhance_skill`, `install_skill` +- **Estendidas (10):** `scrape_github`, `scrape_pdf`, `unified_scrape`, `merge_sources`, `detect_conflicts`, `add_config_source`, `fetch_config`, `list_config_sources`, `remove_config_source`, `split_config` +- **Bancos Vetoriais (4):** `export_to_chroma`, `export_to_weaviate`, `export_to_faiss`, `export_to_qdrant` +- **Nuvem (3):** `cloud_upload`, `cloud_download`, `cloud_list` + +**Guia Completo:** [docs/MCP_SETUP.md](docs/MCP_SETUP.md) + +--- + +## ⚙️ Configuração + +### Presets Disponíveis (24+) + +```bash +# Listar todos os presets +skill-seekers list-configs +``` + +| Categoria | Presets | +|-----------|---------| +| **Frameworks Web** | `react`, `vue`, `angular`, `svelte`, `nextjs` | +| **Python** | `django`, `flask`, `fastapi`, `sqlalchemy`, `pytest` | +| **Desenvolvimento de Jogos** | `godot`, `pygame`, `unity` | +| **Ferramentas e DevOps** | `docker`, `kubernetes`, `terraform`, `ansible` | +| **Unificados (Docs + GitHub)** | `react-unified`, `vue-unified`, `nextjs-unified` e mais | + +### Criando Sua Própria Configuração + +```bash +# Opção 1: Interativo +skill-seekers scrape --interactive + +# Opção 2: Copie e edite um preset +cp configs/react.json configs/myframework.json +nano configs/myframework.json +skill-seekers scrape --config configs/myframework.json +``` + +### Estrutura do Arquivo de Configuração + +```json +{ + "name": "myframework", + "description": "Quando usar esta skill", + "base_url": "https://docs.myframework.com/", + "selectors": { + "main_content": "article", + "title": "h1", + "code_blocks": "pre code" + }, + "url_patterns": { + "include": ["/docs", "/guide"], + "exclude": ["/blog", "/about"] + }, + "categories": { + "getting_started": ["intro", "quickstart"], + "api": ["api", "reference"] + }, + "rate_limit": 0.5, + "max_pages": 500 +} +``` + +### Onde Armazenar Configurações + +A ferramenta busca na seguinte ordem: +1. Caminho exato fornecido +2. `./configs/` (diretório atual) +3. `~/.config/skill-seekers/configs/` (diretório de configuração do usuário) +4. API SkillSeekersWeb.com (configurações predefinidas) + +--- + +## 📊 O que é Criado + +``` +output/ +├── godot_data/ # Dados brutos coletados +│ ├── pages/ # Arquivos JSON (um por página) +│ └── summary.json # Resumo geral +│ +└── godot/ # A skill + ├── SKILL.md # Aprimorado com exemplos reais + ├── references/ # Docs categorizados + │ ├── index.md + │ ├── getting_started.md + │ ├── scripting.md + │ └── ... + ├── scripts/ # Vazio (adicione os seus) + └── assets/ # Vazio (adicione os seus) +``` + +--- + +## 🐛 Solução de Problemas + +### Nenhum Conteúdo Extraído? +- Verifique seu seletor `main_content` +- Tente: `article`, `main`, `div[role="main"]` + +### Dados Existem Mas Não São Usados? +```bash +# Forçar re-coleta +rm -rf output/myframework_data/ +skill-seekers scrape --config configs/myframework.json +``` + +### Categorias Não Estão Boas? +Edite a seção `categories` da configuração com palavras-chave melhores. + +### Quer Atualizar os Docs? +```bash +# Apague dados antigos e recolete +rm -rf output/godot_data/ +skill-seekers scrape --config configs/godot.json +``` + +### Aprimoramento Não Funciona? +```bash +# Verifique se a API key está configurada +echo $ANTHROPIC_API_KEY + +# Tente o modo LOCAL (usa Claude Code Max, sem necessidade de API key) +skill-seekers enhance output/react/ --mode LOCAL + +# Monitore o status do aprimoramento em segundo plano +skill-seekers enhance-status output/react/ --watch +``` + +### Problemas de Rate Limit do GitHub? +```bash +# Configure um token GitHub (5000 req/hora vs 60/hora anônimo) +export GITHUB_TOKEN=ghp_your_token_here + +# Ou configure múltiplos perfis +skill-seekers config --github +``` + +--- + +## 📈 Performance + +| Tarefa | Tempo | Observações | +|--------|-------|-------------| +| Coleta (síncrona) | 15-45 min | Apenas na primeira vez, baseada em threads | +| Coleta (assíncrona) | 5-15 min | 2-3x mais rápida com a flag `--async` | +| Construção | 1-3 min | Reconstrução rápida a partir do cache | +| Reconstrução | <1 min | Com `--skip-scrape` | +| Aprimoramento (LOCAL) | 30-60 seg | Usa Claude Code Max | +| Aprimoramento (API) | 20-40 seg | Requer API key | +| Vídeo (transcrição) | 1-3 min | YouTube/local, apenas transcrição | +| Vídeo (visual) | 5-15 min | + extração OCR de frames | +| Empacotamento | 5-10 seg | Criação final do .zip | + +--- + +## 📚 Documentação + +### Primeiros Passos +- **[BULLETPROOF_QUICKSTART.md](BULLETPROOF_QUICKSTART.md)** - 🎯 **COMECE AQUI** se você é novo! +- **[QUICKSTART.md](QUICKSTART.md)** - Início rápido para usuários experientes +- **[TROUBLESHOOTING.md](TROUBLESHOOTING.md)** - Problemas comuns e soluções +- **[docs/QUICK_REFERENCE.md](docs/QUICK_REFERENCE.md)** - Folha de referência rápida + +### Guias +- **[docs/LARGE_DOCUMENTATION.md](docs/LARGE_DOCUMENTATION.md)** - Processar docs de 10K-40K+ páginas +- **[ASYNC_SUPPORT.md](ASYNC_SUPPORT.md)** - Guia do modo assíncrono (coleta 2-3x mais rápida) +- **[docs/ENHANCEMENT_MODES.md](docs/ENHANCEMENT_MODES.md)** - Guia de modos de aprimoramento com IA +- **[docs/MCP_SETUP.md](docs/MCP_SETUP.md)** - Configuração da integração MCP +- **[docs/UNIFIED_SCRAPING.md](docs/UNIFIED_SCRAPING.md)** - Coleta multi-fonte +- **[docs/VIDEO_GUIDE.md](docs/VIDEO_GUIDE.md)** - Guia de extração de vídeo + +### Guias de Integração +- **[docs/integrations/LANGCHAIN.md](docs/integrations/LANGCHAIN.md)** - LangChain RAG +- **[docs/integrations/CURSOR.md](docs/integrations/CURSOR.md)** - Cursor IDE +- **[docs/integrations/WINDSURF.md](docs/integrations/WINDSURF.md)** - Windsurf IDE +- **[docs/integrations/CLINE.md](docs/integrations/CLINE.md)** - Cline (VS Code) +- **[docs/integrations/RAG_PIPELINES.md](docs/integrations/RAG_PIPELINES.md)** - Todos os pipelines RAG + +--- + +## 📝 Licença + +Licença MIT - consulte o arquivo [LICENSE](LICENSE) para detalhes + +--- + +Bom trabalho construindo skills! 🚀 + +--- + +## 🔒 Segurança + +[![MseeP.ai Security Assessment Badge](https://mseep.net/pr/yusufkaraaslan-skill-seekers-badge.png)](https://mseep.ai/app/yusufkaraaslan-skill-seekers) diff --git a/README.ru.md b/README.ru.md new file mode 100644 index 0000000..32ade4d --- /dev/null +++ b/README.ru.md @@ -0,0 +1,1056 @@ +

+ Skill Seekers +

+ +# Skill Seekers + +[English](README.md) | [简体中文](README.zh-CN.md) | [日本語](README.ja.md) | [한국어](README.ko.md) | [Español](README.es.md) | [Français](README.fr.md) | [Deutsch](README.de.md) | [Português](README.pt-BR.md) | [Türkçe](README.tr.md) | [العربية](README.ar.md) | [हिन्दी](README.hi.md) | Русский + +> ⚠️ **Уведомление о машинном переводе** +> +> Этот документ был автоматически переведён с помощью ИИ. Несмотря на наши усилия по обеспечению качества, возможны неточные выражения. + +[![Версия](https://img.shields.io/badge/version-3.2.0-blue.svg)](https://github.com/yusufkaraaslan/Skill_Seekers/releases) +[![Лицензия: MIT](https://img.shields.io/badge/License-MIT-yellow.svg)](https://opensource.org/licenses/MIT) +[![Python 3.10+](https://img.shields.io/badge/python-3.10+-blue.svg)](https://www.python.org/downloads/) +[![MCP-интеграция](https://img.shields.io/badge/MCP-Integrated-blue.svg)](https://modelcontextprotocol.io) +[![Тесты пройдены](https://img.shields.io/badge/Tests-2540%2B%20Passing-brightgreen.svg)](tests/) +[![Доска проекта](https://img.shields.io/badge/Project-Board-purple.svg)](https://github.com/users/yusufkaraaslan/projects/2) +[![PyPI версия](https://badge.fury.io/py/skill-seekers.svg)](https://pypi.org/project/skill-seekers/) +[![PyPI - Загрузки](https://img.shields.io/pypi/dm/skill-seekers.svg)](https://pypi.org/project/skill-seekers/) +[![PyPI - Версия Python](https://img.shields.io/pypi/pyversions/skill-seekers.svg)](https://pypi.org/project/skill-seekers/) +[![Веб-сайт](https://img.shields.io/badge/Website-skillseekersweb.com-blue.svg)](https://skillseekersweb.com/) +[![Twitter](https://img.shields.io/twitter/follow/_yUSyUS_?style=social)](https://x.com/_yUSyUS_) +[![GitHub Stars](https://img.shields.io/github/stars/yusufkaraaslan/Skill_Seekers?style=social)](https://github.com/yusufkaraaslan/Skill_Seekers) + +**🧠 Слой данных для ИИ-систем.** Skill Seekers преобразует документацию сайтов, репозитории GitHub, PDF, видео, Jupyter-ноутбуки, вики и более 17 типов источников в структурированные базы знаний — готовые к использованию в ИИ-навыках (Claude, Gemini, OpenAI), RAG-конвейерах (LangChain, LlamaIndex, Pinecone) и ИИ-помощниках для программирования (Cursor, Windsurf, Cline) за считанные минуты. + +> 🌐 **[Посетите SkillSeekersWeb.com](https://skillseekersweb.com/)** — просматривайте 24+ готовых конфигураций, делитесь своими настройками и получайте доступ к полной документации! + +> 📋 **[Смотрите дорожную карту разработки и задачи](https://github.com/users/yusufkaraaslan/projects/2)** — 134 задачи в 10 категориях, выберите любую для участия! + +## 🧠 Слой данных для ИИ-систем + +**Skill Seekers — это универсальный слой предобработки**, расположенный между необработанной документацией и всеми ИИ-системами, которые её потребляют. Независимо от того, создаёте ли вы навыки для Claude, RAG-конвейер LangChain или файл `.cursorrules` для Cursor — подготовка данных одинакова. Выполните её один раз и экспортируйте во все целевые платформы. + +```bash +# Одна команда → структурированная база знаний +skill-seekers create https://docs.react.dev/ +# или: skill-seekers create facebook/react +# или: skill-seekers create ./my-project + +# Экспорт в любую ИИ-систему +skill-seekers package output/react --target claude # → Claude AI навык (ZIP) +skill-seekers package output/react --target langchain # → LangChain Documents +skill-seekers package output/react --target llama-index # → LlamaIndex TextNodes +skill-seekers package output/react --target cursor # → .cursorrules +``` + +### Что создаётся + +| Результат | Цель | Где используется | +|-----------|------|-----------------| +| **Claude навык** (ZIP + YAML) | `--target claude` | Claude Code, Claude API | +| **Gemini навык** (tar.gz) | `--target gemini` | Google Gemini | +| **OpenAI / Custom GPT** (ZIP) | `--target openai` | GPT-4o, пользовательские ассистенты | +| **LangChain Documents** | `--target langchain` | QA-цепочки, агенты, ретриверы | +| **LlamaIndex TextNodes** | `--target llama-index` | Движки запросов, движки диалогов | +| **Haystack Documents** | `--target haystack` | Корпоративные RAG-конвейеры | +| **Pinecone-ready** (Markdown) | `--target markdown` | Загрузка в векторное хранилище | +| **ChromaDB / FAISS / Qdrant** | `--format chroma/faiss/qdrant` | Локальные векторные базы данных | +| **Cursor** `.cursorrules` | `--target claude` → скопировать | Cursor IDE ИИ-контекст | +| **Windsurf / Cline / Continue** | `--target claude` → скопировать | VS Code, IntelliJ, Vim | + +### Почему это важно + +- ⚡ **На 99% быстрее** — дни ручной подготовки данных → 15–45 минут +- 🎯 **Качество ИИ-навыков** — файлы SKILL.md на 500+ строк с примерами, шаблонами и руководствами +- 📊 **Готовые к RAG блоки** — умная разбивка сохраняет блоки кода и контекст +- 🎬 **Видео** — извлечение кода, субтитров и структурированных знаний из YouTube и локальных видео +- 🔄 **Множество источников** — объединение 17 типов источников (документация, GitHub, PDF, видео, ноутбуки, вики и другие) в единую базу знаний +- 🌐 **Одна подготовка — все платформы** — экспорт одного актива на 16 платформ без повторного сканирования +- ✅ **Проверено в бою** — 2 540+ тестов, 24+ пресетов для фреймворков, готово к продакшену + +## Быстрый старт + +```bash +pip install skill-seekers + +# Создание ИИ-навыка из любого источника +skill-seekers create https://docs.django.com/ # Документация сайта +skill-seekers create django/django # Репозиторий GitHub +skill-seekers create ./my-codebase # Локальный проект +skill-seekers create manual.pdf # PDF-файл +skill-seekers create manual.docx # Документ Word +skill-seekers create book.epub # Электронная книга EPUB +skill-seekers create notebook.ipynb # Jupyter-ноутбук +skill-seekers create page.html # Локальный HTML +skill-seekers create api-spec.yaml # Спецификация OpenAPI/Swagger +skill-seekers create guide.adoc # Документ AsciiDoc +skill-seekers create slides.pptx # Презентация PowerPoint + +# Видео (YouTube, Vimeo или локальный файл — требуется skill-seekers[video]) +skill-seekers video --url https://www.youtube.com/watch?v=... --name mytutorial +# Первый запуск? Автоматическая установка зависимостей с поддержкой GPU: +skill-seekers video --setup + +# Экспорт по назначению +skill-seekers package output/django --target claude # Claude AI навык +skill-seekers package output/django --target langchain # LangChain RAG +skill-seekers package output/django --target cursor # Cursor IDE контекст +``` + +**Полные примеры:** +- [Claude AI навык](examples/claude-skill/) — навык для Claude Code +- [LangChain RAG-конвейер](examples/langchain-rag-pipeline/) — QA-цепочка на основе Chroma +- [Cursor IDE контекст](examples/cursor-react-skill/) — ИИ-программирование с учётом фреймворка + +## Что такое Skill Seekers? + +Skill Seekers — это **слой данных для ИИ-систем**, который преобразует 17 типов источников — документацию сайтов, репозитории GitHub, PDF, видео, Jupyter-ноутбуки, документы Word/EPUB/AsciiDoc, спецификации OpenAPI/Swagger, презентации PowerPoint, RSS/Atom-ленты, man-страницы, вики Confluence, страницы Notion, экспорты Slack/Discord и другое — в структурированные базы знаний для всех ИИ-целей: + +| Сценарий использования | Что вы получаете | Примеры | +|----------------------|-----------------|---------| +| **ИИ-навыки** | Полный SKILL.md + справочные файлы | Claude Code, Gemini, GPT | +| **RAG-конвейеры** | Документы, разбитые на блоки с метаданными | LangChain, LlamaIndex, Haystack | +| **Векторные базы данных** | Предварительно отформатированные данные для загрузки | Pinecone, Chroma, Weaviate, FAISS | +| **ИИ-помощники для кода** | Файлы контекста, которые IDE-ИИ читает автоматически | Cursor, Windsurf, Cline, Continue.dev | + +Skill Seekers заменяет дни ручной предобработки следующими шагами: + +1. **Сбор** — документация, репозитории GitHub, локальные кодовые базы, PDF, видео, Jupyter-ноутбуки, вики и более 17 типов источников +2. **Анализ** — глубокий AST-разбор, обнаружение паттернов, извлечение API +3. **Структурирование** — категоризированные справочные файлы с метаданными +4. **Улучшение** — генерация SKILL.md с помощью ИИ (Claude, Gemini или локально) +5. **Экспорт** — 16 платформоспецифичных форматов из одного актива + +## Зачем использовать Skill Seekers? + +### Для создателей ИИ-навыков (Claude, Gemini, OpenAI) + +- 🎯 **Навыки продакшен-уровня** — файлы SKILL.md на 500+ строк с примерами кода, шаблонами и руководствами +- 🔄 **Рабочие процессы улучшения** — применяйте `security-focus`, `architecture-comprehensive` или пользовательские YAML-пресеты +- 🎮 **Любая предметная область** — игровые движки (Godot, Unity), фреймворки (React, Django), внутренние инструменты +- 🔧 **Командная работа** — объединяйте внутреннюю документацию + код в единый источник истины +- 📚 **Качество** — ИИ-улучшение с примерами, кратким справочником и навигацией + +### Для RAG-разработчиков и ИИ-инженеров + +- 🤖 **Данные, готовые к RAG** — предварительно разбитые LangChain `Documents`, LlamaIndex `TextNodes`, Haystack `Documents` +- 🚀 **На 99% быстрее** — дни предобработки → 15–45 минут +- 📊 **Умные метаданные** — категории, источники, типы → более точный поиск +- 🔄 **Множество источников** — объединяйте документацию + GitHub + PDF в одном конвейере +- 🌐 **Платформонезависимость** — экспорт в любую векторную базу данных или фреймворк без повторного сканирования + +### Для пользователей ИИ-помощников для программирования + +- 💻 **Cursor / Windsurf / Cline** — автоматическая генерация `.cursorrules` / `.windsurfrules` / `.clinerules` +- 🎯 **Постоянный контекст** — ИИ «знает» ваши фреймворки без повторных подсказок +- 📚 **Всегда актуально** — обновляйте контекст за минуты при изменении документации + +## Ключевые возможности + +### 🌐 Сканирование документации +- ✅ **Поддержка llms.txt** — автоматическое обнаружение и использование LLM-ready файлов документации (в 10 раз быстрее) +- ✅ **Универсальный сканер** — работает с ЛЮБЫМ сайтом документации +- ✅ **Умная категоризация** — автоматическая организация контента по темам +- ✅ **Определение языка кода** — распознавание Python, JavaScript, C++, GDScript и других +- ✅ **24+ готовых пресетов** — Godot, React, Vue, Django, FastAPI и другие + +### 📄 Поддержка PDF +- ✅ **Базовое извлечение PDF** — извлечение текста, кода и изображений из PDF-файлов +- ✅ **OCR для сканированных PDF** — извлечение текста из сканированных документов +- ✅ **PDF с паролем** — обработка зашифрованных PDF +- ✅ **Извлечение таблиц** — извлечение сложных таблиц из PDF +- ✅ **Параллельная обработка** — в 3 раза быстрее для больших PDF +- ✅ **Умное кэширование** — на 50% быстрее при повторных запусках + +### 🎬 Извлечение из видео +- ✅ **YouTube и локальные видео** — извлечение субтитров, кода и структурированных знаний из видео +- ✅ **Анализ визуальных кадров** — OCR-извлечение из редакторов кода, терминалов, слайдов и диаграмм +- ✅ **Автоопределение GPU** — автоматическая установка правильной сборки PyTorch (CUDA/ROCm/MPS/CPU) +- ✅ **ИИ-улучшение** — двухэтапное: очистка артефактов OCR + генерация отполированного SKILL.md +- ✅ **Обрезка по времени** — извлечение определённых фрагментов с `--start-time` и `--end-time` +- ✅ **Поддержка плейлистов** — пакетная обработка всех видео в плейлисте YouTube + +### 🐙 Анализ репозиториев GitHub +- ✅ **Глубокий анализ кода** — AST-разбор для Python, JavaScript, TypeScript, Java, C++, Go +- ✅ **Извлечение API** — функции, классы, методы с параметрами и типами +- ✅ **Метаданные репозитория** — README, дерево файлов, распределение языков, звёзды/форки +- ✅ **GitHub Issues и PR** — получение открытых/закрытых issues с метками и вехами +- ✅ **CHANGELOG и релизы** — автоматическое извлечение истории версий +- ✅ **Обнаружение конфликтов** — сравнение документированных API с фактической реализацией кода +- ✅ **MCP-интеграция** — на естественном языке: «Просканируй GitHub-репозиторий facebook/react» + +### 🔄 Унифицированное мультиисточниковое сканирование +- ✅ **Объединение нескольких источников** — смешивайте документацию + GitHub + PDF в одном навыке +- ✅ **Обнаружение конфликтов** — автоматическое нахождение расхождений между документацией и кодом +- ✅ **Умное слияние** — на основе правил или с помощью ИИ +- ✅ **Прозрачная отчётность** — сравнение бок о бок с предупреждениями ⚠️ +- ✅ **Анализ пробелов в документации** — выявление устаревшей документации и недокументированных функций +- ✅ **Единый источник истины** — один навык показывает и намерение (документация), и реальность (код) +- ✅ **Обратная совместимость** — устаревшие одноисточниковые конфигурации продолжают работать + +### 🤖 Поддержка нескольких LLM-платформ +- ✅ **4 LLM-платформы** — Claude AI, Google Gemini, OpenAI ChatGPT, универсальный Markdown +- ✅ **Универсальное сканирование** — одна и та же документация для всех платформ +- ✅ **Платформоспецифичная упаковка** — оптимизированные форматы для каждой LLM +- ✅ **Экспорт одной командой** — флаг `--target` для выбора платформы +- ✅ **Опциональные зависимости** — устанавливайте только то, что нужно +- ✅ **100% обратная совместимость** — существующие рабочие процессы Claude без изменений + +| Платформа | Формат | Загрузка | Улучшение | API Key | Пользовательский эндпоинт | +|-----------|--------|----------|-----------|---------|--------------------------| +| **Claude AI** | ZIP + YAML | ✅ Авто | ✅ Да | ANTHROPIC_API_KEY | ANTHROPIC_BASE_URL | +| **Google Gemini** | tar.gz | ✅ Авто | ✅ Да | GOOGLE_API_KEY | - | +| **OpenAI ChatGPT** | ZIP + Vector Store | ✅ Авто | ✅ Да | OPENAI_API_KEY | - | +| **Универсальный Markdown** | ZIP | ❌ Вручную | ❌ Нет | - | - | + +```bash +# Claude (по умолчанию — без изменений!) +skill-seekers package output/react/ +skill-seekers upload react.zip + +# Google Gemini +pip install skill-seekers[gemini] +skill-seekers package output/react/ --target gemini +skill-seekers upload react-gemini.tar.gz --target gemini + +# OpenAI ChatGPT +pip install skill-seekers[openai] +skill-seekers package output/react/ --target openai +skill-seekers upload react-openai.zip --target openai + +# Универсальный Markdown (универсальный экспорт) +skill-seekers package output/react/ --target markdown +``` + +
+🔧 Переменные окружения для Claude-совместимых API (например, GLM-4.7) + +Skill Seekers поддерживает любой Claude-совместимый API-эндпоинт: + +```bash +# Вариант 1: Официальный Anthropic API (по умолчанию) +export ANTHROPIC_API_KEY=sk-ant-... + +# Вариант 2: GLM-4.7 Claude-совместимый API +export ANTHROPIC_API_KEY=your-glm-47-api-key +export ANTHROPIC_BASE_URL=https://glm-4-7-endpoint.com/v1 + +# Все функции ИИ-улучшения будут использовать настроенный эндпоинт +skill-seekers enhance output/react/ +skill-seekers analyze --directory . --enhance +``` + +**Примечание**: Установка `ANTHROPIC_BASE_URL` позволяет использовать любой Claude-совместимый API-эндпоинт, например GLM-4.7 или другие совместимые сервисы. + +
+ +**Установка:** +```bash +# Установка с поддержкой Gemini +pip install skill-seekers[gemini] + +# Установка с поддержкой OpenAI +pip install skill-seekers[openai] + +# Установка всех LLM-платформ +pip install skill-seekers[all-llms] +``` + +### 🔗 Интеграции с RAG-фреймворками + +- ✅ **LangChain Documents** — прямой экспорт в формат `Document` с `page_content` + метаданными + - Подходит для: QA-цепочек, ретриверов, векторных хранилищ, агентов + - Пример: [LangChain RAG-конвейер](examples/langchain-rag-pipeline/) + - Руководство: [Интеграция с LangChain](docs/integrations/LANGCHAIN.md) + +- ✅ **LlamaIndex TextNodes** — экспорт в формат `TextNode` с уникальными ID + эмбеддингами + - Подходит для: движков запросов, движков диалогов, контекста хранилища + - Пример: [LlamaIndex движок запросов](examples/llama-index-query-engine/) + - Руководство: [Интеграция с LlamaIndex](docs/integrations/LLAMA_INDEX.md) + +- ✅ **Формат, готовый к Pinecone** — оптимизирован для загрузки в векторную базу данных + - Подходит для: продакшен-поиска по векторам, семантического и гибридного поиска + - Пример: [Загрузка в Pinecone](examples/pinecone-upsert/) + - Руководство: [Интеграция с Pinecone](docs/integrations/PINECONE.md) + +**Быстрый экспорт:** +```bash +# LangChain Documents (JSON) +skill-seekers package output/django --target langchain +# → output/django-langchain.json + +# LlamaIndex TextNodes (JSON) +skill-seekers package output/django --target llama-index +# → output/django-llama-index.json + +# Markdown (универсальный) +skill-seekers package output/django --target markdown +# → output/django-markdown/SKILL.md + references/ +``` + +**Полное руководство по RAG-конвейерам:** [Документация по RAG-конвейерам](docs/integrations/RAG_PIPELINES.md) + +--- + +### 🧠 Интеграции с ИИ-помощниками для программирования + +Преобразуйте документацию любого фреймворка в экспертный контекст для 4+ ИИ-помощников: + +- ✅ **Cursor IDE** — генерация `.cursorrules` для ИИ-подсказок при написании кода + - Подходит для: генерации кода с учётом фреймворка, единообразных паттернов + - Руководство: [Интеграция с Cursor](docs/integrations/CURSOR.md) + - Пример: [Cursor React навык](examples/cursor-react-skill/) + +- ✅ **Windsurf** — настройка контекста ИИ-помощника Windsurf через `.windsurfrules` + - Подходит для: встроенной ИИ-помощи в IDE, потоковое программирование + - Руководство: [Интеграция с Windsurf](docs/integrations/WINDSURF.md) + - Пример: [Windsurf FastAPI контекст](examples/windsurf-fastapi-context/) + +- ✅ **Cline (VS Code)** — системные промпты + MCP для VS Code-агента + - Подходит для: автономной генерации кода в VS Code + - Руководство: [Интеграция с Cline](docs/integrations/CLINE.md) + - Пример: [Cline Django ассистент](examples/cline-django-assistant/) + +- ✅ **Continue.dev** — контекстные серверы для IDE-независимого ИИ + - Подходит для: мультисредных окружений (VS Code, JetBrains, Vim), пользовательских LLM-провайдеров + - Руководство: [Интеграция с Continue](docs/integrations/CONTINUE_DEV.md) + - Пример: [Continue универсальный контекст](examples/continue-dev-universal/) + +**Быстрый экспорт для ИИ-инструментов программирования:** +```bash +# Для любого ИИ-помощника (Cursor, Windsurf, Cline, Continue.dev) +skill-seekers scrape --config configs/django.json +skill-seekers package output/django --target claude + +# Скопируйте в свой проект (пример для Cursor) +cp output/django-claude/SKILL.md my-project/.cursorrules + +# Или для Windsurf +cp output/django-claude/SKILL.md my-project/.windsurf/rules/django.md + +# Или для Cline +cp output/django-claude/SKILL.md my-project/.clinerules +``` + +**Центр интеграций:** [Все интеграции с ИИ-системами](docs/integrations/INTEGRATIONS.md) + +--- + +### 🌊 Трёхпоточная архитектура GitHub +- ✅ **Трёхпоточный анализ** — разделение GitHub-репозитория на потоки «Код», «Документация» и «Аналитика» +- ✅ **Унифицированный анализатор кодовой базы** — работает как с URL GitHub, так и с локальными путями +- ✅ **C3.x как глубина анализа** — выбор «basic» (1–2 мин) или «c3x» (20–60 мин) +- ✅ **Расширенная генерация маршрутизатора** — метаданные GitHub, быстрый старт из README, типичные проблемы +- ✅ **Интеграция Issues** — распространённые проблемы и решения из GitHub Issues +- ✅ **Умные ключевые слова маршрутизации** — метки GitHub с двойным весом для лучшего определения тем + +**Описание трёх потоков:** +- **Поток 1: Код** — глубокий C3.x-анализ (паттерны, примеры, руководства, конфигурации, архитектура) +- **Поток 2: Документация** — документация репозитория (README, CONTRIBUTING, docs/*.md) +- **Поток 3: Аналитика** — знания сообщества (Issues, метки, звёзды, форки) + +```python +from skill_seekers.cli.unified_codebase_analyzer import UnifiedCodebaseAnalyzer + +# Анализ GitHub-репозитория со всеми тремя потоками +analyzer = UnifiedCodebaseAnalyzer() +result = analyzer.analyze( + source="https://github.com/facebook/react", + depth="c3x", # или "basic" для быстрого анализа + fetch_github_metadata=True +) + +print(f"Паттерны проектирования: {len(result.code_analysis['c3_1_patterns'])}") +print(f"Звёзды: {result.github_insights['metadata']['stars']}") +``` + +**Полная документация**: [Сводка по реализации трёхпоточной архитектуры](docs/IMPLEMENTATION_SUMMARY_THREE_STREAM.md) + +### 🔐 Умное управление лимитами запросов и конфигурация +- ✅ **Система конфигурации с несколькими токенами** — управление несколькими аккаунтами GitHub (личный, рабочий, open source) + - Безопасное хранение конфигурации в `~/.config/skill-seekers/config.json` (права 600) + - Стратегии лимита запросов для каждого профиля: `prompt`, `wait`, `switch`, `fail` + - Умная цепочка резервирования: аргумент CLI → переменная окружения → файл конфигурации → запрос +- ✅ **Интерактивный мастер настройки** — красивый терминальный интерфейс для простой настройки +- ✅ **Умный обработчик лимитов запросов** — больше никаких бесконечных ожиданий! + - Обратный отсчёт в реальном времени, автоматическое переключение профилей + - Четыре стратегии: prompt (спросить), wait (обратный отсчёт), switch (переключить), fail (прервать) +- ✅ **Возобновление** — продолжение прерванных задач +- ✅ **Поддержка CI/CD** — флаг `--non-interactive` для автоматизации + +**Быстрая настройка:** +```bash +# Однократная настройка (5 минут) +skill-seekers config --github + +# Использование определённого профиля для приватных репозиториев +skill-seekers github --repo mycompany/private-repo --profile work + +# Режим CI/CD (быстрый отказ, без запросов) +skill-seekers github --repo owner/repo --non-interactive +``` + +### 🎯 Bootstrap-навык — самохостинг + +Генерация skill-seekers как навыка для Claude Code: + +```bash +./scripts/bootstrap_skill.sh +cp -r output/skill-seekers ~/.claude/skills/ +``` + +### 🔐 Приватные репозитории конфигураций +- ✅ **Git-источники конфигураций** — получение конфигураций из приватных/командных Git-репозиториев +- ✅ **Управление несколькими источниками** — регистрация неограниченного количества репозиториев GitHub, GitLab, Bitbucket +- ✅ **Командная работа** — обмен пользовательскими конфигурациями в командах из 3–5 человек +- ✅ **Корпоративная поддержка** — масштабирование до 500+ разработчиков +- ✅ **Безопасная аутентификация** — токены через переменные окружения (GITHUB_TOKEN, GITLAB_TOKEN) + +### 🤖 Анализ кодовой базы (C3.x) + +**C3.4: Извлечение паттернов конфигурации с ИИ-улучшением** +- ✅ **9 форматов конфигурации** — JSON, YAML, TOML, ENV, INI, Python, JavaScript, Dockerfile, Docker Compose +- ✅ **7 типов паттернов** — база данных, API, логирование, кэш, почта, аутентификация, сервер +- ✅ **ИИ-улучшение** — опциональный двухрежимный ИИ-анализ (API + LOCAL) +- ✅ **Анализ безопасности** — обнаружение жёстко закодированных секретов и открытых учётных данных + +**C3.3: ИИ-улучшенные пошаговые руководства** +- ✅ **Полное ИИ-улучшение** — преобразование базовых руководств в профессиональные учебники +- ✅ **5 автоматических улучшений** — описание шагов, устранение неполадок, предварительные требования, следующие шаги, сценарии использования +- ✅ **Двухрежимная поддержка** — API-режим (Claude API) или LOCAL-режим (Claude Code CLI) +- ✅ **Нулевые затраты в LOCAL-режиме** — БЕСПЛАТНОЕ улучшение с вашим планом Claude Code Max + +**Использование:** +```bash +# Быстрый анализ (1–2 мин, только базовые функции) +skill-seekers analyze --directory tests/ --quick + +# Комплексный анализ (с ИИ, 20–60 мин) +skill-seekers analyze --directory tests/ --comprehensive + +# С ИИ-улучшением +skill-seekers analyze --directory tests/ --enhance +``` + +**Полная документация:** [docs/HOW_TO_GUIDES.md](docs/HOW_TO_GUIDES.md#ai-enhancement-new) + +### 🔄 Пресеты рабочих процессов улучшения + +Многоразовые YAML-определённые конвейеры улучшения, управляющие тем, как ИИ преобразует необработанную документацию в отшлифованный навык. + +- ✅ **5 встроенных пресетов** — `default`, `minimal`, `security-focus`, `architecture-comprehensive`, `api-documentation` +- ✅ **Пользовательские пресеты** — добавляйте собственные рабочие процессы в `~/.config/skill-seekers/workflows/` +- ✅ **Цепочки рабочих процессов** — объединяйте два или более рабочих процесса в одной команде +- ✅ **Полное управление через CLI** — просмотр, копирование, добавление, удаление и валидация рабочих процессов + +```bash +# Применение одного рабочего процесса +skill-seekers create ./my-project --enhance-workflow security-focus + +# Цепочка нескольких рабочих процессов (применяются по порядку) +skill-seekers create ./my-project \ + --enhance-workflow security-focus \ + --enhance-workflow minimal + +# Управление пресетами +skill-seekers workflows list # Список всех (встроенные + пользовательские) +skill-seekers workflows show security-focus # Показать содержимое YAML +skill-seekers workflows copy security-focus # Скопировать в пользовательскую директорию для редактирования +skill-seekers workflows add ./my-workflow.yaml # Установить пользовательский пресет +skill-seekers workflows remove my-workflow # Удалить пользовательский пресет +skill-seekers workflows validate security-focus # Проверить структуру пресета + +# Копирование нескольких сразу +skill-seekers workflows copy security-focus minimal api-documentation + +# Добавление нескольких файлов сразу +skill-seekers workflows add ./wf-a.yaml ./wf-b.yaml + +# Удаление нескольких сразу +skill-seekers workflows remove my-wf-a my-wf-b +``` + +**Формат YAML-пресета:** +```yaml +name: security-focus +description: "Обзор безопасности: уязвимости, аутентификация, обработка данных" +version: "1.0" +stages: + - name: vulnerabilities + type: custom + prompt: "Проверить на OWASP Top 10 и распространённые уязвимости..." + - name: auth-review + type: custom + prompt: "Исследовать паттерны аутентификации и авторизации..." + uses_history: true +``` + +### ⚡ Производительность и масштаб +- ✅ **Асинхронный режим** — сканирование в 2–3 раза быстрее с async/await (флаг `--async`) +- ✅ **Поддержка большой документации** — обработка документов на 10K–40K+ страниц с умным разделением +- ✅ **Маршрутизатор/Hub-навыки** — интеллектуальная маршрутизация к специализированным поднавыкам +- ✅ **Параллельное сканирование** — одновременная обработка нескольких навыков +- ✅ **Контрольные точки/Возобновление** — прогресс никогда не теряется при длительном сканировании +- ✅ **Система кэширования** — сканируйте один раз, пересобирайте мгновенно + +### ✅ Контроль качества +- ✅ **Полное покрытие тестами** — 2 540+ тестов с обширным покрытием + +--- + +## 📦 Установка + +```bash +# Базовая установка (сканирование документации, анализ GitHub, PDF, упаковка) +pip install skill-seekers + +# С поддержкой всех LLM-платформ +pip install skill-seekers[all-llms] + +# С MCP-сервером +pip install skill-seekers[mcp] + +# Всё включено +pip install skill-seekers[all] +``` + +**Нужна помощь с выбором?** Запустите мастер настройки: +```bash +skill-seekers-setup +``` + +### Варианты установки + +| Команда установки | Функциональность | +|-------------------|-----------------| +| `pip install skill-seekers` | Сканирование, анализ GitHub, PDF, все платформы | +| `pip install skill-seekers[gemini]` | + Поддержка Google Gemini | +| `pip install skill-seekers[openai]` | + Поддержка OpenAI ChatGPT | +| `pip install skill-seekers[all-llms]` | + Все LLM-платформы | +| `pip install skill-seekers[mcp]` | + MCP-сервер | +| `pip install skill-seekers[video]` | + Извлечение субтитров и метаданных YouTube/Vimeo | +| `pip install skill-seekers[video-full]` | + Транскрипция Whisper и извлечение визуальных кадров | +| `pip install skill-seekers[jupyter]` | + Поддержка Jupyter-ноутбуков | +| `pip install skill-seekers[pptx]` | + Поддержка PowerPoint | +| `pip install skill-seekers[confluence]` | + Поддержка вики Confluence | +| `pip install skill-seekers[notion]` | + Поддержка страниц Notion | +| `pip install skill-seekers[rss]` | + Поддержка RSS/Atom-лент | +| `pip install skill-seekers[chat]` | + Поддержка экспорта чатов Slack/Discord | +| `pip install skill-seekers[asciidoc]` | + Поддержка документов AsciiDoc | +| `pip install skill-seekers[all]` | Всё включено | + +> **Визуальные зависимости для видео (с поддержкой GPU):** После установки `skill-seekers[video-full]` запустите +> `skill-seekers video --setup` для автоопределения вашего GPU и установки правильной сборки PyTorch +> + easyocr. Это рекомендуемый способ установки зависимостей для визуального извлечения. + +--- + +## 🚀 Рабочий процесс установки одной командой + +**Самый быстрый способ от конфигурации до загруженного навыка — полная автоматизация:** + +```bash +# Установка навыка React из официальных конфигураций (автозагрузка в Claude) +skill-seekers install --config react + +# Установка из локального файла конфигурации +skill-seekers install --config configs/custom.json + +# Установка без загрузки (только упаковка) +skill-seekers install --config django --no-upload + +# Предпросмотр рабочего процесса без выполнения +skill-seekers install --config react --dry-run +``` + +**Выполняемые фазы:** +``` +📥 ФАЗА 1: Получение конфигурации (если указано имя конфигурации) +📖 ФАЗА 2: Сканирование документации +✨ ФАЗА 3: ИИ-улучшение +📦 ФАЗА 4: Упаковка навыка +☁️ ФАЗА 5: Загрузка в Claude (опционально, требуется API Key) +``` + +--- + +## 📊 Матрица функций + +Skill Seekers поддерживает **4 LLM-платформы**, **17 типов источников** и полный паритет функций по всем целевым платформам. + +**Платформы:** Claude AI, Google Gemini, OpenAI ChatGPT, универсальный Markdown +**Типы источников:** Документация сайтов, репозитории GitHub, PDF, Word (.docx), EPUB, видео, локальные кодовые базы, Jupyter-ноутбуки, локальный HTML, OpenAPI/Swagger, AsciiDoc, PowerPoint (.pptx), RSS/Atom-ленты, man-страницы, вики Confluence, страницы Notion, экспорты чатов Slack/Discord + +Подробности см. в [Полной матрице функций](docs/FEATURE_MATRIX.md). + +### Быстрое сравнение платформ + +| Функция | Claude | Gemini | OpenAI | Markdown | +|---------|--------|--------|--------|----------| +| Формат | ZIP + YAML | tar.gz | ZIP + Vector | ZIP | +| Загрузка | ✅ API | ✅ API | ✅ API | ❌ Вручную | +| Улучшение | ✅ Sonnet 4 | ✅ 2.0 Flash | ✅ GPT-4o | ❌ Нет | +| Все режимы навыков | ✅ | ✅ | ✅ | ✅ | + +--- + +## Примеры использования + +### Сканирование документации + +```bash +# Сканирование документации сайта +skill-seekers scrape --config configs/react.json + +# Быстрое сканирование без конфигурации +skill-seekers scrape --url https://react.dev --name react + +# Асинхронный режим (в 3 раза быстрее) +skill-seekers scrape --config configs/godot.json --async --workers 8 +``` + +### Извлечение из PDF + +```bash +# Базовое извлечение из PDF +skill-seekers pdf --pdf docs/manual.pdf --name myskill + +# Расширенные функции +skill-seekers pdf --pdf docs/manual.pdf --name myskill \ + --extract-tables \ # Извлечение таблиц + --parallel \ # Быстрая параллельная обработка + --workers 8 # Использование 8 ядер CPU + +# Сканированные PDF (требуется: pip install pytesseract Pillow) +skill-seekers pdf --pdf docs/scanned.pdf --name myskill --ocr +``` + +### Извлечение из видео + +```bash +# Установка поддержки видео +pip install skill-seekers[video] # Субтитры + метаданные +pip install skill-seekers[video-full] # + Whisper транскрипция + извлечение визуальных кадров + +# Автоопределение GPU и установка визуальных зависимостей (PyTorch + easyocr) +skill-seekers video --setup + +# Извлечение из видео YouTube +skill-seekers video --url https://www.youtube.com/watch?v=dQw4w9WgXcQ --name mytutorial + +# Извлечение из плейлиста YouTube +skill-seekers video --playlist https://www.youtube.com/playlist?list=... --name myplaylist + +# Извлечение из локального видеофайла +skill-seekers video --video-file recording.mp4 --name myrecording + +# Извлечение с анализом визуальных кадров (требуются зависимости video-full) +skill-seekers video --url https://www.youtube.com/watch?v=... --name mytutorial --visual + +# С ИИ-улучшением (очистка OCR + генерация отполированного SKILL.md) +skill-seekers video --url https://www.youtube.com/watch?v=... --visual --enhance-level 2 + +# Обрезка определённого фрагмента видео (поддерживаются секунды, MM:SS, HH:MM:SS) +skill-seekers video --url https://www.youtube.com/watch?v=... --start-time 1:30 --end-time 5:00 + +# Использование Vision API для OCR-кадров с низкой достоверностью (требуется ANTHROPIC_API_KEY) +skill-seekers video --url https://www.youtube.com/watch?v=... --visual --vision-ocr + +# Пересборка навыка из ранее извлечённых данных (пропуск загрузки) +skill-seekers video --from-json output/mytutorial/video_data/extracted_data.json --name mytutorial +``` + +> **Полное руководство:** см. [docs/VIDEO_GUIDE.md](docs/VIDEO_GUIDE.md) для полной справки по CLI, +> деталей визуального конвейера, опций ИИ-улучшения и устранения неполадок. + +### Анализ репозиториев GitHub + +```bash +# Базовое сканирование репозитория +skill-seekers github --repo facebook/react + +# С аутентификацией (более высокие лимиты запросов) +export GITHUB_TOKEN=ghp_your_token_here +skill-seekers github --repo facebook/react + +# Настройка содержимого +skill-seekers github --repo django/django \ + --include-issues \ # Извлечение GitHub Issues + --max-issues 100 \ # Ограничение количества issues + --include-changelog # Извлечение CHANGELOG.md +``` + +### Унифицированное мультиисточниковое сканирование + +**Объединение документации + GitHub + PDF в один навык с обнаружением конфликтов:** + +```bash +# Использование готовых унифицированных конфигураций +skill-seekers unified --config configs/react_unified.json + +# Или создание унифицированной конфигурации +cat > configs/myframework_unified.json << 'EOF' +{ + "name": "myframework", + "merge_mode": "rule-based", + "sources": [ + { + "type": "documentation", + "base_url": "https://docs.myframework.com/", + "max_pages": 200 + }, + { + "type": "github", + "repo": "owner/myframework", + "code_analysis_depth": "surface" + } + ] +} +EOF + +skill-seekers unified --config configs/myframework_unified.json +``` + +**Обнаружение конфликтов автоматически находит:** +- 🔴 **Отсутствует в коде** (высокий приоритет): задокументировано, но не реализовано +- 🟡 **Отсутствует в документации** (средний приоритет): реализовано, но не задокументировано +- ⚠️ **Несовпадение сигнатур**: различные параметры/типы +- ℹ️ **Несовпадение описаний**: различные пояснения + +**Полное руководство:** см. [docs/UNIFIED_SCRAPING.md](docs/UNIFIED_SCRAPING.md). + +### Приватные репозитории конфигураций + +**Обмен пользовательскими конфигурациями в команде через приватные Git-репозитории:** + +```bash +# Использование MCP-инструментов для регистрации приватного командного репозитория +add_config_source( + name="team", + git_url="https://github.com/mycompany/skill-configs.git", + token_env="GITHUB_TOKEN" +) + +# Получение конфигурации из командного репозитория +fetch_config(source="team", config_name="internal-api") +``` + +**Поддерживаемые платформы:** +- GitHub (`GITHUB_TOKEN`), GitLab (`GITLAB_TOKEN`), Gitea (`GITEA_TOKEN`), Bitbucket (`BITBUCKET_TOKEN`) + +**Полное руководство:** см. [docs/GIT_CONFIG_SOURCES.md](docs/GIT_CONFIG_SOURCES.md). + +## Как это работает + +```mermaid +graph LR + A[Документация сайта] --> B[Skill Seekers] + B --> C[Сканер] + B --> D[ИИ-улучшение] + B --> E[Упаковщик] + C --> F[Организованные справочные файлы] + D --> F + F --> E + E --> G[Claude навык .zip] + G --> H[Загрузка в Claude AI] +``` + +0. **Обнаружение llms.txt** — проверка наличия llms-full.txt, llms.txt, llms-small.txt +1. **Сканирование**: извлечение всех страниц из документации +2. **Категоризация**: организация контента по темам (API, руководства, учебники и т.д.) +3. **Улучшение**: ИИ анализирует документацию и создаёт всеобъемлющий SKILL.md с примерами +4. **Упаковка**: объединение всего в готовый для Claude `.zip`-файл + +## 📋 Предварительные требования + +**Перед началом убедитесь, что у вас есть:** + +1. **Python 3.10 или выше** — [Скачать](https://www.python.org/downloads/) | Проверить: `python3 --version` +2. **Git** — [Скачать](https://git-scm.com/) | Проверить: `git --version` +3. **15–30 минут** для первоначальной настройки + +**Впервые?** → **[Начните здесь: Безотказное руководство быстрого старта](BULLETPROOF_QUICKSTART.md)** 🎯 + +--- + +## 📤 Загрузка навыков в Claude + +После упаковки навыка его необходимо загрузить в Claude: + +### Вариант 1: Автоматическая загрузка (через API) + +```bash +# Установка API Key (однократно) +export ANTHROPIC_API_KEY=sk-ant-... + +# Упаковка и автоматическая загрузка +skill-seekers package output/react/ --upload + +# ИЛИ загрузка существующего .zip +skill-seekers upload output/react.zip +``` + +### Вариант 2: Ручная загрузка (без API Key) + +```bash +# Упаковка навыка +skill-seekers package output/react/ +# → Создаёт output/react.zip + +# Затем загрузите вручную: +# - Перейдите на https://claude.ai/skills +# - Нажмите «Upload Skill» +# - Выберите output/react.zip +``` + +### Вариант 3: MCP (Claude Code) + +``` +В Claude Code просто попросите: +"Упакуй и загрузи навык React" +``` + +--- + +## 🤖 Установка в ИИ-агенты + +Skill Seekers может автоматически устанавливать навыки в 10+ ИИ-агентов для программирования. + +```bash +# Установка в конкретный агент +skill-seekers install-agent output/react/ --agent cursor + +# Установка во все агенты сразу +skill-seekers install-agent output/react/ --agent all + +# Предпросмотр без установки +skill-seekers install-agent output/react/ --agent cursor --dry-run +``` + +### Поддерживаемые агенты + +| Агент | Путь | Тип | +|-------|------|-----| +| **Claude Code** | `~/.claude/skills/` | Глобальный | +| **Cursor** | `.cursor/skills/` | Проектный | +| **VS Code / Copilot** | `.github/skills/` | Проектный | +| **Amp** | `~/.amp/skills/` | Глобальный | +| **Goose** | `~/.config/goose/skills/` | Глобальный | +| **OpenCode** | `~/.opencode/skills/` | Глобальный | +| **Windsurf** | `~/.windsurf/skills/` | Глобальный | + +--- + +## 🔌 MCP-интеграция (26 инструментов) + +Skill Seekers поставляется с MCP-сервером для использования из Claude Code, Cursor, Windsurf, VS Code + Cline или IntelliJ IDEA. + +```bash +# Режим stdio (Claude Code, VS Code + Cline) +python -m skill_seekers.mcp.server_fastmcp + +# Режим HTTP (Cursor, Windsurf, IntelliJ) +python -m skill_seekers.mcp.server_fastmcp --transport http --port 8765 + +# Автоматическая настройка всех агентов за раз +./setup_mcp.sh +``` + +**Все 26 инструментов:** +- **Основные (9):** `list_configs`, `generate_config`, `validate_config`, `estimate_pages`, `scrape_docs`, `package_skill`, `upload_skill`, `enhance_skill`, `install_skill` +- **Расширенные (10):** `scrape_github`, `scrape_pdf`, `unified_scrape`, `merge_sources`, `detect_conflicts`, `add_config_source`, `fetch_config`, `list_config_sources`, `remove_config_source`, `split_config` +- **Векторные БД (4):** `export_to_chroma`, `export_to_weaviate`, `export_to_faiss`, `export_to_qdrant` +- **Облачные (3):** `cloud_upload`, `cloud_download`, `cloud_list` + +**Полное руководство:** [docs/MCP_SETUP.md](docs/MCP_SETUP.md) + +--- + +## ⚙️ Конфигурация + +### Доступные пресеты (24+) + +```bash +# Список всех пресетов +skill-seekers list-configs +``` + +| Категория | Пресеты | +|-----------|---------| +| **Веб-фреймворки** | `react`, `vue`, `angular`, `svelte`, `nextjs` | +| **Python** | `django`, `flask`, `fastapi`, `sqlalchemy`, `pytest` | +| **Разработка игр** | `godot`, `pygame`, `unity` | +| **Инструменты и DevOps** | `docker`, `kubernetes`, `terraform`, `ansible` | +| **Унифицированные (документация + GitHub)** | `react-unified`, `vue-unified`, `nextjs-unified` и другие | + +### Создание собственной конфигурации + +```bash +# Вариант 1: Интерактивный +skill-seekers scrape --interactive + +# Вариант 2: Копирование и редактирование пресета +cp configs/react.json configs/myframework.json +nano configs/myframework.json +skill-seekers scrape --config configs/myframework.json +``` + +### Структура файла конфигурации + +```json +{ + "name": "myframework", + "description": "Когда использовать этот навык", + "base_url": "https://docs.myframework.com/", + "selectors": { + "main_content": "article", + "title": "h1", + "code_blocks": "pre code" + }, + "url_patterns": { + "include": ["/docs", "/guide"], + "exclude": ["/blog", "/about"] + }, + "categories": { + "getting_started": ["intro", "quickstart"], + "api": ["api", "reference"] + }, + "rate_limit": 0.5, + "max_pages": 500 +} +``` + +### Где хранить конфигурации + +Инструмент выполняет поиск в следующем порядке: +1. Точный путь, как указан +2. `./configs/` (текущая директория) +3. `~/.config/skill-seekers/configs/` (пользовательская директория конфигурации) +4. SkillSeekersWeb.com API (готовые конфигурации) + +--- + +## 📊 Что создаётся + +``` +output/ +├── godot_data/ # Полученные необработанные данные +│ ├── pages/ # JSON-файлы (по одному на страницу) +│ └── summary.json # Обзор +│ +└── godot/ # Навык + ├── SKILL.md # Улучшенный с реальными примерами + ├── references/ # Категоризированная документация + │ ├── index.md + │ ├── getting_started.md + │ ├── scripting.md + │ └── ... + ├── scripts/ # Пусто (добавьте свои скрипты) + └── assets/ # Пусто (добавьте свои ресурсы) +``` + +--- + +## 🐛 Устранение неполадок + +### Контент не извлечён? +- Проверьте селектор `main_content` +- Попробуйте: `article`, `main`, `div[role="main"]` + +### Данные есть, но не используются? +```bash +# Принудительное повторное сканирование +rm -rf output/myframework_data/ +skill-seekers scrape --config configs/myframework.json +``` + +### Категоризация не устраивает? +Отредактируйте раздел `categories` в конфигурации, используя более подходящие ключевые слова. + +### Хотите обновить документацию? +```bash +# Удалите старые данные и просканируйте заново +rm -rf output/godot_data/ +skill-seekers scrape --config configs/godot.json +``` + +### Улучшение не работает? +```bash +# Проверьте, установлен ли API Key +echo $ANTHROPIC_API_KEY + +# Попробуйте LOCAL-режим (использует Claude Code Max, API Key не нужен) +skill-seekers enhance output/react/ --mode LOCAL + +# Мониторинг статуса фонового улучшения +skill-seekers enhance-status output/react/ --watch +``` + +### Проблемы с лимитами GitHub? +```bash +# Установите GitHub Token (5000 запросов/час вместо 60/час анонимно) +export GITHUB_TOKEN=ghp_your_token_here + +# Или настройте несколько профилей +skill-seekers config --github +``` + +--- + +## 📈 Производительность + +| Задача | Время | Примечания | +|--------|-------|-----------| +| Сканирование (синхр.) | 15–45 мин | Только первый раз, на основе потоков | +| Сканирование (асинхр.) | 5–15 мин | В 2–3 раза быстрее с флагом `--async` | +| Сборка | 1–3 мин | Быстрая пересборка из кэша | +| Пересборка | <1 мин | С `--skip-scrape` | +| Улучшение (LOCAL) | 30–60 сек | Использует Claude Code Max | +| Улучшение (API) | 20–40 сек | Требуется API Key | +| Видео (субтитры) | 1–3 мин | YouTube/локальное, только субтитры | +| Видео (визуальное) | 5–15 мин | + OCR-извлечение кадров | +| Упаковка | 5–10 сек | Создание итогового .zip | + +--- + +## 📚 Документация + +### Начало работы +- **[BULLETPROOF_QUICKSTART.md](BULLETPROOF_QUICKSTART.md)** — 🎯 **НАЧНИТЕ ЗДЕСЬ**, если вы новичок! +- **[QUICKSTART.md](QUICKSTART.md)** — Быстрый старт для опытных пользователей +- **[TROUBLESHOOTING.md](TROUBLESHOOTING.md)** — Распространённые проблемы и решения +- **[docs/QUICK_REFERENCE.md](docs/QUICK_REFERENCE.md)** — Краткая справка на одну страницу + +### Руководства +- **[docs/LARGE_DOCUMENTATION.md](docs/LARGE_DOCUMENTATION.md)** — Работа с документами на 10K–40K+ страниц +- **[ASYNC_SUPPORT.md](ASYNC_SUPPORT.md)** — Руководство по асинхронному режиму (в 2–3 раза быстрее) +- **[docs/ENHANCEMENT_MODES.md](docs/ENHANCEMENT_MODES.md)** — Руководство по режимам ИИ-улучшения +- **[docs/MCP_SETUP.md](docs/MCP_SETUP.md)** — Настройка MCP-интеграции +- **[docs/UNIFIED_SCRAPING.md](docs/UNIFIED_SCRAPING.md)** — Мультиисточниковое сканирование +- **[docs/VIDEO_GUIDE.md](docs/VIDEO_GUIDE.md)** — Полное руководство по извлечению из видео + +### Руководства по интеграции +- **[docs/integrations/LANGCHAIN.md](docs/integrations/LANGCHAIN.md)** — LangChain RAG +- **[docs/integrations/CURSOR.md](docs/integrations/CURSOR.md)** — Cursor IDE +- **[docs/integrations/WINDSURF.md](docs/integrations/WINDSURF.md)** — Windsurf IDE +- **[docs/integrations/CLINE.md](docs/integrations/CLINE.md)** — Cline (VS Code) +- **[docs/integrations/RAG_PIPELINES.md](docs/integrations/RAG_PIPELINES.md)** — Все RAG-конвейеры + +--- + +## 📝 Лицензия + +Лицензия MIT — подробности в файле [LICENSE](LICENSE) + +--- + +Удачного создания навыков! 🚀 + +--- + +## 🔒 Безопасность + +[![MseeP.ai Security Assessment Badge](https://mseep.net/pr/yusufkaraaslan-skill-seekers-badge.png)](https://mseep.ai/app/yusufkaraaslan-skill-seekers) diff --git a/README.tr.md b/README.tr.md new file mode 100644 index 0000000..8344f6a --- /dev/null +++ b/README.tr.md @@ -0,0 +1,1182 @@ +

+ Skill Seekers +

+ +# Skill Seekers + +[English](README.md) | [简体中文](README.zh-CN.md) | [日本語](README.ja.md) | [한국어](README.ko.md) | [Español](README.es.md) | [Français](README.fr.md) | [Deutsch](README.de.md) | [Português](README.pt-BR.md) | Türkçe | [العربية](README.ar.md) | [हिन्दी](README.hi.md) | [Русский](README.ru.md) + +> ⚠️ **Makine çevirisi bildirimi** +> +> Bu belge yapay zeka tarafından otomatik olarak çevrilmiştir. Kaliteyi sağlamak için çaba göstermemize rağmen, hatalı ifadeler bulunabilir. +> +> Çeviriyi iyileştirmemize yardımcı olmak için [GitHub Issue #260](https://github.com/yusufkaraaslan/Skill_Seekers/issues/260) üzerinden geri bildirimlerinizi paylaşabilirsiniz! + +[![Sürüm](https://img.shields.io/badge/version-3.2.0-blue.svg)](https://github.com/yusufkaraaslan/Skill_Seekers/releases) +[![Lisans: MIT](https://img.shields.io/badge/License-MIT-yellow.svg)](https://opensource.org/licenses/MIT) +[![Python 3.10+](https://img.shields.io/badge/python-3.10+-blue.svg)](https://www.python.org/downloads/) +[![MCP Entegrasyonu](https://img.shields.io/badge/MCP-Integrated-blue.svg)](https://modelcontextprotocol.io) +[![Test Geçti](https://img.shields.io/badge/Tests-2540%2B%20Passing-brightgreen.svg)](tests/) +[![Proje Panosu](https://img.shields.io/badge/Project-Board-purple.svg)](https://github.com/users/yusufkaraaslan/projects/2) +[![PyPI Sürümü](https://badge.fury.io/py/skill-seekers.svg)](https://pypi.org/project/skill-seekers/) +[![PyPI - İndirmeler](https://img.shields.io/pypi/dm/skill-seekers.svg)](https://pypi.org/project/skill-seekers/) +[![PyPI - Python Sürümü](https://img.shields.io/pypi/pyversions/skill-seekers.svg)](https://pypi.org/project/skill-seekers/) +[![Web Sitesi](https://img.shields.io/badge/Website-skillseekersweb.com-blue.svg)](https://skillseekersweb.com/) +[![Twitter Takip](https://img.shields.io/twitter/follow/_yUSyUS_?style=social)](https://x.com/_yUSyUS_) +[![GitHub Yıldızları](https://img.shields.io/github/stars/yusufkaraaslan/Skill_Seekers?style=social)](https://github.com/yusufkaraaslan/Skill_Seekers) + +**🧠 Yapay zeka sistemleri için veri katmanı.** Skill Seekers; dokümantasyon sitelerini, GitHub depolarını, PDF'leri, videoları, Jupyter not defterlerini, vikileri ve 17'den fazla kaynak türünü yapılandırılmış bilgi varlıklarına dönüştürür — AI Yetenekleri (Claude, Gemini, OpenAI), RAG hatları (LangChain, LlamaIndex, Pinecone) ve AI kodlama asistanları (Cursor, Windsurf, Cline) için saatler değil dakikalar içinde hazır hale getirir. + +> 🌐 **[SkillSeekersWeb.com'u Ziyaret Edin](https://skillseekersweb.com/)** - 24'ten fazla hazır yapılandırmayı inceleyin, kendi yapılandırmalarınızı paylaşın ve tam dokümantasyona erişin! + +> 📋 **[Geliştirme Yol Haritası ve Görevleri Görüntüleyin](https://github.com/users/yusufkaraaslan/projects/2)** - 10 kategoride 134 görev, istediğinizi seçip katkıda bulunun! + +## 🧠 Yapay Zeka Sistemleri İçin Veri Katmanı + +**Skill Seekers, evrensel bir ön işleme katmanıdır** ve ham dokümantasyon ile onu tüketen tüm yapay zeka sistemleri arasında yer alır. İster Claude yetenekleri, ister LangChain RAG hattı, ister Cursor `.cursorrules` dosyası oluşturuyor olun — veri hazırlık süreci aynıdır. Bir kez yaparsınız, tüm hedef platformlara dışa aktarırsınız. + +```bash +# Tek komut → yapılandırılmış bilgi varlığı +skill-seekers create https://docs.react.dev/ +# veya: skill-seekers create facebook/react +# veya: skill-seekers create ./my-project + +# Herhangi bir AI sistemine dışa aktar +skill-seekers package output/react --target claude # → Claude AI Yeteneği (ZIP) +skill-seekers package output/react --target langchain # → LangChain Documents +skill-seekers package output/react --target llama-index # → LlamaIndex TextNodes +skill-seekers package output/react --target cursor # → .cursorrules +``` + +### Oluşturulan Çıktılar + +| Çıktı | Hedef | Kullanım Alanı | +|-------|-------|---------------| +| **Claude Yeteneği** (ZIP + YAML) | `--target claude` | Claude Code, Claude API | +| **Gemini Yeteneği** (tar.gz) | `--target gemini` | Google Gemini | +| **OpenAI / Custom GPT** (ZIP) | `--target openai` | GPT-4o, özel asistanlar | +| **LangChain Documents** | `--target langchain` | QA zincirleri, ajanlar, alıcılar | +| **LlamaIndex TextNodes** | `--target llama-index` | Sorgu motorları, sohbet motorları | +| **Haystack Documents** | `--target haystack` | Kurumsal RAG hatları | +| **Pinecone-hazır** (Markdown) | `--target markdown` | Vektör yükleme | +| **ChromaDB / FAISS / Qdrant** | `--format chroma/faiss/qdrant` | Yerel vektör veritabanları | +| **Cursor** `.cursorrules` | `--target claude` → kopyala | Cursor IDE AI bağlamı | +| **Windsurf / Cline / Continue** | `--target claude` → kopyala | VS Code, IntelliJ, Vim | + +### Neden Önemli + +- ⚡ **%99 daha hızlı** — Günlerce süren manuel veri hazırlığı → 15–45 dakika +- 🎯 **AI Yetenek kalitesi** — Örnekler, desenler ve kılavuzlar içeren 500+ satırlık SKILL.md dosyaları +- 📊 **RAG-hazır parçalar** — Kod bloklarını koruyan ve bağlamı sürdüren akıllı parçalama +- 🎬 **Videolar** — YouTube ve yerel videolardan kod, altyazı ve yapılandırılmış bilgi çıkarma +- 🔄 **Çoklu kaynak** — 17 kaynak türünü (dokümantasyon, GitHub, PDF, video, not defterleri, vikiler ve daha fazlası) tek bir bilgi varlığında birleştirme +- 🌐 **Bir hazırlık, her hedef** — Yeniden tarama yapmadan aynı varlığı 16 platforma dışa aktarma +- ✅ **Savaşta test edilmiş** — 2.540+ test, 24+ çerçeve ön ayarı, üretime hazır + +## 🚀 Hızlı Başlangıç (3 Komut) + +```bash +# 1. Kurulum +pip install skill-seekers + +# 2. Herhangi bir kaynaktan yetenek oluştur +skill-seekers create https://docs.django.com/ + +# 3. AI platformunuz için paketle +skill-seekers package output/django --target claude +``` + +**İşte bu kadar!** Artık kullanıma hazır `output/django-claude.zip` dosyanız var. + +### Diğer Kaynaklar (17 Desteklenen) + +```bash +# GitHub deposu +skill-seekers create facebook/react + +# Yerel proje +skill-seekers create ./my-project + +# PDF belgesi +skill-seekers create manual.pdf + +# Word belgesi +skill-seekers create report.docx + +# EPUB e-kitap +skill-seekers create book.epub + +# Jupyter Not Defteri +skill-seekers create notebook.ipynb + +# OpenAPI spec +skill-seekers create openapi.yaml + +# PowerPoint sunumu +skill-seekers create presentation.pptx + +# AsciiDoc belgesi +skill-seekers create guide.adoc + +# Yerel HTML dosyası +skill-seekers create page.html + +# RSS/Atom beslemesi +skill-seekers create feed.rss + +# Man sayfası +skill-seekers create curl.1 + +# Video (YouTube, Vimeo veya yerel dosya — skill-seekers[video] gerektirir) +skill-seekers video --url https://www.youtube.com/watch?v=... --name mytutorial +# İlk kez mi? GPU destekli görsel bağımlılıkları otomatik kur: +skill-seekers video --setup + +# Confluence vikisi +skill-seekers confluence --space TEAM --name wiki + +# Notion sayfaları +skill-seekers notion --database-id ... --name docs + +# Slack/Discord sohbet dışa aktarımı +skill-seekers chat --export-dir ./slack-export --name team-chat +``` + +### Her Yere Dışa Aktar + +```bash +# Birden fazla platform için paketle +for platform in claude gemini openai langchain; do + skill-seekers package output/django --target $platform +done +``` + +## Skill Seekers Nedir? + +Skill Seekers, **yapay zeka sistemleri için veri katmanıdır**. 17 kaynak türünü — dokümantasyon siteleri, GitHub depoları, PDF'ler, videolar, Jupyter Not Defterleri, Word/EPUB/AsciiDoc belgeleri, OpenAPI spesifikasyonları, PowerPoint sunumları, RSS beslemeleri, man sayfaları, Confluence vikileri, Notion sayfaları, Slack/Discord dışa aktarımları ve daha fazlasını — her AI hedefi için yapılandırılmış bilgi varlıklarına dönüştürür: + +| Kullanım Alanı | Elde Ettiğiniz | Örnekler | +|----------------|---------------|----------| +| **AI Yetenekleri** | Kapsamlı SKILL.md + referanslar | Claude Code, Gemini, GPT | +| **RAG Hatları** | Zengin meta verili parçalanmış belgeler | LangChain, LlamaIndex, Haystack | +| **Vektör Veritabanları** | Yüklemeye hazır önceden biçimlendirilmiş veri | Pinecone, Chroma, Weaviate, FAISS | +| **AI Kodlama Asistanları** | IDE yapay zekasının otomatik okuduğu bağlam dosyaları | Cursor, Windsurf, Cline, Continue.dev | + +Skill Seekers, günlerce süren manuel ön işleme çalışması yerine şunları yapar: + +1. **Toplama** — Dokümantasyon, GitHub depoları, yerel kod tabanları, PDF'ler, videolar, Jupyter not defterleri, vikiler ve 17'den fazla kaynak türü +2. **Analiz** — Derin AST ayrıştırma, desen tespiti, API çıkarma +3. **Yapılandırma** — Meta verili kategorize edilmiş referans dosyaları +4. **Zenginleştirme** — AI destekli SKILL.md oluşturma (Claude, Gemini veya yerel) +5. **Dışa Aktarma** — Tek bir varlıktan 16 platforma özel format + +## 📚 Dokümantasyon + +| Yapmak istediğim... | Bunu oku | +|---------------------|----------| +| **Hızlıca başlamak** | [Hızlı Başlangıç](docs/getting-started/02-quick-start.md) - İlk yetenek için 3 komut | +| **Kavramları anlamak** | [Temel Kavramlar](docs/user-guide/01-core-concepts.md) - Nasıl çalışır | +| **Kaynak taramak** | [Tarama Kılavuzu](docs/user-guide/02-scraping.md) - Tüm kaynak türleri | +| **Yetenekleri geliştirmek** | [Zenginleştirme Kılavuzu](docs/user-guide/03-enhancement.md) - AI zenginleştirme | +| **Yetenekleri dışa aktarmak** | [Paketleme Kılavuzu](docs/user-guide/04-packaging.md) - Platform dışa aktarımı | +| **Komutları aramak** | [CLI Referansı](docs/reference/CLI_REFERENCE.md) - Tüm 20 komut | +| **Yapılandırma yapmak** | [Yapılandırma Formatı](docs/reference/CONFIG_FORMAT.md) - JSON spesifikasyonu | +| **Sorunları çözmek** | [Sorun Giderme](docs/user-guide/06-troubleshooting.md) - Yaygın sorunlar | + +**Tam dokümantasyon:** [docs/README.md](docs/README.md) + +## Neden Kullanmalısınız? + +### AI Yetenek Oluşturucuları İçin (Claude, Gemini, OpenAI) + +- 🎯 **Üretime hazır yetenekler** — Kod örnekleri, desenler ve kılavuzlar içeren 500+ satırlık SKILL.md dosyaları +- 🔄 **Zenginleştirme iş akışları** — `security-focus`, `architecture-comprehensive` veya özel YAML ön ayarları uygulayın +- 🎮 **Her alan** — Oyun motorları (Godot, Unity), çerçeveler (React, Django), dahili araçlar +- 🔧 **Ekipler** — Dahili dokümantasyon + kodu tek bir doğruluk kaynağında birleştirin +- 📚 **Kalite** — Örnekler, hızlı referans ve navigasyon kılavuzu ile AI zenginleştirilmiş + +### RAG Geliştiricileri ve AI Mühendisleri İçin + +- 🤖 **RAG-hazır veri** — Önceden parçalanmış LangChain `Documents`, LlamaIndex `TextNodes`, Haystack `Documents` +- 🚀 **%99 daha hızlı** — Günlerce süren ön işleme → 15–45 dakika +- 📊 **Akıllı meta veri** — Kategoriler, kaynaklar, türler → daha iyi alma doğruluğu +- 🔄 **Çoklu kaynak** — Tek bir hatta dokümantasyon + GitHub + PDF + video birleştirme +- 🌐 **Platform bağımsız** — Yeniden tarama yapmadan herhangi bir vektör veritabanına veya çerçeveye dışa aktarma + +### AI Kodlama Asistanı Kullanıcıları İçin + +- 💻 **Cursor / Windsurf / Cline** — Otomatik `.cursorrules` / `.windsurfrules` / `.clinerules` oluşturma +- 🎯 **Kalıcı bağlam** — Tekrarlanan yönlendirme olmadan AI çerçevelerinizi "bilir" +- 📚 **Her zaman güncel** — Dokümantasyon değiştiğinde bağlamı dakikalar içinde güncelleyin + +## Temel Özellikler + +### 🌐 Dokümantasyon Tarama +- ✅ **llms.txt Desteği** - LLM-hazır dokümantasyon dosyalarını otomatik algılar ve kullanır (10 kat daha hızlı) +- ✅ **Evrensel Tarayıcı** - HERHANGİ bir dokümantasyon sitesiyle çalışır +- ✅ **Akıllı Kategorileme** - İçeriği konuya göre otomatik düzenler +- ✅ **Kod Dili Algılama** - Python, JavaScript, C++, GDScript vb. tanır +- ✅ **24+ Hazır Ön Ayar** - Godot, React, Vue, Django, FastAPI ve daha fazlası + +### 📄 PDF Desteği +- ✅ **Temel PDF Çıkarma** - PDF dosyalarından metin, kod ve resim çıkarma +- ✅ **Taranmış PDF'ler İçin OCR** - Taranmış belgelerden metin çıkarma +- ✅ **Parola Korumalı PDF'ler** - Şifrelenmiş PDF'leri işleme +- ✅ **Tablo Çıkarma** - PDF'lerden karmaşık tabloları çıkarma +- ✅ **Paralel İşleme** - Büyük PDF'ler için 3 kat daha hızlı +- ✅ **Akıllı Önbellekleme** - Tekrar çalıştırmalarda %50 daha hızlı + +### 🎬 Video Çıkarma +- ✅ **YouTube ve Yerel Videolar** - Videolardan altyazı, kod ve yapılandırılmış bilgi çıkarma +- ✅ **Görsel Kare Analizi** - Kod editörleri, terminaller, slaytlar ve diyagramlardan OCR çıkarma +- ✅ **GPU Otomatik Algılama** - Doğru PyTorch derlemesini otomatik yükleme (CUDA/ROCm/MPS/CPU) +- ✅ **AI Zenginleştirme** - İki aşamalı: OCR yapıtlarını temizleme + gösterişli SKILL.md oluşturma +- ✅ **Zaman Kırpma** - `--start-time` ve `--end-time` ile belirli bölümleri çıkarma +- ✅ **Oynatma Listesi Desteği** - YouTube oynatma listesindeki tüm videoları toplu işleme +- ✅ **Vision API Yedekleme** - Düşük güvenilirlikli OCR kareleri için Claude Vision kullanma + +### 🐙 GitHub Deposu Analizi +- ✅ **Derin Kod Analizi** - Python, JavaScript, TypeScript, Java, C++, Go için AST ayrıştırma +- ✅ **API Çıkarma** - Parametreler ve türlerle fonksiyonlar, sınıflar, yöntemler +- ✅ **Depo Meta Verileri** - README, dosya ağacı, dil dağılımı, yıldız/çatal sayıları +- ✅ **GitHub Issues ve PR'ler** - Etiketler ve kilometre taşlarıyla açık/kapalı sorunları getirme +- ✅ **CHANGELOG ve Sürümler** - Sürüm geçmişini otomatik çıkarma +- ✅ **Çakışma Tespiti** - Belgelenmiş API'ler ile gerçek kod uygulamasını karşılaştırma +- ✅ **MCP Entegrasyonu** - Doğal dil: "GitHub deposu facebook/react'i tara" + +### 🔄 Birleşik Çoklu Kaynak Tarama +- ✅ **Birden Fazla Kaynağı Birleştirme** - Tek bir yetenekte dokümantasyon + GitHub + PDF karıştırma +- ✅ **Çakışma Tespiti** - Dokümantasyon ile kod arasındaki tutarsızlıkları otomatik bulma +- ✅ **Akıllı Birleştirme** - Kural tabanlı veya AI destekli çakışma çözümleme +- ✅ **Şeffaf Raporlama** - ⚠️ uyarılarıyla yan yana karşılaştırma +- ✅ **Dokümantasyon Boşluk Analizi** - Güncelliğini yitirmiş dokümantasyon ve belgelenmemiş özellikleri belirleme +- ✅ **Tek Doğruluk Kaynağı** - Hem niyet (dokümantasyon) hem de gerçeği (kod) gösteren tek yetenek +- ✅ **Geriye Dönük Uyumluluk** - Eski tek kaynaklı yapılandırmalar çalışmaya devam eder + +### 🤖 Çoklu LLM Platform Desteği +- ✅ **4 LLM Platformu** - Claude AI, Google Gemini, OpenAI ChatGPT, Genel Markdown +- ✅ **Evrensel Tarama** - Aynı dokümantasyon tüm platformlar için çalışır +- ✅ **Platforma Özel Paketleme** - Her LLM için optimize edilmiş formatlar +- ✅ **Tek Komutla Dışa Aktarma** - `--target` bayrağı ile platform seçimi +- ✅ **İsteğe Bağlı Bağımlılıklar** - Yalnızca ihtiyacınız olanı yükleyin +- ✅ **%100 Geriye Dönük Uyumluluk** - Mevcut Claude iş akışları değişmez + +| Platform | Format | Yükleme | Zenginleştirme | API Key | Özel Uç Nokta | +|----------|--------|---------|----------------|---------|---------------| +| **Claude AI** | ZIP + YAML | ✅ Otomatik | ✅ Evet | ANTHROPIC_API_KEY | ANTHROPIC_BASE_URL | +| **Google Gemini** | tar.gz | ✅ Otomatik | ✅ Evet | GOOGLE_API_KEY | - | +| **OpenAI ChatGPT** | ZIP + Vector Store | ✅ Otomatik | ✅ Evet | OPENAI_API_KEY | - | +| **Genel Markdown** | ZIP | ❌ Manuel | ❌ Hayır | - | - | + +```bash +# Claude (varsayılan - değişiklik gerekmez!) +skill-seekers package output/react/ +skill-seekers upload react.zip + +# Google Gemini +pip install skill-seekers[gemini] +skill-seekers package output/react/ --target gemini +skill-seekers upload react-gemini.tar.gz --target gemini + +# OpenAI ChatGPT +pip install skill-seekers[openai] +skill-seekers package output/react/ --target openai +skill-seekers upload react-openai.zip --target openai + +# Genel Markdown (evrensel dışa aktarma) +skill-seekers package output/react/ --target markdown +``` + +
+🔧 Claude Uyumlu API'ler İçin Ortam Değişkenleri (ör. GLM-4.7) + +Skill Seekers, herhangi bir Claude uyumlu API uç noktasını destekler: + +```bash +# Seçenek 1: Resmi Anthropic API (varsayılan) +export ANTHROPIC_API_KEY=sk-ant-... + +# Seçenek 2: GLM-4.7 Claude uyumlu API +export ANTHROPIC_API_KEY=your-glm-47-api-key +export ANTHROPIC_BASE_URL=https://glm-4-7-endpoint.com/v1 + +# Tüm AI zenginleştirme özellikleri yapılandırılmış uç noktayı kullanacaktır +skill-seekers enhance output/react/ +skill-seekers analyze --directory . --enhance +``` + +**Not**: `ANTHROPIC_BASE_URL` ayarlamak, GLM-4.7 veya diğer uyumlu hizmetler gibi herhangi bir Claude uyumlu API uç noktasını kullanmanıza olanak tanır. + +
+ +**Kurulum:** +```bash +# Gemini desteği ile kur +pip install skill-seekers[gemini] + +# OpenAI desteği ile kur +pip install skill-seekers[openai] + +# Tüm LLM platformlarını kur +pip install skill-seekers[all-llms] +``` + +### 🔗 RAG Çerçeve Entegrasyonları + +- ✅ **LangChain Documents** - `page_content` + meta veri ile doğrudan `Document` formatına dışa aktarma + - İçin uygun: QA zincirleri, alıcılar, vektör depoları, ajanlar + - Örnek: [LangChain RAG Hattı](examples/langchain-rag-pipeline/) + - Kılavuz: [LangChain Entegrasyonu](docs/integrations/LANGCHAIN.md) + +- ✅ **LlamaIndex TextNodes** - Benzersiz ID'ler + gömüler ile `TextNode` formatına dışa aktarma + - İçin uygun: Sorgu motorları, sohbet motorları, depolama bağlamı + - Örnek: [LlamaIndex Sorgu Motoru](examples/llama-index-query-engine/) + - Kılavuz: [LlamaIndex Entegrasyonu](docs/integrations/LLAMA_INDEX.md) + +- ✅ **Pinecone-Hazır Format** - Vektör veritabanı yüklemesi için optimize edilmiş + - İçin uygun: Üretim vektör araması, anlamsal arama, hibrit arama + - Örnek: [Pinecone Yükleme](examples/pinecone-upsert/) + - Kılavuz: [Pinecone Entegrasyonu](docs/integrations/PINECONE.md) + +**Hızlı Dışa Aktarma:** +```bash +# LangChain Documents (JSON) +skill-seekers package output/django --target langchain +# → output/django-langchain.json + +# LlamaIndex TextNodes (JSON) +skill-seekers package output/django --target llama-index +# → output/django-llama-index.json + +# Markdown (Evrensel) +skill-seekers package output/django --target markdown +# → output/django-markdown/SKILL.md + references/ +``` + +**Tam RAG Hattı Kılavuzu:** [RAG Hatları Dokümantasyonu](docs/integrations/RAG_PIPELINES.md) + +--- + +### 🧠 AI Kodlama Asistanı Entegrasyonları + +Herhangi bir çerçeve dokümantasyonunu 4+ AI asistanı için uzman kodlama bağlamına dönüştürün: + +- ✅ **Cursor IDE** - AI destekli kod önerileri için `.cursorrules` oluşturma + - İçin uygun: Çerçeveye özel kod üretimi, tutarlı desenler + - Birlikte çalışır: Cursor IDE (VS Code çatalı) + - Kılavuz: [Cursor Entegrasyonu](docs/integrations/CURSOR.md) + - Örnek: [Cursor React Yeteneği](examples/cursor-react-skill/) + +- ✅ **Windsurf** - `.windsurfrules` ile Windsurf AI asistanı bağlamını özelleştirme + - İçin uygun: IDE-yerel AI yardımı, akış tabanlı kodlama + - Birlikte çalışır: Codeium tarafından Windsurf IDE + - Kılavuz: [Windsurf Entegrasyonu](docs/integrations/WINDSURF.md) + - Örnek: [Windsurf FastAPI Bağlamı](examples/windsurf-fastapi-context/) + +- ✅ **Cline (VS Code)** - VS Code ajanı için sistem yönergeleri + MCP + - İçin uygun: VS Code'da ajanlı kod üretimi + - Birlikte çalışır: VS Code için Cline eklentisi + - Kılavuz: [Cline Entegrasyonu](docs/integrations/CLINE.md) + - Örnek: [Cline Django Asistanı](examples/cline-django-assistant/) + +- ✅ **Continue.dev** - IDE bağımsız AI için bağlam sunucuları + - İçin uygun: Çoklu IDE ortamları (VS Code, JetBrains, Vim), özel LLM sağlayıcıları + - Birlikte çalışır: Continue.dev eklentisi bulunan herhangi bir IDE + - Kılavuz: [Continue Entegrasyonu](docs/integrations/CONTINUE_DEV.md) + - Örnek: [Continue Evrensel Bağlam](examples/continue-dev-universal/) + +**AI Kodlama Araçları İçin Hızlı Dışa Aktarma:** +```bash +# Herhangi bir AI kodlama asistanı için (Cursor, Windsurf, Cline, Continue.dev) +skill-seekers scrape --config configs/django.json +skill-seekers package output/django --target claude # veya --target markdown + +# Projenize kopyalayın (Cursor örneği) +cp output/django-claude/SKILL.md my-project/.cursorrules + +# Veya Windsurf için +cp output/django-claude/SKILL.md my-project/.windsurf/rules/django.md + +# Veya Cline için +cp output/django-claude/SKILL.md my-project/.clinerules + +# Veya Continue.dev için (HTTP sunucusu) +python examples/continue-dev-universal/context_server.py +# ~/.continue/config.json içinde yapılandırın +``` + +**Entegrasyon Merkezi:** [Tüm AI Sistemi Entegrasyonları](docs/integrations/INTEGRATIONS.md) + +--- + +### 🌊 Üç Akışlı GitHub Mimarisi +- ✅ **Üçlü Akış Analizi** - GitHub depolarını Kod, Dokümantasyon ve İçgörü akışlarına ayırma +- ✅ **Birleşik Kod Tabanı Analizcisi** - GitHub URL'leri VE yerel yollarla çalışır +- ✅ **C3.x Analiz Derinliği** - 'basic' (1-2 dk) veya 'c3x' (20-60 dk) analiz seçimi +- ✅ **Geliştirilmiş Yönlendirici Oluşturma** - GitHub meta verileri, README hızlı başlangıç, yaygın sorunlar +- ✅ **Issue Entegrasyonu** - GitHub Issues'dan en yaygın sorunlar ve çözümler +- ✅ **Akıllı Yönlendirme Anahtar Kelimeleri** - Daha iyi konu tespiti için GitHub etiketleri 2 kat ağırlıklandırılmış + +**Üç Akış Açıklaması:** +- **Akış 1: Kod** - Derin C3.x analizi (desenler, örnekler, kılavuzlar, yapılandırmalar, mimari) +- **Akış 2: Dokümantasyon** - Depo dokümantasyonu (README, CONTRIBUTING, docs/*.md) +- **Akış 3: İçgörüler** - Topluluk bilgisi (issues, etiketler, yıldızlar, çatallar) + +```python +from skill_seekers.cli.unified_codebase_analyzer import UnifiedCodebaseAnalyzer + +# GitHub deposunu üç akışla analiz et +analyzer = UnifiedCodebaseAnalyzer() +result = analyzer.analyze( + source="https://github.com/facebook/react", + depth="c3x", # veya hızlı analiz için "basic" + fetch_github_metadata=True +) + +# Kod akışına eriş (C3.x analizi) +print(f"Tasarım desenleri: {len(result.code_analysis['c3_1_patterns'])}") +print(f"Test örnekleri: {result.code_analysis['c3_2_examples_count']}") + +# Dokümantasyon akışına eriş (depo dokümantasyonu) +print(f"README: {result.github_docs['readme'][:100]}") + +# İçgörü akışına eriş (GitHub meta verileri) +print(f"Yıldızlar: {result.github_insights['metadata']['stars']}") +print(f"Yaygın sorunlar: {len(result.github_insights['common_problems'])}") +``` + +**Tam dokümantasyonu görüntüle**: [Üç Akışlı Uygulama Özeti](docs/IMPLEMENTATION_SUMMARY_THREE_STREAM.md) + +### 🔐 Akıllı İstek Hızı Limiti Yönetimi ve Yapılandırma +- ✅ **Çoklu Token Yapılandırma Sistemi** - Birden fazla GitHub hesabını yönetme (kişisel, iş, açık kaynak) + - `~/.config/skill-seekers/config.json` konumunda güvenli yapılandırma depolama (600 izinleri) + - Profil başına hız limiti stratejileri: `prompt`, `wait`, `switch`, `fail` + - Profil başına yapılandırılabilir zaman aşımı (varsayılan: 30 dk, süresiz beklemeyi önler) + - Akıllı yedekleme zinciri: CLI argümanı → Ortam değişkeni → Yapılandırma dosyası → İstem + - Claude, Gemini, OpenAI için API anahtarı yönetimi +- ✅ **Etkileşimli Yapılandırma Sihirbazı** - Kolay kurulum için güzel terminal arayüzü + - Token oluşturma için tarayıcı entegrasyonu (otomatik olarak GitHub vb. açar) + - Token doğrulama ve bağlantı testi + - Renk kodlamalı görsel durum göstergesi +- ✅ **Akıllı Hız Limiti İşleyicisi** - Artık süresiz bekleme yok! + - Hız limitleri hakkında önceden uyarı (60/saat vs 5000/saat) + - GitHub API yanıtlarından gerçek zamanlı algılama + - İlerleme ile canlı geri sayım zamanlayıcıları + - Hız sınırına ulaşıldığında otomatik profil değiştirme + - Dört strateji: prompt (sor), wait (geri sayım), switch (başkasını dene), fail (iptal et) +- ✅ **Devam Etme Yeteneği** - Kesilen işlere devam etme + - Yapılandırılabilir aralıklarla otomatik ilerleme kaydetme (varsayılan: 60 sn) + - İlerleme ayrıntılarıyla tüm devam ettirilebilir işleri listeleme + - Eski işleri otomatik temizleme (varsayılan: 7 gün) +- ✅ **CI/CD Desteği** - Otomasyon için etkileşimsiz mod + - `--non-interactive` bayrağı istemler olmadan hızlı başarısızlık + - `--profile` bayrağı ile belirli GitHub hesabı seçimi + - Hat günlükleri için açık hata mesajları + +**Hızlı Kurulum:** +```bash +# Tek seferlik yapılandırma (5 dakika) +skill-seekers config --github + +# Özel depolar için belirli profil kullanma +skill-seekers github --repo mycompany/private-repo --profile work + +# CI/CD modu (hızlı başarısızlık, istem yok) +skill-seekers github --repo owner/repo --non-interactive + +# Kesilen işe devam etme +skill-seekers resume --list +skill-seekers resume github_react_20260117_143022 +``` + +**Hız Limiti Stratejileri Açıklaması:** +- **prompt** (varsayılan) - Hız sınırına ulaşıldığında ne yapılacağını sor (bekle, değiştir, token kur, iptal) +- **wait** - Geri sayım zamanlayıcısıyla otomatik bekleme (zaman aşımına uyar) +- **switch** - Sonraki kullanılabilir profili otomatik deneme (çoklu hesap kurulumları için) +- **fail** - Açık hata ile hemen başarısız olma (CI/CD için mükemmel) + +### 🎯 Bootstrap Yeteneği - Kendi Kendini Barındırma + +Skill-seekers'ı Claude Code içinde kullanmak üzere bir Claude Code yeteneği olarak oluşturma: + +```bash +# Yeteneği oluştur +./scripts/bootstrap_skill.sh + +# Claude Code'a yükle +cp -r output/skill-seekers ~/.claude/skills/ +``` + +**Elde ettikleriniz:** +- ✅ **Tam yetenek dokümantasyonu** - Tüm CLI komutları ve kullanım desenleri +- ✅ **CLI komut referansı** - Her araç ve seçenekleri belgelenmiş +- ✅ **Hızlı başlangıç örnekleri** - Yaygın iş akışları ve en iyi uygulamalar +- ✅ **Otomatik oluşturulan API dokümantasyonu** - Kod analizi, desenler ve örnekler + +### 🔐 Özel Yapılandırma Depoları +- ✅ **Git Tabanlı Yapılandırma Kaynakları** - Özel/ekip git depolarından yapılandırma getirme +- ✅ **Çoklu Kaynak Yönetimi** - Sınırsız GitHub, GitLab, Bitbucket deposu kaydetme +- ✅ **Ekip İşbirliği** - 3-5 kişilik ekipler arasında özel yapılandırmaları paylaşma +- ✅ **Kurumsal Destek** - Öncelik tabanlı çözümleme ile 500+ geliştiriciye ölçekleme +- ✅ **Güvenli Kimlik Doğrulama** - Ortam değişkeni token'ları (GITHUB_TOKEN, GITLAB_TOKEN) +- ✅ **Akıllı Önbellekleme** - Bir kez klonla, güncellemeleri otomatik çek +- ✅ **Çevrimdışı Mod** - Çevrimdışıyken önbelleğe alınmış yapılandırmalarla çalışma + +### 🤖 Kod Tabanı Analizi (C3.x) + +**C3.4: AI Zenginleştirmeli Yapılandırma Deseni Çıkarma** +- ✅ **9 Yapılandırma Formatı** - JSON, YAML, TOML, ENV, INI, Python, JavaScript, Dockerfile, Docker Compose +- ✅ **7 Desen Türü** - Veritabanı, API, günlükleme, önbellek, e-posta, kimlik doğrulama, sunucu yapılandırmaları +- ✅ **AI Zenginleştirme** - İsteğe bağlı çift modlu AI analizi (API + LOCAL) + - Her yapılandırmanın ne yaptığını açıklar + - En iyi uygulamaları ve iyileştirmeleri önerir + - **Güvenlik analizi** - Sabit kodlanmış sırları, açığa çıkmış kimlik bilgilerini bulur +- ✅ **Otomatik Belgeleme** - Tüm yapılandırmaların JSON + Markdown dokümantasyonunu oluşturur +- ✅ **MCP Entegrasyonu** - Zenginleştirme destekli `extract_config_patterns` aracı + +**C3.3: AI Zenginleştirilmiş Nasıl Yapılır Kılavuzları** +- ✅ **Kapsamlı AI Zenginleştirme** - Temel kılavuzları profesyonel eğitimlere dönüştürme +- ✅ **5 Otomatik İyileştirme** - Adım açıklamaları, sorun giderme, ön koşullar, sonraki adımlar, kullanım senaryoları +- ✅ **Çift Mod Desteği** - API modu (Claude API) veya LOCAL modu (Claude Code CLI) +- ✅ **LOCAL Moduyla Ücretsiz** - Claude Code Max planınızı kullanarak ÜCRETSİZ zenginleştirme +- ✅ **Kalite Dönüşümü** - 75 satırlık şablonlar → 500+ satırlık kapsamlı kılavuzlar + +**Kullanım:** +```bash +# Hızlı analiz (1-2 dk, yalnızca temel özellikler) +skill-seekers analyze --directory tests/ --quick + +# AI ile kapsamlı analiz (20-60 dk, tüm özellikler) +skill-seekers analyze --directory tests/ --comprehensive + +# AI zenginleştirme ile +skill-seekers analyze --directory tests/ --enhance +``` + +**Tam Dokümantasyon:** [docs/HOW_TO_GUIDES.md](docs/HOW_TO_GUIDES.md#ai-enhancement-new) + +### 🔄 Zenginleştirme İş Akışı Ön Ayarları + +AI'nın ham dokümantasyonunuzu cilalı bir yeteneğe nasıl dönüştüreceğini kontrol eden yeniden kullanılabilir YAML tanımlı zenginleştirme hatları. + +- ✅ **5 Yerleşik Ön Ayar** — `default`, `minimal`, `security-focus`, `architecture-comprehensive`, `api-documentation` +- ✅ **Kullanıcı Tanımlı Ön Ayarlar** — `~/.config/skill-seekers/workflows/` dizinine özel iş akışları ekleme +- ✅ **Çoklu İş Akışları** — Tek komutta iki veya daha fazla iş akışını zincirleme +- ✅ **Tam CLI Yönetimi** — İş akışlarını listeleme, inceleme, kopyalama, ekleme, kaldırma ve doğrulama + +```bash +# Tek iş akışı uygula +skill-seekers create ./my-project --enhance-workflow security-focus + +# Birden fazla iş akışını zincirle (sırayla uygulanır) +skill-seekers create ./my-project \ + --enhance-workflow security-focus \ + --enhance-workflow minimal + +# Ön ayarları yönet +skill-seekers workflows list # Tümünü listele (yerleşik + kullanıcı) +skill-seekers workflows show security-focus # YAML içeriğini yazdır +skill-seekers workflows copy security-focus # Düzenleme için kullanıcı dizinine kopyala +skill-seekers workflows add ./my-workflow.yaml # Özel ön ayar yükle +skill-seekers workflows remove my-workflow # Kullanıcı ön ayarını kaldır +skill-seekers workflows validate security-focus # Ön ayar yapısını doğrula + +# Aynı anda birden fazla kopyala +skill-seekers workflows copy security-focus minimal api-documentation + +# Aynı anda birden fazla dosya ekle +skill-seekers workflows add ./wf-a.yaml ./wf-b.yaml + +# Aynı anda birden fazla kaldır +skill-seekers workflows remove my-wf-a my-wf-b +``` + +**YAML ön ayar formatı:** +```yaml +name: security-focus +description: "Güvenlik odaklı inceleme: güvenlik açıkları, kimlik doğrulama, veri işleme" +version: "1.0" +stages: + - name: vulnerabilities + type: custom + prompt: "OWASP ilk 10 ve yaygın güvenlik açıklarını inceleyin..." + - name: auth-review + type: custom + prompt: "Kimlik doğrulama ve yetkilendirme desenlerini inceleyin..." + uses_history: true +``` + +### ⚡ Performans ve Ölçek +- ✅ **Asenkron Mod** - async/await ile 2-3 kat daha hızlı tarama (`--async` bayrağını kullanın) +- ✅ **Büyük Dokümantasyon Desteği** - Akıllı bölme ile 10K-40K+ sayfalık dokümantasyonu işleme +- ✅ **Yönlendirici/Hub Yetenekleri** - Özelleştirilmiş alt yeteneklere akıllı yönlendirme +- ✅ **Paralel Tarama** - Birden fazla yeteneği aynı anda işleme +- ✅ **Kontrol Noktası/Devam Etme** - Uzun taramalarda hiçbir zaman ilerleme kaybetmeyin +- ✅ **Önbellekleme Sistemi** - Bir kez tara, anında yeniden oluştur + +### ✅ Kalite Güvencesi +- ✅ **Tam Test Kapsamı** - 2.540+ test ile kapsamlı kapsam + +--- + +## 📦 Kurulum + +```bash +# Temel kurulum (dokümantasyon tarama, GitHub analizi, PDF, paketleme) +pip install skill-seekers + +# Tüm LLM platform desteği ile +pip install skill-seekers[all-llms] + +# MCP sunucusu ile +pip install skill-seekers[mcp] + +# Her şey +pip install skill-seekers[all] +``` + +**Seçim konusunda yardım mı lazım?** Kurulum sihirbazını çalıştırın: +```bash +skill-seekers-setup +``` + +### Kurulum Seçenekleri + +| Kurulum | Özellikler | +|---------|-----------| +| `pip install skill-seekers` | Tarama, GitHub analizi, PDF, tüm platformlar | +| `pip install skill-seekers[gemini]` | + Google Gemini desteği | +| `pip install skill-seekers[openai]` | + OpenAI ChatGPT desteği | +| `pip install skill-seekers[all-llms]` | + Tüm LLM platformları | +| `pip install skill-seekers[mcp]` | + Claude Code, Cursor vb. için MCP sunucusu | +| `pip install skill-seekers[video]` | + YouTube/Vimeo altyazı ve meta veri çıkarma | +| `pip install skill-seekers[video-full]` | + Whisper transkripsiyonu ve görsel kare çıkarma | +| `pip install skill-seekers[jupyter]` | + Jupyter Not Defteri desteği | +| `pip install skill-seekers[pptx]` | + PowerPoint desteği | +| `pip install skill-seekers[confluence]` | + Confluence viki desteği | +| `pip install skill-seekers[notion]` | + Notion sayfaları desteği | +| `pip install skill-seekers[rss]` | + RSS/Atom besleme desteği | +| `pip install skill-seekers[chat]` | + Slack/Discord sohbet dışa aktarım desteği | +| `pip install skill-seekers[asciidoc]` | + AsciiDoc belge desteği | +| `pip install skill-seekers[all]` | Her şey etkin | + +> **Video görsel bağımlılıkları (GPU destekli):** `skill-seekers[video-full]` kurulumundan sonra +> `skill-seekers video --setup` komutunu çalıştırarak GPU'nuzu otomatik algılayın ve doğru PyTorch +> sürümünü + easyocr'ı yükleyin. Bu, görsel çıkarma bağımlılıklarını yüklemenin önerilen yoludur. + +--- + +## 🚀 Tek Komutla Kurulum İş Akışı + +**Yapılandırmadan yüklenen yeteneğe en hızlı yol — tam otomasyon:** + +```bash +# Resmi yapılandırmalardan React yeteneğini kur (Claude'a otomatik yükle) +skill-seekers install --config react + +# Yerel yapılandırma dosyasından kur +skill-seekers install --config configs/custom.json + +# Yüklemeden kur (yalnızca paketle) +skill-seekers install --config django --no-upload + +# Çalıştırmadan iş akışını önizle +skill-seekers install --config react --dry-run +``` + +**Süre:** Toplamda 20-45 dakika | **Kalite:** Üretime hazır (9/10) | **Maliyet:** Ücretsiz + +**Yürütülen aşamalar:** +``` +📥 AŞAMA 1: Yapılandırmayı Getir (yapılandırma adı verilmişse) +📖 AŞAMA 2: Dokümantasyonu Tara +✨ AŞAMA 3: AI Zenginleştirme (ZORUNLU - atlama seçeneği yok) +📦 AŞAMA 4: Yeteneği Paketle +☁️ AŞAMA 5: Claude'a Yükle (isteğe bağlı, API anahtarı gerektirir) +``` + +**Gereksinimler:** +- ANTHROPIC_API_KEY ortam değişkeni (otomatik yükleme için) +- Claude Code Max planı (yerel AI zenginleştirme için) + +--- + +## 📊 Özellik Matrisi + +Skill Seekers **4 LLM platformu**, **17 kaynak türü** ve tüm hedeflerde tam özellik eşitliğini destekler. + +**Platformlar:** Claude AI, Google Gemini, OpenAI ChatGPT, Genel Markdown +**Kaynak Türleri:** Dokümantasyon siteleri, GitHub depoları, PDF'ler, Word (.docx), EPUB, Video, Yerel kod tabanları, Jupyter Not Defterleri, Yerel HTML, OpenAPI/Swagger, AsciiDoc, PowerPoint (.pptx), RSS/Atom beslemeleri, Man sayfaları, Confluence vikileri, Notion sayfaları, Slack/Discord sohbet dışa aktarımları + +Ayrıntılı platform ve özellik desteği için [Tam Özellik Matrisi](docs/FEATURE_MATRIX.md) bölümüne bakın. + +### Hızlı Platform Karşılaştırması + +| Özellik | Claude | Gemini | OpenAI | Markdown | +|---------|--------|--------|--------|----------| +| Format | ZIP + YAML | tar.gz | ZIP + Vector | ZIP | +| Yükleme | ✅ API | ✅ API | ✅ API | ❌ Manuel | +| Zenginleştirme | ✅ Sonnet 4 | ✅ 2.0 Flash | ✅ GPT-4o | ❌ Yok | +| Tüm Yetenek Modları | ✅ | ✅ | ✅ | ✅ | + +--- + +## Kullanım Örnekleri + +### Dokümantasyon Tarama + +```bash +# Dokümantasyon sitesini tara +skill-seekers scrape --config configs/react.json + +# Yapılandırma olmadan hızlı tarama +skill-seekers scrape --url https://react.dev --name react + +# Asenkron mod ile (3 kat daha hızlı) +skill-seekers scrape --config configs/godot.json --async --workers 8 +``` + +### PDF Çıkarma + +```bash +# Temel PDF çıkarma +skill-seekers pdf --pdf docs/manual.pdf --name myskill + +# Gelişmiş özellikler +skill-seekers pdf --pdf docs/manual.pdf --name myskill \ + --extract-tables \ # Tabloları çıkar + --parallel \ # Hızlı paralel işleme + --workers 8 # 8 CPU çekirdeği kullan + +# Taranmış PDF'ler (gerekli: pip install pytesseract Pillow) +skill-seekers pdf --pdf docs/scanned.pdf --name myskill --ocr +``` + +### Video Çıkarma + +```bash +# Video desteğini kur +pip install skill-seekers[video] # Altyazılar + meta veri +pip install skill-seekers[video-full] # + Whisper transkripsiyonu + görsel kare çıkarma + +# GPU'yu otomatik algıla ve görsel bağımlılıkları kur (PyTorch + easyocr) +skill-seekers video --setup + +# YouTube videosundan çıkar +skill-seekers video --url https://www.youtube.com/watch?v=dQw4w9WgXcQ --name mytutorial + +# YouTube oynatma listesinden çıkar +skill-seekers video --playlist https://www.youtube.com/playlist?list=... --name myplaylist + +# Yerel video dosyasından çıkar +skill-seekers video --video-file recording.mp4 --name myrecording + +# Görsel kare analizi ile çıkar (video-full bağımlılıkları gerektirir) +skill-seekers video --url https://www.youtube.com/watch?v=... --name mytutorial --visual + +# AI zenginleştirme ile (OCR'ı temizle + cilalı SKILL.md oluştur) +skill-seekers video --url https://www.youtube.com/watch?v=... --visual --enhance-level 2 + +# Videonun belirli bir bölümünü kırp (saniye, DD:SS, SS:DD:SS destekler) +skill-seekers video --url https://www.youtube.com/watch?v=... --start-time 1:30 --end-time 5:00 + +# Düşük güvenilirlikli OCR kareleri için Vision API kullan (ANTHROPIC_API_KEY gerektirir) +skill-seekers video --url https://www.youtube.com/watch?v=... --visual --vision-ocr + +# Daha önce çıkarılmış verilerden yeteneği yeniden oluştur (indirmeyi atla) +skill-seekers video --from-json output/mytutorial/video_data/extracted_data.json --name mytutorial +``` + +> **Tam kılavuz:** Eksiksiz CLI referansı, görsel hat ayrıntıları, AI zenginleştirme seçenekleri +> ve sorun giderme için [docs/VIDEO_GUIDE.md](docs/VIDEO_GUIDE.md) bölümüne bakın. + +### GitHub Deposu Analizi + +```bash +# Temel depo tarama +skill-seekers github --repo facebook/react + +# Kimlik doğrulama ile (daha yüksek hız limitleri) +export GITHUB_TOKEN=ghp_your_token_here +skill-seekers github --repo facebook/react + +# Nelerin dahil edileceğini özelleştir +skill-seekers github --repo django/django \ + --include-issues \ # GitHub Issues çıkar + --max-issues 100 \ # Issue sayısını sınırla + --include-changelog # CHANGELOG.md çıkar +``` + +### Birleşik Çoklu Kaynak Tarama + +**Çakışma tespiti ile dokümantasyon + GitHub + PDF'yi tek bir birleşik yeteneğe dönüştürme:** + +```bash +# Mevcut birleşik yapılandırmaları kullan +skill-seekers unified --config configs/react_unified.json +skill-seekers unified --config configs/django_unified.json + +# Veya birleşik yapılandırma oluştur +cat > configs/myframework_unified.json << 'EOF' +{ + "name": "myframework", + "merge_mode": "rule-based", + "sources": [ + { + "type": "documentation", + "base_url": "https://docs.myframework.com/", + "max_pages": 200 + }, + { + "type": "github", + "repo": "owner/myframework", + "code_analysis_depth": "surface" + } + ] +} +EOF + +skill-seekers unified --config configs/myframework_unified.json +``` + +**Çakışma Tespiti otomatik olarak şunları bulur:** +- 🔴 **Kodda eksik** (yüksek): Belgelenmiş ama uygulanmamış +- 🟡 **Dokümantasyonda eksik** (orta): Uygulanmış ama belgelenmemiş +- ⚠️ **İmza uyuşmazlığı**: Farklı parametreler/türler +- ℹ️ **Açıklama uyuşmazlığı**: Farklı açıklamalar + +**Tam Kılavuz:** Eksiksiz dokümantasyon için [docs/UNIFIED_SCRAPING.md](docs/UNIFIED_SCRAPING.md) bölümüne bakın. + +### Özel Yapılandırma Depoları + +**Özel git depoları kullanarak ekipler arasında özel yapılandırmaları paylaşma:** + +```bash +# Seçenek 1: MCP araçlarını kullanma (önerilen) +# Ekibinizin özel deposunu kaydedin +add_config_source( + name="team", + git_url="https://github.com/mycompany/skill-configs.git", + token_env="GITHUB_TOKEN" +) + +# Ekip deposundan yapılandırma getir +fetch_config(source="team", config_name="internal-api") +``` + +**Desteklenen Platformlar:** +- GitHub (`GITHUB_TOKEN`), GitLab (`GITLAB_TOKEN`), Gitea (`GITEA_TOKEN`), Bitbucket (`BITBUCKET_TOKEN`) + +**Tam Kılavuz:** Eksiksiz dokümantasyon için [docs/GIT_CONFIG_SOURCES.md](docs/GIT_CONFIG_SOURCES.md) bölümüne bakın. + +## Nasıl Çalışır + +```mermaid +graph LR + A[Dokümantasyon Sitesi] --> B[Skill Seekers] + B --> C[Tarayıcı] + B --> D[AI Zenginleştirme] + B --> E[Paketleyici] + C --> F[Düzenlenmiş Referanslar] + D --> F + F --> E + E --> G[Claude Yeteneği .zip] + G --> H[Claude AI'ya Yükle] +``` + +0. **llms.txt Algılama** - Önce llms-full.txt, llms.txt, llms-small.txt kontrol eder +1. **Tarama**: Dokümantasyondaki tüm sayfaları çıkarır +2. **Kategorileme**: İçeriği konulara göre düzenler (API, kılavuzlar, eğitimler vb.) +3. **Zenginleştirme**: AI dokümantasyonu analiz eder ve örneklerle kapsamlı SKILL.md oluşturur +4. **Paketleme**: Her şeyi Claude'a hazır `.zip` dosyasına paketler + +## 📋 Ön Koşullar + +**Başlamadan önce şunlara sahip olduğunuzdan emin olun:** + +1. **Python 3.10 veya üstü** - [İndir](https://www.python.org/downloads/) | Kontrol: `python3 --version` +2. **Git** - [İndir](https://git-scm.com/) | Kontrol: `git --version` +3. **İlk kurulum için 15-30 dakika** + +**İlk kez mi kullanıyorsunuz?** → **[Buradan Başlayın: Kurşun Geçirmez Hızlı Başlangıç Kılavuzu](BULLETPROOF_QUICKSTART.md)** 🎯 + +--- + +## 📤 Yetenekleri Claude'a Yükleme + +Yeteneğiniz paketlendikten sonra Claude'a yüklemeniz gerekir: + +### Seçenek 1: Otomatik Yükleme (API tabanlı) + +```bash +# API anahtarınızı ayarlayın (tek seferlik) +export ANTHROPIC_API_KEY=sk-ant-... + +# Otomatik olarak paketle ve yükle +skill-seekers package output/react/ --upload + +# VEYA mevcut .zip'i yükle +skill-seekers upload output/react.zip +``` + +### Seçenek 2: Manuel Yükleme (API Anahtarı Gerekmez) + +```bash +# Yeteneği paketle +skill-seekers package output/react/ +# → output/react.zip oluşturur + +# Sonra manuel olarak yükleyin: +# - https://claude.ai/skills adresine gidin +# - "Upload Skill" düğmesine tıklayın +# - output/react.zip dosyasını seçin +``` + +### Seçenek 3: MCP (Claude Code) + +``` +Claude Code'da şunu sorun: +"React yeteneğini paketle ve yükle" +``` + +--- + +## 🤖 AI Ajanlara Yükleme + +Skill Seekers, yetenekleri 10+ AI kodlama ajanına otomatik olarak yükleyebilir. + +```bash +# Belirli bir ajana yükle +skill-seekers install-agent output/react/ --agent cursor + +# Tüm ajanlara aynı anda yükle +skill-seekers install-agent output/react/ --agent all + +# Yüklemeden önizle +skill-seekers install-agent output/react/ --agent cursor --dry-run +``` + +### Desteklenen Ajanlar + +| Ajan | Yol | Tür | +|------|-----|-----| +| **Claude Code** | `~/.claude/skills/` | Global | +| **Cursor** | `.cursor/skills/` | Proje | +| **VS Code / Copilot** | `.github/skills/` | Proje | +| **Amp** | `~/.amp/skills/` | Global | +| **Goose** | `~/.config/goose/skills/` | Global | +| **OpenCode** | `~/.opencode/skills/` | Global | +| **Windsurf** | `~/.windsurf/skills/` | Global | + +--- + +## 🔌 MCP Entegrasyonu (26 Araç) + +Skill Seekers, Claude Code, Cursor, Windsurf, VS Code + Cline veya IntelliJ IDEA'dan kullanılmak üzere bir MCP sunucusu sağlar. + +```bash +# stdio modu (Claude Code, VS Code + Cline) +python -m skill_seekers.mcp.server_fastmcp + +# HTTP modu (Cursor, Windsurf, IntelliJ) +python -m skill_seekers.mcp.server_fastmcp --transport http --port 8765 + +# Tüm ajanları aynı anda otomatik yapılandır +./setup_mcp.sh +``` + +**Mevcut tüm 26 araç:** +- **Çekirdek (9):** `list_configs`, `generate_config`, `validate_config`, `estimate_pages`, `scrape_docs`, `package_skill`, `upload_skill`, `enhance_skill`, `install_skill` +- **Genişletilmiş (10):** `scrape_github`, `scrape_pdf`, `unified_scrape`, `merge_sources`, `detect_conflicts`, `add_config_source`, `fetch_config`, `list_config_sources`, `remove_config_source`, `split_config` +- **Vektör Veritabanı (4):** `export_to_chroma`, `export_to_weaviate`, `export_to_faiss`, `export_to_qdrant` +- **Bulut (3):** `cloud_upload`, `cloud_download`, `cloud_list` + +**Tam Kılavuz:** [docs/MCP_SETUP.md](docs/MCP_SETUP.md) + +--- + +## ⚙️ Yapılandırma + +### Mevcut Ön Ayarlar (24+) + +```bash +# Tüm ön ayarları listele +skill-seekers list-configs +``` + +| Kategori | Ön Ayarlar | +|----------|-----------| +| **Web Çerçeveleri** | `react`, `vue`, `angular`, `svelte`, `nextjs` | +| **Python** | `django`, `flask`, `fastapi`, `sqlalchemy`, `pytest` | +| **Oyun Geliştirme** | `godot`, `pygame`, `unity` | +| **Araçlar ve DevOps** | `docker`, `kubernetes`, `terraform`, `ansible` | +| **Birleşik (Dokümantasyon + GitHub)** | `react-unified`, `vue-unified`, `nextjs-unified` ve daha fazlası | + +### Kendi Yapılandırmanızı Oluşturma + +```bash +# Seçenek 1: Etkileşimli +skill-seekers scrape --interactive + +# Seçenek 2: Bir ön ayarı kopyalayıp düzenleme +cp configs/react.json configs/myframework.json +nano configs/myframework.json +skill-seekers scrape --config configs/myframework.json +``` + +### Yapılandırma Dosyası Yapısı + +```json +{ + "name": "myframework", + "description": "Bu yeteneğin ne zaman kullanılacağı", + "base_url": "https://docs.myframework.com/", + "selectors": { + "main_content": "article", + "title": "h1", + "code_blocks": "pre code" + }, + "url_patterns": { + "include": ["/docs", "/guide"], + "exclude": ["/blog", "/about"] + }, + "categories": { + "getting_started": ["intro", "quickstart"], + "api": ["api", "reference"] + }, + "rate_limit": 0.5, + "max_pages": 500 +} +``` + +### Yapılandırmaların Aranma Sırası + +Araç aşağıdaki sırayla arar: +1. Belirtilen tam yol +2. `./configs/` (mevcut dizin) +3. `~/.config/skill-seekers/configs/` (kullanıcı yapılandırma dizini) +4. SkillSeekersWeb.com API (ön ayar yapılandırmaları) + +--- + +## 📊 Oluşturulan İçerik + +``` +output/ +├── godot_data/ # Taranan ham veriler +│ ├── pages/ # JSON dosyaları (sayfa başına bir tane) +│ └── summary.json # Genel bakış +│ +└── godot/ # Yetenek + ├── SKILL.md # Gerçek örneklerle zenginleştirilmiş + ├── references/ # Kategorize edilmiş dokümantasyon + │ ├── index.md + │ ├── getting_started.md + │ ├── scripting.md + │ └── ... + ├── scripts/ # Boş (kendinizinkini ekleyin) + └── assets/ # Boş (kendinizinkini ekleyin) +``` + +--- + +## 🐛 Sorun Giderme + +### İçerik Çıkarılmadı mı? +- `main_content` seçicinizi kontrol edin +- Deneyin: `article`, `main`, `div[role="main"]` + +### Veri Var Ama Kullanılmıyor mu? +```bash +# Yeniden taramaya zorla +rm -rf output/myframework_data/ +skill-seekers scrape --config configs/myframework.json +``` + +### Kategoriler İyi Değil mi? +Yapılandırmadaki `categories` bölümünü daha iyi anahtar kelimelerle düzenleyin. + +### Dokümantasyonu Güncellemek mi İstiyorsunuz? +```bash +# Eski verileri sil ve yeniden tara +rm -rf output/godot_data/ +skill-seekers scrape --config configs/godot.json +``` + +### Zenginleştirme Çalışmıyor mu? +```bash +# API anahtarının ayarlanıp ayarlanmadığını kontrol edin +echo $ANTHROPIC_API_KEY + +# Bunun yerine LOCAL modunu deneyin (Claude Code Max kullanır, API anahtarı gerekmez) +skill-seekers enhance output/react/ --mode LOCAL + +# Arka plan zenginleştirme durumunu izleyin +skill-seekers enhance-status output/react/ --watch +``` + +### GitHub Hız Limiti Sorunları mı? +```bash +# GitHub token ayarlayın (anonim 60/saat yerine 5000 istek/saat) +export GITHUB_TOKEN=ghp_your_token_here + +# Veya birden fazla profil yapılandırın +skill-seekers config --github +``` + +--- + +## 📈 Performans + +| Görev | Süre | Notlar | +|-------|------|--------| +| Tarama (senkron) | 15-45 dk | Yalnızca ilk seferinde, iş parçacığı tabanlı | +| Tarama (asenkron) | 5-15 dk | `--async` bayrağı ile 2-3 kat daha hızlı | +| Derleme | 1-3 dk | Önbellekten hızlı yeniden derleme | +| Yeniden derleme | <1 dk | `--skip-scrape` ile | +| Zenginleştirme (LOCAL) | 30-60 sn | Claude Code Max kullanır | +| Zenginleştirme (API) | 20-40 sn | API anahtarı gerektirir | +| Video (altyazı) | 1-3 dk | YouTube/yerel, yalnızca altyazı | +| Video (görsel) | 5-15 dk | + OCR kare çıkarma | +| Paketleme | 5-10 sn | Son .zip oluşturma | + +--- + +## 📚 Dokümantasyon + +### Başlarken +- **[BULLETPROOF_QUICKSTART.md](BULLETPROOF_QUICKSTART.md)** - 🎯 Yeniyseniz **BURADAN BAŞLAYIN!** +- **[QUICKSTART.md](QUICKSTART.md)** - Deneyimli kullanıcılar için hızlı başlangıç +- **[TROUBLESHOOTING.md](TROUBLESHOOTING.md)** - Yaygın sorunlar ve çözümler +- **[docs/QUICK_REFERENCE.md](docs/QUICK_REFERENCE.md)** - Tek sayfalık hızlı referans + +### Kılavuzlar +- **[docs/LARGE_DOCUMENTATION.md](docs/LARGE_DOCUMENTATION.md)** - 10K-40K+ sayfalık dokümantasyonu işleme +- **[ASYNC_SUPPORT.md](ASYNC_SUPPORT.md)** - Asenkron mod kılavuzu (2-3 kat daha hızlı tarama) +- **[docs/ENHANCEMENT_MODES.md](docs/ENHANCEMENT_MODES.md)** - AI zenginleştirme modları kılavuzu +- **[docs/MCP_SETUP.md](docs/MCP_SETUP.md)** - MCP entegrasyon kurulumu +- **[docs/UNIFIED_SCRAPING.md](docs/UNIFIED_SCRAPING.md)** - Çoklu kaynak tarama +- **[docs/VIDEO_GUIDE.md](docs/VIDEO_GUIDE.md)** - Video çıkarma kılavuzu + +### Entegrasyon Kılavuzları +- **[docs/integrations/LANGCHAIN.md](docs/integrations/LANGCHAIN.md)** - LangChain RAG +- **[docs/integrations/CURSOR.md](docs/integrations/CURSOR.md)** - Cursor IDE +- **[docs/integrations/WINDSURF.md](docs/integrations/WINDSURF.md)** - Windsurf IDE +- **[docs/integrations/CLINE.md](docs/integrations/CLINE.md)** - Cline (VS Code) +- **[docs/integrations/RAG_PIPELINES.md](docs/integrations/RAG_PIPELINES.md)** - Tüm RAG hatları + +--- + +## 📝 Lisans + +MIT Lisansı - ayrıntılar için [LICENSE](LICENSE) dosyasına bakın + +--- + +Keyifli yetenek oluşturmalar! 🚀 + +--- + +## 🔒 Güvenlik + +[![MseeP.ai Güvenlik Değerlendirme Rozeti](https://mseep.net/pr/yusufkaraaslan-skill-seekers-badge.png)](https://mseep.ai/app/yusufkaraaslan-skill-seekers) diff --git a/README.zh-CN.md b/README.zh-CN.md index b7629d6..fe3fe95 100644 --- a/README.zh-CN.md +++ b/README.zh-CN.md @@ -2,7 +2,7 @@ # Skill Seekers -[English](https://github.com/yusufkaraaslan/Skill_Seekers/blob/main/README.md) | 简体中文 +[English](README.md) | 简体中文 | [日本語](README.ja.md) | [한국어](README.ko.md) | [Español](README.es.md) | [Français](README.fr.md) | [Deutsch](README.de.md) | [Português](README.pt-BR.md) | [Türkçe](README.tr.md) | [العربية](README.ar.md) | [हिन्दी](README.hi.md) | [Русский](README.ru.md) > ⚠️ **机器翻译声明** >