gpt-crawler

Crawl a site to generate knowledge files to create your own custom GPT from a URL

open-sourcememory-knowledge

Visit Website View on GitHub

22.2k

Stars

+15

Stars/month

Releases (6m)

Star Growth

Overview

gpt-crawler 是一个开源工具，用于爬取网站内容并生成知识文件，以便创建自定义的 GPT 模型。该工具能够系统性地抓取指定网站的页面，提取有用的文本内容，并将其转换为 JSON 格式的知识库文件。这些文件随后可以上传到 OpenAI 平台，用于训练专门的 GPT 助手或自定义 GPT。工具支持多种配置选项，包括 URL 匹配模式、CSS 选择器、最大爬取页面数等，让用户能够精确控制爬取过程。通过将任何文档网站、知识库或在线资源转换为 AI 可理解的格式，gpt-crawler 为企业和个人提供了一种快速构建领域专业 AI 助手的方法。该工具基于 Node.js 和 Playwright 构建，支持本地运行、Docker 容器部署和 API 模式等多种使用方式。

Deep Analysis

Key Differentiator

vs manual knowledge curation: one-command website-to-GPT-knowledge pipeline with configurable crawling, output directly compatible with OpenAI custom GPTs and Assistants

⚡ Capabilities

• Crawl websites to generate knowledge files for custom GPTs
• Configurable URL targets, CSS selectors, and crawl depth
• Output size and token count limiting
• Resource filtering (excludes images, videos, stylesheets)
• API server mode with Swagger documentation
• Multi-language README (8 languages)

🔗 Integrations

OpenAI Custom GPTsOpenAI Assistants API

✓ Best For

✓ Creating custom GPTs with domain-specific website knowledge
✓ Building knowledge bases from documentation sites

✗ Not Ideal For

✗ General-purpose web scraping without GPT integration
✗ Real-time or continuously updating knowledge bases

Languages

TypeScript

Deployment

local (Node.js 16+)DockerAPI server (Express.js port 3000)

⚠ Known Limitations

⚠ Large sites require splitting output files due to size constraints
⚠ Requires paid ChatGPT plan for custom GPT creation
⚠ Token limits may require configuration tuning
⚠ No incremental crawling or delta updates

Pros

+ 配置简单灵活，支持 CSS 选择器和 URL 模式匹配，能够精确提取目标内容
+ 支持多种部署方式（本地、Docker、API），适应不同的使用场景和技术栈
+ 开源且活跃维护，拥有超过 22,000 GitHub 星标，社区支持良好

Cons

- 需要一定的技术背景来配置 CSS 选择器和 URL 匹配规则
- 仅能爬取公开可访问的网站内容，无法处理需要登录或动态加载的内容
- 输出质量高度依赖于网站结构和选择器配置的准确性

Use Cases

• 为企业文档网站创建专门的客服 GPT，自动回答用户关于产品使用的问题
• 将技术文档和 API 参考转换为开发者 GPT 助手，提供编程指导和故障排除
• 从行业知识库和专业网站构建领域专家 GPT，用于咨询和决策支持

Getting Started

1. 克隆仓库并安装依赖：git clone 项目后运行 npm install；2. 配置爬虫：编辑 config.ts 文件，设置目标 URL、匹配模式和 CSS 选择器；3. 运行爬虫并上传：执行爬取命令生成 JSON 文件，然后将文件上传到 OpenAI 创建自定义 GPT

Compare gpt-crawler

gpt-crawler vs dify gpt-crawler vs langgraph gpt-crawler vs vllm gpt-crawler vs MinerU gpt-crawler vs open-webui gpt-crawler vs promptfoo