gpt-crawler

Crawl a site to generate knowledge files to create your own custom GPT from a URL

open-sourcememory-knowledge
22.2k
Stars
+15
Stars/month
0
Releases (6m)

Star Growth

21.8k22.2k22.7kMar 27Apr 1

Overview

gpt-crawler 是一个开源工具,用于爬取网站内容并生成知识文件,以便创建自定义的 GPT 模型。该工具能够系统性地抓取指定网站的页面,提取有用的文本内容,并将其转换为 JSON 格式的知识库文件。这些文件随后可以上传到 OpenAI 平台,用于训练专门的 GPT 助手或自定义 GPT。工具支持多种配置选项,包括 URL 匹配模式、CSS 选择器、最大爬取页面数等,让用户能够精确控制爬取过程。通过将任何文档网站、知识库或在线资源转换为 AI 可理解的格式,gpt-crawler 为企业和个人提供了一种快速构建领域专业 AI 助手的方法。该工具基于 Node.js 和 Playwright 构建,支持本地运行、Docker 容器部署和 API 模式等多种使用方式。

Deep Analysis

Key Differentiator

vs manual knowledge curation: one-command website-to-GPT-knowledge pipeline with configurable crawling, output directly compatible with OpenAI custom GPTs and Assistants

Capabilities

  • Crawl websites to generate knowledge files for custom GPTs
  • Configurable URL targets, CSS selectors, and crawl depth
  • Output size and token count limiting
  • Resource filtering (excludes images, videos, stylesheets)
  • API server mode with Swagger documentation
  • Multi-language README (8 languages)

🔗 Integrations

OpenAI Custom GPTsOpenAI Assistants API

Best For

  • Creating custom GPTs with domain-specific website knowledge
  • Building knowledge bases from documentation sites

Not Ideal For

  • General-purpose web scraping without GPT integration
  • Real-time or continuously updating knowledge bases

Languages

TypeScript

Deployment

local (Node.js 16+)DockerAPI server (Express.js port 3000)

Known Limitations

  • Large sites require splitting output files due to size constraints
  • Requires paid ChatGPT plan for custom GPT creation
  • Token limits may require configuration tuning
  • No incremental crawling or delta updates

Pros

  • + 配置简单灵活,支持 CSS 选择器和 URL 模式匹配,能够精确提取目标内容
  • + 支持多种部署方式(本地、Docker、API),适应不同的使用场景和技术栈
  • + 开源且活跃维护,拥有超过 22,000 GitHub 星标,社区支持良好

Cons

  • - 需要一定的技术背景来配置 CSS 选择器和 URL 匹配规则
  • - 仅能爬取公开可访问的网站内容,无法处理需要登录或动态加载的内容
  • - 输出质量高度依赖于网站结构和选择器配置的准确性

Use Cases

  • 为企业文档网站创建专门的客服 GPT,自动回答用户关于产品使用的问题
  • 将技术文档和 API 参考转换为开发者 GPT 助手,提供编程指导和故障排除
  • 从行业知识库和专业网站构建领域专家 GPT,用于咨询和决策支持

Getting Started

1. 克隆仓库并安装依赖:git clone 项目后运行 npm install;2. 配置爬虫:编辑 config.ts 文件,设置目标 URL、匹配模式和 CSS 选择器;3. 运行爬虫并上传:执行爬取命令生成 JSON 文件,然后将文件上传到 OpenAI 创建自定义 GPT

Compare gpt-crawler