gpt-crawler

Crawl a site to generate knowledge files to create your own custom GPT from a URL

open-sourcememory-knowledge
Visit WebsiteView on GitHub
22.2k
Stars
+1852
Stars/month
0
Releases (6m)

Overview

gpt-crawler 是一个开源工具,用于爬取网站内容并生成知识文件,以便创建自定义的 GPT 模型。该工具能够系统性地抓取指定网站的页面,提取有用的文本内容,并将其转换为 JSON 格式的知识库文件。这些文件随后可以上传到 OpenAI 平台,用于训练专门的 GPT 助手或自定义 GPT。工具支持多种配置选项,包括 URL 匹配模式、CSS 选择器、最大爬取页面数等,让用户能够精确控制爬取过程。通过将任何文档网站、知识库或在线资源转换为 AI 可理解的格式,gpt-crawler 为企业和个人提供了一种快速构建领域专业 AI 助手的方法。该工具基于 Node.js 和 Playwright 构建,支持本地运行、Docker 容器部署和 API 模式等多种使用方式。

Pros

  • + 配置简单灵活,支持 CSS 选择器和 URL 模式匹配,能够精确提取目标内容
  • + 支持多种部署方式(本地、Docker、API),适应不同的使用场景和技术栈
  • + 开源且活跃维护,拥有超过 22,000 GitHub 星标,社区支持良好

Cons

  • - 需要一定的技术背景来配置 CSS 选择器和 URL 匹配规则
  • - 仅能爬取公开可访问的网站内容,无法处理需要登录或动态加载的内容
  • - 输出质量高度依赖于网站结构和选择器配置的准确性

Use Cases

Getting Started

1. 克隆仓库并安装依赖:git clone 项目后运行 npm install;2. 配置爬虫:编辑 config.ts 文件,设置目标 URL、匹配模式和 CSS 选择器;3. 运行爬虫并上传:执行爬取命令生成 JSON 文件,然后将文件上传到 OpenAI 创建自定义 GPT