gpt-crawler
Crawl a site to generate knowledge files to create your own custom GPT from a URL
open-sourcememory-knowledge
22.2k
Stars
+1852
Stars/month
0
Releases (6m)
Overview
gpt-crawler 是一个开源工具,用于爬取网站内容并生成知识文件,以便创建自定义的 GPT 模型。该工具能够系统性地抓取指定网站的页面,提取有用的文本内容,并将其转换为 JSON 格式的知识库文件。这些文件随后可以上传到 OpenAI 平台,用于训练专门的 GPT 助手或自定义 GPT。工具支持多种配置选项,包括 URL 匹配模式、CSS 选择器、最大爬取页面数等,让用户能够精确控制爬取过程。通过将任何文档网站、知识库或在线资源转换为 AI 可理解的格式,gpt-crawler 为企业和个人提供了一种快速构建领域专业 AI 助手的方法。该工具基于 Node.js 和 Playwright 构建,支持本地运行、Docker 容器部署和 API 模式等多种使用方式。
Pros
- + 配置简单灵活,支持 CSS 选择器和 URL 模式匹配,能够精确提取目标内容
- + 支持多种部署方式(本地、Docker、API),适应不同的使用场景和技术栈
- + 开源且活跃维护,拥有超过 22,000 GitHub 星标,社区支持良好
Cons
- - 需要一定的技术背景来配置 CSS 选择器和 URL 匹配规则
- - 仅能爬取公开可访问的网站内容,无法处理需要登录或动态加载的内容
- - 输出质量高度依赖于网站结构和选择器配置的准确性
Use Cases
- • 为企业文档网站创建专门的客服 GPT,自动回答用户关于产品使用的问题
- • 将技术文档和 API 参考转换为开发者 GPT 助手,提供编程指导和故障排除
- • 从行业知识库和专业网站构建领域专家 GPT,用于咨询和决策支持
Getting Started
1. 克隆仓库并安装依赖:git clone 项目后运行 npm install;2. 配置爬虫:编辑 config.ts 文件,设置目标 URL、匹配模式和 CSS 选择器;3. 运行爬虫并上传:执行爬取命令生成 JSON 文件,然后将文件上传到 OpenAI 创建自定义 GPT