clip-retrieval

Easily compute clip embeddings and build a clip retrieval system with them

Visit WebsiteView on GitHub
2.7k
Stars
+228
Stars/month
0
Releases (6m)

Overview

clip-retrieval 是一个完整的 CLIP 嵌入向量计算和检索系统构建工具。该工具允许用户轻松地计算图像和文本的 CLIP 嵌入向量,并基于这些向量构建高效的语义搜索系统。系统具备强大的处理能力,可在 20 小时内使用 RTX 3080 处理 1 亿个文本+图像嵌入向量。工具包含完整的端到端解决方案,从嵌入向量计算、索引构建,到后端服务部署和前端 UI 界面。clip-retrieval 支持高速推理(在 RTX 3080 上达到 1500 样本/秒),并提供了灵活的组件化架构,用户可以根据需求选择使用不同的模块。该工具特别适合构建大规模语义搜索应用,已被用于处理数亿级别的数据集,如 LAION-5B 等大型多模态数据集的预处理工作。

Pros

  • + 高性能处理能力,支持大规模数据集(1亿+ 嵌入向量)的快速计算和索引
  • + 完整的端到端解决方案,包含推理、索引、后端服务和前端界面的全套组件
  • + 优化的推理速度,在消费级 GPU 上可达到 1500 样本/秒的处理效率

Cons

  • - 依赖 GPU 资源进行高效计算,对硬件配置有一定要求
  • - 主要专注于 CLIP 模型,对其他类型嵌入向量的支持有限
  • - 大规模部署时需要考虑存储和内存资源管理

Use Cases

Getting Started

1. 安装:pip install clip-retrieval 安装 Python 包;2. 配置:准备图像数据集并运行 clip inference 计算嵌入向量;3. 使用:运行 clip index 构建索引,然后启动 clip back 服务进行查询