ChainForge

An open-source visual programming environment for battle-testing prompts to LLMs.

Visit WebsiteView on GitHub
3.0k
Stars
+247
Stars/month
0
Releases (6m)

Overview

ChainForge 是一个开源的可视化提示工程环境,专门用于批量测试和对比 LLM 响应效果。该工具采用数据流的可视化界面,让用户能够同时向多个大语言模型发送提示变体,并系统性地比较不同模型、提示模板和参数设置的表现。ChainForge 的核心价值在于将零散的 LLM 对话转变为结构化的实验流程,支持设置自定义评估指标、生成可视化分析报告,帮助用户快速找到最适合特定用例的模型和提示组合。该工具基于 ReactFlow 和 Flask 构建,提供了 188 个示例实验流程,涵盖 OpenAI evals 基准测试的各种场景。无论是提示工程师优化模板,还是研究人员进行模型对比,ChainForge 都提供了高效的批量测试和科学评估能力。

Pros

  • + 可视化数据流界面设计直观,支持拖拽操作创建复杂的测试流程,大幅降低批量实验的技术门槛
  • + 支持同时测试多个 LLM 提供商和模型,包括本地 Ollama 模型,实现真正的横向对比分析
  • + 内置丰富的评估指标和 AI 辅助功能,可自动生成测试数据和评估代码,提升实验效率

Cons

  • - 需要掌握基础的 Python 编程和提示工程知识才能充分发挥工具潜力
  • - 在线版本功能受限,本地安装版本才能使用环境变量、Python 评估等高级功能
  • - 有效使用需要多个 LLM 的 API 密钥,可能产生较高的测试成本

Use Cases

Getting Started

1. 安装:运行 pip install chainforge 在本地安装工具;2. 启动:执行 chainforge serve 命令,然后在浏览器中打开 localhost:8000;3. 配置:点击右上角设置图标添加 LLM API 密钥,创建第一个测试流程开始实验