gorilla

Gorilla: Training and Evaluating LLMs for Function Calls (Tool Calls)

Visit WebsiteView on GitHub
12.8k
Stars
+1065
Stars/month
0
Releases (6m)

Overview

Gorilla是一个由加州大学伯克利分校开发的研究项目,专注于训练和评估大语言模型的函数调用(工具调用)能力。该项目提供了Berkeley Function Calling Leaderboard (BFCL),这是一个综合性的基准测试平台,用于评估LLM在真实世界场景中的工具调用性能。Gorilla支持多轮对话和多步骤函数调用的评估,包含状态管理、错误恢复和多跳推理等高级功能。项目还推出了Agent Arena,与LMSYS Chatbot Arena合作,允许用户比较不同智能体在搜索、金融、RAG等任务中的表现。作为一个活跃的学术研究项目,Gorilla为AI研究社区提供了重要的评估工具和数据集,帮助推进大语言模型在复杂工具集成方面的能力发展。

Pros

  • + 提供业界领先的Berkeley Function Calling Leaderboard,为LLM工具调用能力评估设立标准
  • + 支持复杂的多轮对话和多步骤函数调用评估,包含状态管理和错误恢复机制
  • + 活跃的学术研究社区,持续更新评估方法和数据集,与LMSYS等知名平台合作

Cons

  • - 主要面向研究用途,对于生产环境的实际应用指导有限
  • - 文档信息不够完整,缺乏详细的实施和部署指南

Use Cases

Getting Started

1. 从GitHub克隆项目代码库到本地环境;2. 根据项目要求安装Python依赖和配置评估环境;3. 运行示例评估脚本或访问在线leaderboard查看基准测试结果