tarsier

Vision utilities for web interaction agents 👀

open-sourcetool-integration
Visit WebsiteView on GitHub
1.8k
Stars
+147
Stars/month
0
Releases (6m)

Overview

Tarsier是专为Web交互代理设计的视觉工具库,解决了LLM自动化网页交互中的核心难题。它通过在网页上为可交互元素添加视觉标签(如[23]),建立了LLM响应与网页元素之间的映射关系。Tarsier的OCR算法能将网页截图转换为结构化的文本表示(类似ASCII艺术),让纯文本LLM也能理解页面的视觉布局。该工具特别针对按钮、链接和输入字段等可交互元素进行标记,同时支持标记所有文本元素。根据其内部基准测试,纯文本GPT-4配合Tarsier文本表示的性能比GPT-4V配合Tarsier截图的表现高出10-20%。这个Python包专门为解决网页自动化中的感知问题而设计,是构建智能网页代理的重要工具。

Pros

  • + 创新的元素标记系统,为LLM提供了直观的网页元素引用方式,简化了复杂的网页交互任务
  • + 独特的OCR算法将视觉信息转换为文本格式,使纯文本LLM也能有效理解网页布局和结构
  • + 经过大量真实网页任务验证,在内部基准测试中表现优于视觉语言模型的方案

Cons

  • - 仅支持Python生态系统,限制了在其他编程语言环境中的应用
  • - 专门针对网页交互场景设计,不适用于通用的计算机视觉任务
  • - 性能优势声明基于内部基准测试,缺乏第三方验证和公开的对比数据

Use Cases

Getting Started

1. 通过pip install tarsier安装Python包;2. 对目标网页进行截图并使用Tarsier进行元素标记和文本转换;3. 将生成的标记文本输入LLM,并使用元素ID来执行具体的交互操作(如CLICK [23])