1.8k
Stars
+147
Stars/month
0
Releases (6m)
Overview
Tarsier是专为Web交互代理设计的视觉工具库,解决了LLM自动化网页交互中的核心难题。它通过在网页上为可交互元素添加视觉标签(如[23]),建立了LLM响应与网页元素之间的映射关系。Tarsier的OCR算法能将网页截图转换为结构化的文本表示(类似ASCII艺术),让纯文本LLM也能理解页面的视觉布局。该工具特别针对按钮、链接和输入字段等可交互元素进行标记,同时支持标记所有文本元素。根据其内部基准测试,纯文本GPT-4配合Tarsier文本表示的性能比GPT-4V配合Tarsier截图的表现高出10-20%。这个Python包专门为解决网页自动化中的感知问题而设计,是构建智能网页代理的重要工具。
Pros
- + 创新的元素标记系统,为LLM提供了直观的网页元素引用方式,简化了复杂的网页交互任务
- + 独特的OCR算法将视觉信息转换为文本格式,使纯文本LLM也能有效理解网页布局和结构
- + 经过大量真实网页任务验证,在内部基准测试中表现优于视觉语言模型的方案
Cons
- - 仅支持Python生态系统,限制了在其他编程语言环境中的应用
- - 专门针对网页交互场景设计,不适用于通用的计算机视觉任务
- - 性能优势声明基于内部基准测试,缺乏第三方验证和公开的对比数据
Use Cases
- • 构建能够自主浏览和操作复杂网站的智能代理,用于数据采集或业务流程自动化
- • 开发网页测试自动化系统,让AI能够像人类用户一样导航和交互界面元素
- • 创建需要复杂页面导航的数据抓取工具,特别适用于JavaScript渲染的动态网站
Getting Started
1. 通过pip install tarsier安装Python包;2. 对目标网页进行截图并使用Tarsier进行元素标记和文本转换;3. 将生成的标记文本输入LLM,并使用元素ID来执行具体的交互操作(如CLICK [23])