AppAgent

AppAgent: Multimodal Agents as Smartphone Users, an LLM-based multimodal agent framework designed to operate smartphone apps.

Visit WebsiteView on GitHub
6.6k
Stars
+552
Stars/month
0
Releases (6m)

Overview

AppAgent是一个基于LLM的多模态智能手机操作框架,专门设计用于像人类用户一样使用智能手机应用程序。作为CHI 2025会议的研究成果,该项目结合了大语言模型和视觉理解能力,能够通过屏幕截图理解手机界面,并执行点击、滑动等操作来完成复杂任务。AppAgent支持多种多模态模型,包括GPT-4V和通义千问-VL,并提供了网格覆盖功能,允许agent在屏幕任意位置进行精确操作。该框架不仅支持真实Android设备,还兼容Android Studio模拟器,大大降低了使用门槛。项目包含完整的评估基准测试,为研究者提供了标准化的性能评估方法。AppAgent在移动端GUI自动化领域具有重要意义,为智能助手、应用测试和无障碍技术等应用场景提供了坚实的技术基础。

Pros

  • + 多模态智能操作 - 结合LLM和视觉理解,能够像人类一样理解和操作复杂的手机界面
  • + 开源学术项目 - CHI 2025研究支撑,提供完整的评估基准和详细文档,保证技术的可靠性
  • + 灵活的环境支持 - 支持多种多模态模型和Android Studio模拟器,适应不同的使用需求

Cons

  • - 研究项目局限 - 主要面向学术研究,在生产环境的稳定性和性能可能存在不确定性
  • - 配置复杂度高 - 需要Android环境配置和多模态LLM API设置,技术门槛相对较高
  • - 外部依赖较多 - 依赖第三方LLM服务,可能产生API使用成本和网络延迟问题

Use Cases

Getting Started

1. 环境准备 - 安装Android Studio并设置模拟器,或准备真实Android设备用于测试;2. 模型配置 - 获取并配置支持的多模态模型API密钥(如GPT-4V或通义千问-VL);3. 启动运行 - 克隆项目代码,按照文档配置参数,启动AppAgent开始自动化操作任务