AppAgent
AppAgent: Multimodal Agents as Smartphone Users, an LLM-based multimodal agent framework designed to operate smartphone apps.
6.6k
Stars
+552
Stars/month
0
Releases (6m)
Overview
AppAgent是一个基于LLM的多模态智能手机操作框架,专门设计用于像人类用户一样使用智能手机应用程序。作为CHI 2025会议的研究成果,该项目结合了大语言模型和视觉理解能力,能够通过屏幕截图理解手机界面,并执行点击、滑动等操作来完成复杂任务。AppAgent支持多种多模态模型,包括GPT-4V和通义千问-VL,并提供了网格覆盖功能,允许agent在屏幕任意位置进行精确操作。该框架不仅支持真实Android设备,还兼容Android Studio模拟器,大大降低了使用门槛。项目包含完整的评估基准测试,为研究者提供了标准化的性能评估方法。AppAgent在移动端GUI自动化领域具有重要意义,为智能助手、应用测试和无障碍技术等应用场景提供了坚实的技术基础。
Pros
- + 多模态智能操作 - 结合LLM和视觉理解,能够像人类一样理解和操作复杂的手机界面
- + 开源学术项目 - CHI 2025研究支撑,提供完整的评估基准和详细文档,保证技术的可靠性
- + 灵活的环境支持 - 支持多种多模态模型和Android Studio模拟器,适应不同的使用需求
Cons
- - 研究项目局限 - 主要面向学术研究,在生产环境的稳定性和性能可能存在不确定性
- - 配置复杂度高 - 需要Android环境配置和多模态LLM API设置,技术门槛相对较高
- - 外部依赖较多 - 依赖第三方LLM服务,可能产生API使用成本和网络延迟问题
Use Cases
- • 移动应用自动化测试 - 自动执行复杂的移动应用测试场景,提高软件测试效率和覆盖率
- • 无障碍辅助技术 - 为视觉障碍或行动不便的用户提供智能化的手机操作辅助服务
- • 移动界面研究分析 - 用于研究移动用户界面的可用性、交互模式和用户体验优化
Getting Started
1. 环境准备 - 安装Android Studio并设置模拟器,或准备真实Android设备用于测试;2. 模型配置 - 获取并配置支持的多模态模型API密钥(如GPT-4V或通义千问-VL);3. 启动运行 - 克隆项目代码,按照文档配置参数,启动AppAgent开始自动化操作任务