Droidrun – 开源AI手机操作工具,支持 Agent 操作 Android 手机

AI工具4个月前更新 AI小集
0

Droidrun是什么

Droidrun 是AI手机操作工具,支持 AI Agent像人类一样操作 Android 手机。Droidrun由运行在电脑或云端的 LLM 智能体和安装在手机上的 DroidRun Portal App 组成,结合视觉解析、UI 提取和 LLM 推理,实现复杂任务自动化。Droidrun支持用户基于简单的自然语言命令完成应用启动、UI 操作等任务。Droidrun 支持 OpenAI、Anthropic、Gemini 等多种 LLM 提供商,提供 Python API 用在自定义自动化。Droidrun 为构建强大的 AI 助手和实现复杂任务自动化提供新的可能。

Droidrun

Droidrun的主要功能

  • 视觉 + UI 解析:结合视觉模型(识别屏幕内容)和 UI 结构提取(解析控件树),实现精准交互。
  • 智能自愈机制:智能检测错误(如网络中断、界面变化),自动调整操作路径,确保自动化流程的稳健性。
  • 自然语言控制:用户基于自然语言指令直接控制 Android 设备,例如打开应用、发送消息等。
  • 多 LLM 支持:支持多种大型语言模型(LLM)提供商,如 OpenAI、Anthropic、Gemini 等,用户根据需要选择不同的模型。
  • 极简命令行操作:提供易于使用的命令行界面,方便用户快速部署和执行自动化任务。
  • 丰富的扩展能力:提供可扩展的 Python API,用户能自定义自动化脚本,满足个性化需求。
  • 自动化测试支持:执行固定 UI 流程并验证是否成功,适用于测试工程师的自动化测试场景。

Droidrun的技术原理

  • 自然语言处理(NLP):基于大型语言模型(LLM)解析用户的自然语言指令。模型理解用户的意图,生成相应的操作序列。
  • 视觉解析:基于截图功能获取手机屏幕的图像,用视觉模型(如 OCR 技术)解析屏幕上的文字和控件。让 LLM 能够“看到”手机界面,更准确地理解当前的上下文并生成正确的操作指令。
  • UI 结构提取:基于 Android 的 Accessibility Service API 提取屏幕的 UI 结构信息。分析 AccessibilityNode 信息,DroidRun 能识别屏幕上的按钮、输入框等控件,实现精准的操作。
  • 操作指令生成:LLM 根据解析的自然语言指令和屏幕上下文信息,生成具体的操作指令序列
  • DroidRun Portal App:安装在 Android 手机上的 DroidRun Portal App 负责接收来自电脑或云端的指令,基于 ADB 或 Wi-Fi 将指令转换为实际的手机操作。

Droidrun的官网地址

Droidrun的应用场景

  • AI手机助手:让AI像人一样操作手机,完成各种操作。
  • 跨应用数据交互:实现不同应用间的数据传递和任务流转。
  • 自动化任务执行:自动完成订车、录视频等复杂任务。
  • 数据提取与录入:高效提取和录入应用中的数据。
  • 多设备协同控制:支持多设备批量操作和任务分配
© 版权声明

相关文章

暂无评论

暂无评论...