Desktop Control 是一个全面的桌面自动化技能,为 AI 智能体提供对整个桌面环境精确、可编程的控制能力。它涵盖鼠标移动(包括平滑贝塞尔曲线路径)、可配置速度的键盘输入、屏幕截图与图像识别、窗口管理以及剪贴板操作。它基于 PyAutoGUI 和 OpenCV 构建,包含故障安全角和审批模式等安全机制,让自动化始终处于您的掌控之下。
npx clawhub@latest install desktop-control点击本页顶部的 安装 按钮即可一键设置
将光标移动到屏幕绝对坐标或相对偏移位置,支持可选的贝塞尔曲线平滑路径,模拟自然的人类操作动作。支持左键、右键和中键点击,双击/三击,拖放操作,以及垂直和水平滚动。
以任意速度输入文本,从即时输入到模拟人类打字的WPM速度,执行多键热键(Ctrl+C、Win+R 等),按下特殊键和功能键,并手动按住或释放修饰键,以实现多文件选择等复杂交互操作。
捕获全屏或任意矩形区域,并将结果保存为 PNG 文件。可选择使用 OpenCV 在屏幕上以可配置的置信度阈值定位模板图像,从而实现无需硬编码坐标的元素检测。
列出所有打开的窗口,通过部分标题匹配激活任意窗口,获取当前焦点窗口,并读取窗口的位置、大小和标题——让多应用程序工作流的编排变得简单直接。
当鼠标移动到屏幕任意角落时,故障保护模式将中止自动化操作。审批模式会在每次操作前提示用户进行确认。边界检查可防止超出屏幕范围的操作,所有操作均会被记录以供审计。
以编程方式向剪贴板写入文本或读取其当前内容,无需模拟键盘快捷键即可实现应用程序之间的无缝数据传输。
代理激活目标应用程序窗口,依次点击每个表单字段,以模拟人类的速度输入相应的值,最后提交——在无需任何应用程序 API 访问权限的情况下,完整复现用户填写复杂网页或桌面表单的操作过程。
触发应用程序操作后,捕获特定屏幕区域并保存为带时间戳的 PNG 文件,然后使用图像识别确认预期的按钮或对话框可见,再继续执行后续步骤。
在文件管理器中按住 Ctrl 并单击多个文件以选中它们,然后将所选内容拖动到目标文件夹——整个过程作为单个可重复的自动化序列通过脚本实现。
激活源应用程序,使用键盘快捷键选择并复制数据,通过窗口激活切换到目标应用程序,然后粘贴——自动化原本需要在程序之间手动复制粘贴的工作流程。
pyautogui、pillow、pygetwindow。opencv-python 为可选项,但图像识别功能(find_on_screen)需要用到它。登录后撰写评价
暂无评价。来分享你的使用体验吧!