Desktop Control 是一個全面的桌面自動化技能,讓 AI 代理能夠對您的整個桌面環境進行精確、程式化的控制。它涵蓋滑鼠移動(包括平滑的貝茲曲線路徑)、可設定速度的鍵盤輸入、螢幕截圖與圖像識別、視窗管理以及剪貼簿操作。基於 PyAutoGUI 和 OpenCV 構建,它包含安全機制,例如安全角落和核准模式,讓自動化操作始終在您的掌控之下。
npx clawhub@latest install desktop-control點擊本頁頂部的 安裝 按鈕即可一鍵設定
將游標移動到絕對螢幕座標或相對偏移位置,並可選擇使用模擬自然人類動作的平滑貝茲曲線路徑。支援左鍵、右鍵與中鍵點擊、雙擊/三擊、拖放操作,以及垂直與水平捲動。
以任意速度輸入文字,從即時輸入到模擬人類打字的 WPM 速度皆可,執行多鍵快捷鍵(Ctrl+C、Win+R 等),按下特殊鍵與功能鍵,並可手動按住或釋放修飾鍵,以進行複雜操作(如多檔案選取)。
擷取整個螢幕或任意矩形區域,並將結果儲存為 PNG 檔案。可選擇性地使用 OpenCV,以可設定的信賴度閾值在螢幕上的任意位置定位範本影像,實現無需硬式編碼座標的元素偵測。
列出所有已開啟的視窗、透過部分標題比對來啟動任意視窗、取得目前焦點所在的視窗,以及讀取視窗的位置、大小與標題——讓多應用程式工作流程的協調編排變得簡單直覺。
當滑鼠移至任一螢幕角落時,安全保護模式會自動中止自動化操作。審核模式會在每個動作執行前提示使用者確認。邊界檢查機制可防止超出螢幕範圍的操作,且所有動作均會記錄日誌以供稽核。
以程式化方式將文字寫入剪貼簿或讀取其目前內容,無需模擬鍵盤快捷鍵,即可在應用程式之間實現無縫的資料傳輸。
代理程式啟動目標應用程式視窗,依序點擊每個表單欄位,以近似人類的輸入速度鍵入對應的值,並完成提交——完整模擬使用者填寫複雜網頁或桌面表單的操作,且無需任何應用程式 API 存取權限。
在觸發應用程式操作後,擷取特定螢幕區域並儲存為帶有時間戳記的 PNG 檔案,然後使用影像辨識確認預期的按鈕或對話框已顯示,再繼續執行後續步驟。
在檔案管理員中按住 Ctrl 並點選多個檔案以進行選取,然後將所選內容拖曳至目標資料夾——全程以單一可重現的自動化序列透過 Desktop Control 執行腳本。
啟動來源應用程式,使用鍵盤快捷鍵選取並複製資料,透過視窗啟動切換至目標應用程式,再執行貼上——自動化原本需要在不同程式間手動複製貼上的工作流程。
pyautogui、pillow、pygetwindow。opencv-python 為選用,但若需使用影像辨識功能(find_on_screen)則必須安裝。登入後撰寫評價
尚無評價。來分享你的使用體驗吧!