마우스, 키보드, 화면 캡처, 창 관리 및 클립보드 제어를 통한 픽셀 단위의 정밀한 데스크톱 자동화.
Desktop Control는 AI 에이전트가 전체 데스크톱 환경을 정밀하고 프로그래밍 방식으로 제어할 수 있게 해주는 포괄적인 데스크톱 자동화 스킬입니다. 마우스 이동(부드러운 베지어 곡선 경로 포함), 설정 가능한 속도의 키보드 입력, 화면 캡처 및 이미지 인식, 창 관리, 클립보드 작업을 지원합니다. PyAutoGUI와 OpenCV를 기반으로 구축되었으며, 자동화를 사용자의 통제 하에 유지하기 위한 페일세이프 코너 및 승인 모드와 같은 안전 메커니즘이 포함되어 있습니다.
npx clawhub@latest install desktop-control이 페이지 상단의 설치 버튼을 클릭하면 원클릭으로 설정할 수 있습니다
커서를 절대 화면 좌표 또는 상대적 오프셋으로 이동하며, 자연스러운 인간의 움직임을 모방하는 선택적 부드러운 베지어 곡선 경로를 지원합니다. 왼쪽, 오른쪽, 가운데 클릭, 더블/트리플 클릭, 드래그 앤 드롭, 수직 및 수평 스크롤을 모두 지원합니다.
즉각적인 속도부터 사람과 유사한 WPM까지 원하는 속도로 텍스트를 입력하고, 멀티 키 단축키(Ctrl+C, Win+R 등)를 실행하며, 특수 키 및 기능 키를 누르고, 다중 파일 선택과 같은 복잡한 상호작용을 위해 수동으로 보조 키를 누르거나 해제할 수 있습니다.
전체 화면 또는 임의의 직사각형 영역을 캡처하여 결과를 PNG로 저장합니다. 선택적으로 OpenCV를 사용하여 설정 가능한 신뢰도 임계값으로 화면 어디에서나 템플릿 이미지를 찾을 수 있으며, 하드코딩된 좌표 없이 요소 감지를 구현할 수 있습니다.
열려 있는 모든 창을 나열하고, 제목의 일부 일치를 통해 원하는 창을 활성화하며, 현재 포커스된 창을 가져오고, 창의 위치·크기·제목을 읽을 수 있습니다 — 이를 통해 여러 애플리케이션을 아우르는 워크플로를 손쉽게 조율할 수 있습니다.
마우스가 화면 모서리에 도달하면 페일세이프 모드가 자동화를 중단합니다. 승인 모드는 각 작업 전에 사용자 확인을 요청합니다. 경계 검사는 화면 밖 작업을 방지하며, 모든 작업은 감사를 위해 기록됩니다.
키보드 단축키를 시뮬레이션하지 않고도 클립보드에 텍스트를 프로그래밍 방식으로 쓰거나 현재 내용을 읽어, 애플리케이션 간 원활한 데이터 전송을 가능하게 합니다.
에이전트가 대상 애플리케이션 창을 활성화하고, 각 양식 필드를 순서대로 클릭하여 사람과 유사한 속도로 적절한 값을 입력한 후 제출합니다 — 앱 API 액세스 없이도 복잡한 웹 또는 데스크톱 양식을 사용자가 직접 작성하는 것을 그대로 재현합니다.
애플리케이션 작업을 실행한 후, 특정 화면 영역을 캡처하여 타임스탬프가 포함된 PNG 파일로 저장한 다음, 이미지 인식을 사용하여 예상되는 버튼 또는 대화 상자가 표시되는지 확인한 후 다음 단계로 진행합니다.
파일 관리자에서 Ctrl 키를 누른 채 여러 파일을 클릭하여 선택한 다음, 선택한 항목을 대상 폴더로 드래그하세요 — 모든 과정이 단일 재현 가능한 자동화 시퀀스로 스크립팅됩니다.
소스 애플리케이션을 활성화하고, 키보드 단축키를 사용하여 데이터를 선택 및 복사한 후, 창 활성화를 통해 대상 애플리케이션으로 전환하고 붙여넣기를 수행합니다. 이를 통해 프로그램 간 수동 복사-붙여넣기가 필요했던 워크플로를 Desktop Control으로 자동화할 수 있습니다.
pyautogui, pillow, pygetwindow가 필요합니다. opencv-python은 선택 사항이지만 이미지 인식(find_on_screen)에 필요합니다.리뷰를 작성하려면 로그인
아직 리뷰가 없습니다. 첫 번째로 경험을 공유해 보세요!