Desktop Control

Name: Desktop Control
Author: matagul

마우스, 키보드, 화면 캡처, 창 관리 및 클립보드 제어를 통한 픽셀 단위의 정밀한 데스크톱 자동화.

matagulv1.0.0

에이전트에 연결 중...

npx clawhub@latest install desktop-control

587현재 설치 수

120누적 설치 수

v1.0.0버전

소스 보기(ClawHub)

Desktop Control 스킬 개요

Desktop Control는 AI 에이전트가 전체 데스크톱 환경을 정밀하고 프로그래밍 방식으로 제어할 수 있게 해주는 포괄적인 데스크톱 자동화 스킬입니다. 마우스 이동(부드러운 베지어 곡선 경로 포함), 설정 가능한 속도의 키보드 입력, 화면 캡처 및 이미지 인식, 창 관리, 클립보드 작업을 지원합니다. PyAutoGUI와 OpenCV를 기반으로 구축되었으며, 자동화를 사용자의 통제 하에 유지하기 위한 페일세이프 코너 및 승인 모드와 같은 안전 메커니즘이 포함되어 있습니다.

사용 방법

Step 1: 터미널에서 실행하거나 AgentCellar에 설치

npx clawhub@latest install desktop-control

또는

이 페이지 상단의 설치 버튼을 클릭하면 원클릭으로 설정할 수 있습니다

When to Use Desktop Control

Best Fit

반복적인 GUI 워크플로우 자동화 — API가 없는 애플리케이션에서 양식 작성, 메뉴 탐색 또는 파일 일괄 처리.
데스크톱 테스트 스크립트 구축 — 사용자 입력을 시뮬레이션하고 스크린샷을 캡처하여 애플리케이션 상태를 확인.
다중 앱 파이프라인 조율 — 창 간 전환, 한 앱에서 데이터 복사, 다른 앱에 붙여넣기.
화면 모니터링 및 캡처 — 시간 지정 또는 특정 영역 스크린샷 촬영, 이미지 인식을 통한 화면 요소 감지, 상태 감지를 위한 픽셀 색상 읽기.

When Not to Use

헤드리스 또는 서버 환경 — 이 스킬은 화면 표시가 필요하며, 데스크톱 세션이 없는 머신에서는 작동하지 않습니다.
시뮬레이션 입력을 차단하는 애플리케이션 — 일부 게임, DRM으로 보호된 앱, 보안 로그인 화면은 합성 마우스/키보드 이벤트를 적극적으로 거부합니다.
고빈도 저지연 자동화 — 밀리초 미만의 정밀도가 필요하거나 초당 수천 개의 작업을 자동화해야 하는 경우, 네이티브 OS API 또는 전용 RPA 플랫폼이 더 안정적입니다.

주요 기능

픽셀 정밀 마우스 제어

커서를 절대 화면 좌표 또는 상대적 오프셋으로 이동하며, 자연스러운 인간의 움직임을 모방하는 선택적 부드러운 베지어 곡선 경로를 지원합니다. 왼쪽, 오른쪽, 가운데 클릭, 더블/트리플 클릭, 드래그 앤 드롭, 수직 및 수평 스크롤을 모두 지원합니다.

설정 가능한 키보드 입력

즉각적인 속도부터 사람과 유사한 WPM까지 원하는 속도로 텍스트를 입력하고, 멀티 키 단축키(Ctrl+C, Win+R 등)를 실행하며, 특수 키 및 기능 키를 누르고, 다중 파일 선택과 같은 복잡한 상호작용을 위해 수동으로 보조 키를 누르거나 해제할 수 있습니다.

화면 캡처 및 이미지 인식

전체 화면 또는 임의의 직사각형 영역을 캡처하여 결과를 PNG로 저장합니다. 선택적으로 OpenCV를 사용하여 설정 가능한 신뢰도 임계값으로 화면 어디에서나 템플릿 이미지를 찾을 수 있으며, 하드코딩된 좌표 없이 요소 감지를 구현할 수 있습니다.

창 관리

열려 있는 모든 창을 나열하고, 제목의 일부 일치를 통해 원하는 창을 활성화하며, 현재 포커스된 창을 가져오고, 창의 위치·크기·제목을 읽을 수 있습니다 — 이를 통해 여러 애플리케이션을 아우르는 워크플로를 손쉽게 조율할 수 있습니다.

내장된 안전 기능

마우스가 화면 모서리에 도달하면 페일세이프 모드가 자동화를 중단합니다. 승인 모드는 각 작업 전에 사용자 확인을 요청합니다. 경계 검사는 화면 밖 작업을 방지하며, 모든 작업은 감사를 위해 기록됩니다.

클립보드 작업

키보드 단축키를 시뮬레이션하지 않고도 클립보드에 텍스트를 프로그래밍 방식으로 쓰거나 현재 내용을 읽어, 애플리케이션 간 원활한 데이터 전송을 가능하게 합니다.

활용 사례

자동화된 양식 작성

에이전트가 대상 애플리케이션 창을 활성화하고, 각 양식 필드를 순서대로 클릭하여 사람과 유사한 속도로 적절한 값을 입력한 후 제출합니다 — 앱 API 액세스 없이도 복잡한 웹 또는 데스크톱 양식을 사용자가 직접 작성하는 것을 그대로 재현합니다.

UI 테스트 및 스크린샷 검증

애플리케이션 작업을 실행한 후, 특정 화면 영역을 캡처하여 타임스탬프가 포함된 PNG 파일로 저장한 다음, 이미지 인식을 사용하여 예상되는 버튼 또는 대화 상자가 표시되는지 확인한 후 다음 단계로 진행합니다.

다중 파일 드래그 앤 드롭 워크플로우

파일 관리자에서 Ctrl 키를 누른 채 여러 파일을 클릭하여 선택한 다음, 선택한 항목을 대상 폴더로 드래그하세요 — 모든 과정이 단일 재현 가능한 자동화 시퀀스로 스크립팅됩니다.

애플리케이션 간 데이터 전송

소스 애플리케이션을 활성화하고, 키보드 단축키를 사용하여 데이터를 선택 및 복사한 후, 창 활성화를 통해 대상 애플리케이션으로 전환하고 붙여넣기를 수행합니다. 이를 통해 프로그램 간 수동 복사-붙여넣기가 필요했던 워크플로를 Desktop Control으로 자동화할 수 있습니다.

요구 사항

Python 패키지 — pyautogui, pillow, pygetwindow가 필요합니다. opencv-python은 선택 사항이지만 이미지 인식(find_on_screen)에 필요합니다.
디스플레이 환경 — 활성 데스크톱 세션이 필요합니다. 헤드리스 서버는 지원되지 않습니다.
관리자 / 상승된 권한 (상황에 따라) — 일부 애플리케이션 및 OS 수준 작업에서는 Python 프로세스가 관리자 권한으로 실행되어야 합니다.

에이전트에 연결 중...

npx clawhub@latest install desktop-control

587현재 설치 수

120누적 설치 수

v1.0.0버전

소스 보기(ClawHub)

자주 묻는 질문

리뷰

0개 리뷰

리뷰를 작성하려면 로그인

아직 리뷰가 없습니다. 첫 번째로 경험을 공유해 보세요!