Desktop Control

Name: Desktop Control
Author: matagul

ピクセル単位の精度で、マウス、キーボード、スクリーンキャプチャ、ウィンドウ管理、クリップボード制御を使ったデスクトップ自動化を実現します。

matagulv1.0.0

エージェントに接続中...

npx clawhub@latest install desktop-control

587現在のインストール数

120累計インストール数

v1.0.0バージョン

ソースコードを見る(ClawHub)

Desktop Control スキル概要

Desktop Control は、AIエージェントがデスクトップ環境全体を正確かつプログラム的に制御できる包括的なデスクトップ自動化スキルです。マウスの動き（スムーズなベジェ曲線パスを含む）、設定可能な速度でのキーボード入力、画面キャプチャと画像認識、ウィンドウ管理、クリップボード操作をカバーしています。PyAutoGUI と OpenCV をベースに構築されており、フェイルセーフコーナーや承認モードなどの安全機能を備え、自動化を常にあなたのコントロール下に置きます。

使い方

Step 1: ターミナルで実行するか AgentCellar にインストール

npx clawhub@latest install desktop-control

または

このページ上部のインストールボタンをクリックするとワンクリックでセットアップできます

When to Use Desktop Control

Best Fit

繰り返しのGUIワークフローの自動化 — APIを持たないアプリケーションでのフォーム入力、メニュー操作、またはファイルの一括処理。
デスクトップテストスクリプトの構築 — ユーザー入力をシミュレートし、スクリーンショットを取得してアプリケーションの状態を検証する。
マルチアプリパイプラインのオーケストレーション — ウィンドウを切り替え、あるアプリからデータをコピーし、別のアプリに貼り付ける。
画面の監視とキャプチャ — タイマーや特定領域のスクリーンショットの撮影、画像認識による画面上の要素の検出、または状態検出のためのピクセルカラーの読み取り。

When Not to Use

ヘッドレス環境またはサーバー環境 — このスキルは表示画面が必要です。デスクトップセッションのないマシンでは動作しません。
シミュレート入力をブロックするアプリケーション — 一部のゲーム、DRM保護されたアプリ、およびセキュアなログイン画面は、マウスやキーボードの仮想イベントを積極的に拒否します。
高頻度・低レイテンシの自動化 — ミリ秒以下の精度が必要な場合や、毎秒数千のアクションを自動化する場合は、ネイティブOSのAPIまたは専用のRPAプラットフォームの方がより信頼性が高くなります。

主な機能

ピクセル精度のマウス制御

カーソルを絶対スクリーン座標または相対オフセットへ移動できます。自然な人間の動きを模倣した、オプションの滑らかなベジェ曲線パスにも対応しています。左・右・中ボタンのクリック、ダブル/トリプルクリック、ドラッグ＆ドロップ、垂直および水平スクロールをサポートしています。

キーボード入力のカスタマイズ

テキストを即時入力から人間らしいWPMまで任意の速度で入力し、マルチキーホットキー（Ctrl+C、Win+R など）を実行し、特殊キーやファンクションキーを押し、複数ファイルの選択などの複雑な操作のためにモディファイアキーを手動で押し続けたり離したりすることができます。

スクリーンキャプチャと画像認識

全画面または任意の矩形領域をキャプチャし、結果をPNGとして保存します。オプションでOpenCVを使用して、設定可能な信頼度しきい値でスクリーン上の任意の場所にあるテンプレート画像を検出できるため、座標をハードコーディングすることなく要素の検出が可能になります。

ウィンドウ管理

開いているすべてのウィンドウを一覧表示し、タイトルの部分一致で任意のウィンドウをアクティブ化し、現在フォーカスされているウィンドウを取得して、ウィンドウの位置・サイズ・タイトルを読み取ることができます。これにより、複数アプリケーションにまたがるワークフローを簡単に orchestrate できます。

組み込みの安全機能

マウスが画面のいずれかのコーナーに到達すると、フェイルセーフモードが自動化を中止します。承認モードは、各アクションの前にユーザーの確認を求めます。境界チェックにより画面外での操作が防止され、すべてのアクションは監査のためにログに記録されます。

クリップボード操作

キーボードショートカットをシミュレートすることなく、プログラムによってクリップボードにテキストを書き込んだり、現在の内容を読み取ったりすることで、アプリケーション間のシームレスなデータ転送を実現します。

ユースケース

自動フォーム入力

エージェントがターゲットアプリケーションウィンドウをアクティブにし、各フォームフィールドに順番にクリックして入力し、人間に近いスピードで適切な値を入力して送信します。これにより、アプリのAPIアクセスなしに、複雑なウェブまたはデスクトップフォームへの入力を再現します。

UI テスト & スクリーンショット検証

アプリケーションのアクションをトリガーした後、特定の画面領域をキャプチャしてタイムスタンプ付きの PNG として保存し、次の処理に進む前に画像認識を使用して期待されるボタンまたはダイアログが表示されていることを確認します。

複数ファイルのドラッグ＆ドロップワークフロー

ファイルマネージャーで Ctrl を押しながら複数のファイルをクリックして選択し、その選択範囲を目的のフォルダーにドラッグします — すべてが単一の再現可能な自動化シーケンスとしてスクリプト化されています。

クロスアプリケーションデータ転送

ソースアプリケーションを起動し、キーボードショートカットを使用してデータを選択・コピーし、ウィンドウのアクティベーションを通じて宛先アプリケーションに切り替えてペーストします。これにより、プログラム間で手動でコピー＆ペーストする必要があったワークフローを自動化できます。

動作要件

Pythonパッケージ — pyautogui、pillow、pygetwindow が必要です。opencv-python はオプションですが、画像認識（find_on_screen）に必要です。
ディスプレイ環境 — ライブデスクトップセッションが必要です。ヘッドレスサーバーはサポートされていません。
管理者／昇格された権限 (状況によって異なります) — 一部のアプリケーションおよびOSレベルの操作では、Pythonプロセスを管理者権限で実行する必要があります。

エージェントに接続中...

npx clawhub@latest install desktop-control

587現在のインストール数

120累計インストール数

v1.0.0バージョン

ソースコードを見る(ClawHub)

よくある質問

レビュー

0件のレビュー

レビューを書くにはログイン

まだレビューはありません。最初の体験をシェアしましょう！