Automatización de escritorio perfecta al píxel con control de ratón, teclado, captura de pantalla, gestión de ventanas y portapapeles.
npx clawhub@latest install desktop-controlDesktop Control es una skill de automatización de escritorio completa que otorga a los agentes de IA un control preciso y programático sobre todo tu entorno de escritorio. Abarca movimientos del ratón (incluidas trayectorias suaves con curvas de Bézier), entrada de teclado a velocidades configurables, captura de pantalla y reconocimiento de imágenes, gestión de ventanas y operaciones con el portapapeles. Construido sobre PyAutoGUI y OpenCV, incluye mecanismos de seguridad como esquinas de seguridad y modo de aprobación para mantener la automatización bajo tu control.
npx clawhub@latest install desktop-controlHaz clic en el botón Instalar en la parte superior de esta página para una configuración rápida
Mueve el cursor a coordenadas absolutas de pantalla o desplazamientos relativos, con trayectorias opcionales de curva de Bézier suave que imitan el movimiento humano natural. Compatible con clics izquierdo, derecho y central, doble y triple clic, arrastrar y soltar, y desplazamiento tanto vertical como horizontal.
Escribe texto a cualquier velocidad, desde instantánea hasta WPM similar al humano, ejecuta atajos de teclado con múltiples teclas (Ctrl+C, Win+R, etc.), presiona teclas especiales y de función, y mantén pulsadas o suelta manualmente las teclas modificadoras para interacciones complejas como la selección de múltiples archivos.
Captura la pantalla completa o cualquier región rectangular y guarda el resultado como PNG. Opcionalmente, usa OpenCV para localizar una imagen de plantilla en cualquier parte de la pantalla con un umbral de confianza configurable, lo que permite la detección de elementos sin coordenadas predefinidas.
Lista todas las ventanas abiertas, activa cualquier ventana mediante coincidencia parcial del título, recupera la ventana enfocada actualmente y lee la posición, el tamaño y el título de la ventana — lo que facilita la orquestación de flujos de trabajo con múltiples aplicaciones.
Un modo a prueba de fallos interrumpe la automatización cuando el ratón alcanza cualquier esquina de la pantalla. Un modo de aprobación solicita confirmación del usuario antes de cada acción. La verificación de límites impide operaciones fuera de la pantalla y todas las acciones quedan registradas para auditoría.
Escribe texto en el portapapeles mediante programación o lee su contenido actual, lo que permite una transferencia de datos fluida entre aplicaciones sin simular atajos de teclado.
Un agente activa una ventana de aplicación de destino, hace clic en cada campo del formulario en secuencia, escribe los valores apropiados a una velocidad similar a la humana y los envía — replicando a un usuario que completa un formulario web o de escritorio complejo sin ningún acceso a la API de la aplicación.
Después de activar una acción en la aplicación, captura una región específica de la pantalla para guardarla como un PNG con marca de tiempo, luego utiliza el reconocimiento de imágenes para confirmar que el botón o cuadro de diálogo esperado es visible antes de continuar.
Mantén presionado Ctrl y haz clic en varios archivos en un administrador de archivos para seleccionarlos, luego arrastra la selección a una carpeta de destino — todo programado como una única secuencia de automatización reproducible.
Activa una aplicación de origen, selecciona y copia datos mediante atajos de teclado, cambia a una aplicación de destino a través de la activación de ventanas y pega los datos — automatizando un flujo de trabajo que de otro modo requeriría copiar y pegar manualmente entre programas.
pyautogui, pillow y pygetwindow. opencv-python es opcional, pero necesario para el reconocimiento de imágenes (find_on_screen).npx clawhub@latest install desktop-controlInicia sesión para escribir una reseña
Aún no hay reseñas. ¡Sé el primero en compartir tu experiencia!