Agent Browser

Name: Agent Browser
Author: TheSethRose

Schnelle Rust-basierte Headless-Browser-Automatisierungs-CLI mit Node.js-Fallback für KI-Agenten zum Navigieren, Klicken, Tippen und Erfassen von Seiten.

von TheSethRosev1.0.0

Verbindung zum Agenten wird hergestellt...

npx clawhub@latest install agent-browser

1.0kAktuelle Installationen

957Gesamte Installationen

v1.0.0Version

Quellcode ansehen(ClawHub)

Agent Browser Skill-Übersicht

Agent Browser ist eine schnelle, headless Browser-Automatisierungs-CLI, die in Rust (mit Node.js-Fallback) entwickelt wurde und speziell für KI-Agenten konzipiert ist. Sie ermöglicht es Agenten, URLs aufzurufen, mit Seitenelementen über stabile @ref-Bezeichner zu interagieren, strukturierte Daten zu extrahieren, Screenshots aufzunehmen, Videos aufzuzeichnen und Sitzungen zu verwalten – alles über einfache, kombinierbare Shell-Befehle. Ob Sie Formularübermittlungen automatisieren, dynamische Inhalte scrapen oder Web-UIs testen möchten – Agent Browser bietet eine konsistente, skriptfähige Schnittstelle zu realem Browserverhalten.

So verwenden Sie es

Step 1: Im Terminal ausführen oder auf AgentCellar installieren

npx clawhub@latest install agent-browser

oder

Klicke oben auf der Seite auf Installieren für die Ein-Klick-Einrichtung

When to Use Agent Browser

Best Fit

Web-Interaktionen automatisieren — Sie benötigen einen KI-Agenten, der auf echten Websites durch Seiten navigiert, Schaltflächen klickt, Formulare ausfüllt oder mehrstufige Workflows durchführt.
Strukturierte Daten extrahieren — Sie möchten den Accessibility-Tree oder das DOM einer Seite als Snapshot erfassen, um Text, Attribute oder Element-Anzahlen aus dynamischen, JavaScript-gerenderten Inhalten zu extrahieren.
Formulare programmatisch ausfüllen — Sie übermitteln Anmeldeformulare, Suchanfragen oder mehrseitige Formulare im Rahmen einer automatisierten Pipeline.
Web-UIs testen — Sie benötigen ein schlankes, CLI-gesteuertes Browser-Testing mit Screenshots, PDF-Export oder Videoaufzeichnung von Interaktionen.

When Not to Use

Statisches HTML-Scraping — Wenn die Zielseite einfaches HTML ohne JavaScript ist, ist ein leichtgewichtiger HTTP-Client oder HTML-Parser schneller und einfacher.
Hochparalleles Crawling in großem Maßstab — Agent Browser ist für sequenzielle Agenten-Workflows optimiert, nicht für verteiltes Web-Crawling über Tausende von URLs gleichzeitig.

Hauptfunktionen

Ref-basiertes Element-Targeting über Accessibility-Snapshot

Führen Sie agent-browser snapshot -i aus, um eine Liste aller interaktiven Elemente mit stabilen @ref-Bezeichnern zu erhalten (z. B. @e1, @e2). Verwenden Sie diese Refs direkt in nachfolgenden Klick-, Füll-, Hover- oder Get-Befehlen – ohne CSS-Selektoren oder XPath.

Umfassende Interaktionsbefehle

Unterstützt Klick, Doppelklick, Fokus, Ausfüllen, Tippen, Tastendruck/-halten/-loslassen, Hover, Checkbox aktivieren/deaktivieren, Dropdown-Auswahl, Drag-and-Drop, Datei-Upload und Scrollen – und deckt damit praktisch jede Benutzerinteraktion ab, die ein Browser unterstützt.

Sitzungsverwaltung und gespeicherter Status

Speichern Sie den authentifizierten Browserstatus (Cookies, Storage) mit agent-browser state save in einer JSON-Datei und laden Sie ihn in zukünftigen Sitzungen neu, um eine erneute Authentifizierung zu überspringen. Parallele isolierte Sitzungen über --session <name> ermöglichen mehrere gleichzeitige Browser-Kontexte.

Screenshots, PDF-Export und Videoaufzeichnung

Erstellen Sie ganzseitige Screenshots, speichern Sie Seiten als PDFs oder zeichnen Sie Browser-Interaktionen als .webm-Videodateien auf. Die Aufzeichnung speichert Cookies und Storage der aktuellen Sitzung, was sie ideal für die Erstellung reproduzierbarer Demos macht.

Netzwerk-Intercepting und Request-Mocking

Interceptieren, blockieren oder mocken Sie HTTP-Requests mit agent-browser network route. Filtern und untersuchen Sie getrackte Requests, um API-Aufrufe zu debuggen oder Offline-/Fehlerzustände während des Testens zu simulieren.

Semantische Locators als Alternative zu Refs

Wenn Refs nicht verfügbar sind, verwenden Sie semantische Locators, um Elemente anhand von ARIA-Rolle, sichtbarem Text, Label oder CSS-Selektor zu finden – zum Beispiel agent-browser find role button click --name "Submit" oder agent-browser find text "Sign In" click.

Anwendungsfälle

Automatisierte Formularübermittlungs-Pipeline

Ein KI-Agent öffnet eine Ziel-URL, erstellt einen Snapshot der Seite, um Formularfelder anhand ihrer Refs zu identifizieren, füllt jedes Feld mit agent-browser fill aus, sendet das Formular per Klick ab, wartet dann auf Netzwerk-Idle und erstellt einen erneuten Snapshot zur Erfolgsbestätigung – alles ohne menschliche Eingriffe.

Authentifizierung mit wiederverwendbarem Sitzungsstatus

Melden Sie sich einmalig interaktiv an, speichern Sie die Sitzung mit agent-browser state save auth.json und laden Sie sie bei allen zukünftigen Agenten-Durchläufen neu. Dies vermeidet wiederholte Anmeldevorgänge und hält Anmeldedaten aus Automatisierungsskripten heraus.

Dynamische Seitendatenextraktion

Navigieren Sie zu einer JavaScript-gerenderten Seite, führen Sie agent-browser snapshot aus, um den vollständigen Accessibility-Tree aufzuzeichnen, und verwenden Sie dann agent-browser get text- oder agent-browser get attr-Befehle, um strukturierte Inhalte zu extrahieren, die ein einfacher HTTP-Scraper verpassen würde.

UI-Regressionstests mit visuellen Artefakten

Skripten Sie eine Abfolge von Browser-Interaktionen, erfassen Sie bei jedem Schritt Screenshots oder eine Videoaufzeichnung und exportieren Sie ein PDF des Endzustands – so erhalten QA-Pipelines visuellen Nachweis des erwarteten Verhaltens über Testläufe hinweg.

Verbindung zum Agenten wird hergestellt...

npx clawhub@latest install agent-browser

1.0kAktuelle Installationen

957Gesamte Installationen

v1.0.0Version

Quellcode ansehen(ClawHub)

FAQ

Bewertungen

0 Bewertungen

Anmelden, um eine Bewertung zu schreiben

Noch keine Bewertungen. Sei der Erste, der seine Erfahrungen teilt!