Agent Browser

Name: Agent Browser
Author: TheSethRose

Snabb Rust-baserad headless browser-automatiserings-CLI med Node.js-reserv för AI-agenter att navigera, klicka, skriva och ta ögonblicksbilder.

av TheSethRosev1.0.0

Ansluter till din agent...

npx clawhub@latest install agent-browser

1.0kAktuella installationer

957Totala installationer

v1.0.0Version

Visa källkod(ClawHub)

Översikt över Agent Browser-färdigheten

Agent Browser är ett snabbt, headless CLI-verktyg för webbläsarautomatisering byggt i Rust (med Node.js som reservalternativ) och utformat specifikt för AI-agenter. Det låter agenter navigera till URL:er, interagera med sidelement med hjälp av stabila @ref-identifierare, extrahera strukturerad data, ta skärmdumpar, spela in video och hantera sessioner — allt via enkla, kompostbara skalkommandon. Oavsett om du automatiserar formulärinlämningar, skrapar dynamiskt innehåll eller testar webbanvändargränssnitt erbjuder Agent Browser ett konsekvent, skriptbart gränssnitt mot verkligt webbläsarbeteende.

Så här använder du den

Step 1: Kör i din terminal eller installera den här färdigheten på AgentCellar

npx clawhub@latest install agent-browser

eller

Klicka på Installera-knappen längst upp på sidan för installation med ett klick

When to Use Agent Browser

Best Fit

Automatisera webbinteraktioner — Du behöver en AI-agent för att navigera på sidor, klicka på knappar, fylla i formulär eller utföra arbetsflöden med flera steg på riktiga webbplatser.
Extrahera strukturerad data — Du vill ta en ögonblicksbild av en sidas tillgänglighetsträd eller DOM för att hämta text, attribut eller elementantal från dynamiskt, JavaScript-renderat innehåll.
Fylla i formulär programmatiskt — Du skickar in inloggningsformulär, sökfrågor eller formulär med flera fält som en del av en automatiserad pipeline.
Testa webb-gränssnitt — Du behöver lättviktig, CLI-driven webbläsartestning med skärmdumpar, PDF-export eller videoinspelning av interaktioner.

When Not to Use

Statisk HTML-skrapning — Om målsidan är ren HTML utan JavaScript kommer en enklare HTTP-klient eller HTML-parser att vara snabbare och enklare.
Storskalig högkoncurrent crawling — Agent Browser är optimerad för sekventiella agentarbetsflöden, inte distribuerad webbcrawling över tusentals URL:er samtidigt.

Nyckelfunktioner

Ref-baserad elementpekare via tillgänglighetsögonblicksbild

Kör agent-browser snapshot -i för att få en lista över alla interaktiva element med stabila @ref-identifierare (t.ex. @e1, @e2). Använd dessa refs direkt i efterföljande klick-, fyll-, hovra- eller hämta-kommandon — inga CSS-väljare eller XPath krävs.

Omfattande interaktionskommandon

Stöder klick, dubbelklick, fokus, fyll i, skriv, tangentbordstryckning/-håll/-släpp, hovring, kryssruta markera/avmarkera, rullgardinsmeny val, dra och släpp, filuppladdning och rullning — vilket täcker nästan alla användarinteraktioner som en webbläsare stöder.

Sessionshantering och sparade tillstånd

Spara autentiserat webbläsartillstånd (cookies, lagring) till en JSON-fil med agent-browser state save, och ladda sedan om det i framtida sessioner för att hoppa över återautentisering. Parallella isolerade sessioner via --session <name> möjliggör flera samtidiga webbläsarkontexter.

Skärmbilder, PDF-export och videoinspelning

Ta skärmbilder av hela sidor, spara sidor som PDF-filer eller spela in webbläsarinteraktioner som .webm-videofiler. Inspelning bevarar cookies och lagring från den aktuella sessionen, vilket gör det idealiskt för att skapa reproducerbara demonstrationer.

Nätverksavlyssning och mockning av förfrågningar

Avlyssna, blockera eller mocka HTTP-förfrågningar med agent-browser network route. Filtrera och inspektera spårade förfrågningar för att felsöka API-anrop eller simulera offline-/feltillstånd under testning.

Semantiska lokaliserare som alternativ till refs

När refs inte är tillgängliga, använd semantiska lokaliserare för att hitta element via ARIA-roll, synlig text, etikett eller CSS-väljare — till exempel agent-browser find role button click --name "Submit" eller agent-browser find text "Sign In" click.

Användningsfall

Automatiserad pipeline för formulärinlämning

En AI-agent öppnar en mål-URL, tar en ögonblicksbild av sidan för att identifiera formulärfält via ref, fyller i varje fält med agent-browser fill, skickar in formuläret med ett klick, väntar sedan tills nätverket är inaktivt och tar en ny ögonblicksbild för att bekräfta att det lyckades — allt utan att en människa behöver vara inblandad.

Autentisering med återanvändbart sessionstillstånd

Logga in en gång interaktivt, spara sessionen med agent-browser state save auth.json och läs in den på nytt i alla framtida agentkörningar. Detta undviker upprepade inloggningsflöden och håller autentiseringsuppgifter utanför automatiseringsskript.

Dynamisk datautvinning från sidor

Navigera till en JavaScript-renderad sida, kör agent-browser snapshot för att fånga hela tillgänglighetsträdet och använd sedan kommandona agent-browser get text eller agent-browser get attr för att extrahera strukturerat innehåll som en vanlig HTTP-skrapare skulle missa.

UI-regressionstest med visuella artefakter

Skripta en sekvens av webbläsarinteraktioner med Agent Browser, ta skärmdumpar eller en videoinspelning vid varje steg och exportera en PDF av slutstatus — vilket ger QA-pipelines visuella bevis på förväntat beteende över flera testkörningar.

Ansluter till din agent...

npx clawhub@latest install agent-browser

1.0kAktuella installationer

957Totala installationer

v1.0.0Version

Visa källkod(ClawHub)

Vanliga frågor

Recensioner

0 recensioner

Logga in för att skriva en recension

Inga recensioner ännu. Var den första att dela din upplevelse!