AI-browsere narres til at lække loginoplysninger

Eskil Sørensen
06.25.2026 07:54
Sikkerhedsresearchere får seks AI-agenter til at opgive deres egne sikkerhedsregler

AI-drevne web-browsere kan manipuleres til at udlevere følsomme oplysninger, hvis de overbevises om, at de befinder sig i en fiktiv kontekst. Det viser nye forsøg fra sikkerhedsresearchere, der har demonstreret, hvordan moderne AI-agenter kan narres til at kopiere og videregive brugeres loginoplysninger.

Det fremgår af en artikel i Infosecurity Magazine.

Spil-lignende manipulation bryder sikkerhedsbarrierer

Der er tale om sikkerhedsresearchere fra LayerX, der har udviklet en teknik, som de kalder BioShocking, inspireret af computerspillet BioShock, hvor en karakter manipuleres til at acceptere en falsk virkelighed.

Metoden udnytter en grundlæggende antagelse i AI-browsere: at det miljø, de opererer i, er virkeligt. Denne antagelse er afgørende for, at de holder sig inden for deres sikkerhedsregler.

LayerX viser imidlertid, at disse begrænsninger kan falde bort, hvis AI-agenten overbevises om, at den ikke længere opererer i en virkelig kontekst, men i et spil eller en simulation.

For at demonstrere dette byggede sikkerhedsresearcherne en ondsindet webside med et simpelt puslespil, hvor brugeren – eller rettere AI-agenten – blev belønnet for bevidst at give forkerte svar, eksempelvis ved at acceptere, at 2 + 2 = 5.

Når agenten først accepterede, at reglerne i konteksten var “omvendte” eller uvirkelige, ophørte den med at anvende sine normale sikkerhedsforanstaltninger.

Fra harmløst spil til læk af credentials

Efter at have “løst” det manipulerede puslespil blev AI-agenten instrueret i at udføre næste trin: åbne en side med navnet /code og kopiere indholdet af en tekstboks.

I demonstrationen blev agenten i stedet omdirigeret til en GitHub-repository, hvor brugeren allerede var logget ind. Herfra hentede agenten SSH-loginoplysninger og sendte dem videre – som en del af spillets progression.

Ingen af de testede AI-agenter reagerede på dette som et sikkerhedsbrud. Tværtimod fortsatte de opgaven og “fejrede” gennemførelsen af opgaven, præcis som hvis det var et legitimt spil.

LayerX understreger, at forsøget anvendte en ufarlig tekstfil. I en reel angrebssituation ville teknikken imidlertid kunne bruges til at tilgå fx åbne browserfaner, interne systemer, hvor brugeren er logget ind og private repositories og følsomme data.

Dermed udvides angrebsfladen markant, uden at brugeren nødvendigvis opdager det.

Flere AI-værktøjer påvirket

I testen blev i alt seks AI-baserede browsere og plugins undersøgt, herunder:

  • OpenAI ChatGPT Atlas
  • Perplexity Comet
  • Anthropic Claude-udvidelse
  • Tre mindre leverandører

Alle seks kunne i proof-of-concept-angrebet manipuleres til at udlevere loginoplysninger.

Ifølge artiklen har leverandørerne reageret på forskellig måde:

  • OpenAI har ifølge LayerX rettet problemet
  • Anthropic har forsøgt en løsning, som ifølge sikkerhedsresearcherne ikke er tilstrækkelig
  • Perplexity lukkede rapporten uden ændringer
  • Flere mindre leverandører har ikke responderet

Kendte angrebsmetoder spiller sammen

LayerX peger på, at effekten ikke er begrænset til spil-scenarier. Lignende resultater kan opnås via mere velkendte teknikker som prompt injection og manipulation med / forgiftning af AI’ens hukommelse.

Fælles for dem er, at de ændrer den kontekst, AI-agenten baserer sine beslutninger på. Når konteksten ændres, ændres adfærden.

Forslag til modforanstaltninger

For at reducere risikoen anbefaler sikkerhedsresearcherne en række tiltag for leverandører af AI-browsere:

  • Krav om eksplicit brugeraccept før adgang til konti, hvor brugeren er logget ind
  • Advarsler når en agent instrueres i at tilsidesætte normale regler
  • Mulighed for at begrænse, hvilke data og systemer en agent må interagere med

Kernen i problemet er, at disse værktøjer implicit stoler på deres kontekst. Når angriberen kontrollerer konteksten, kan de i praksis også forme agentens handlinger.

Det er i dette spænd mellem automatisering og tillid, at angrebet finder sit greb.

Sårbarhed