LangWatch, een platform voor het testen, simuleren en verbeteren van AI- en agentgedreven applicaties, kondigt vandaag een oplossing voor red-teaming aan. LangWatch Scenario is een open-source framework voor het geautomatiseerd red-teamen van AI-applicaties en het uitvoeren van AI pen-testing. Het stelt development teams in staat hun AI-agents systematisch te testen op geavanceerde aanvalstechnieken die in de praktijk het meest effectief blijken, maar die door traditionele testmethoden vaak onopgemerkt blijven.

Deze lancering komt op een moment dat de aandacht voor AI-veiligheid snel toeneemt. Het publieke debat in Nederland richt zich vooral op zichtbare risico’s zoals deepfakes, desinformatie en privacy. LangWatch wijst echter op een minder zichtbare, maar groeiende dreiging. AI-aanvallen worden steeds geavanceerder en moeilijker te detecteren. De echte risico’s zitten vaak in de AI-applicaties die organisaties zelf ontwikkelen. Dit zijn AI-agents die met gevoelige data werken en kwetsbaar zijn op manieren die traditionele testen niet blootleggen. LangWatch Scenario maakt deze kwetsbaarheden zichtbaar door systematisch AI pen-testing en geautomatiseerd red-teaming uit te voeren.

Onzichtbare risico’s detecteren

LangWatch Scenario simuleert realistische, multi-turn aanvallen op AI-applicaties. Hierbij bouwt het context en vertrouwen op in gesprekken, precies zoals een echte cybercrimineel dat zou doen. Het framework voert automatisch een reeks scenario’s uit, van ogenschijnlijk onschuldige verkenning tot complexe verzoeken en autoriteitsrollen. Tegelijkertijd beoordeelt een tweede model de voortgang en stuurt het de aanval bij. Zo worden zwaktes zichtbaar die standaardtesten nooit zouden detecteren, de zogenoemde ‘onzichtbare risico’s’.

Tot voor kort volstonden vaak enkelvoudige pen-tests waarbij één prompt of aanval werd geprobeerd. In de praktijk is dat onvoldoende, want Large Language Models kunnen na opeenvolgende interacties alsnog gevoelige informatie prijsgeven. LangWatch Scenario speelt hierop in door gesprekken gestructureerd op te bouwen en multi-turnstrategieën toe te passen, zodat development teams precies zien waar hun AI-agents in de praktijk vatbaar zijn, nog voordat er daadwerkelijk risico’s ontstaan.

Het test kwetsbaarheden automatisch met de Crescendo-strategie, een gestructureerde vierfasige escalatie die begint met vriendelijke verkenning, doorgaat via hypothetische vragen en autoriteitsrollen zoals ‘ik doe een compliance-audit’, en eindigt met maximale druk. Na elke beurt beoordeelt een tweede model de voortgang en past de aanval automatisch aan, waardoor het geautomatiseerde red-team zijn strategie optimaliseert terwijl de AI-agent geen extra weerstand opbouwt.

"Een AI-agent die elke enkelvoudige aanvalsprompt weigert, geeft je een vals gevoel van veiligheid,” zegt Rogerio Chaves, medeoprichter en CTO van LangWatch. "In de praktijk werken cybercriminelen niet met één directe vraag. Ze voeren tientallen ontspannen gesprekken, bouwen vertrouwen op, en als de agent na twintig beurten in een coöperatieve modus zit, is een verzoek dat op beurt één geweigerd zou worden plotseling helemaal geen probleem meer."