
AI wordt ook in de industrie steeds populairder. Dit maakt een recent beschreven onderzoek naar de mogelijkheden om LLM's ofwel Large Language Models te manipuleren erg relevant. Microsoft’s AI-beveiligingsteam heeft sinds 2021 meer dan 100 generatieve AI-producten getest om zwakke plekken en ethische risico’s bloot te leggen, meldt de website The Decoder. De resultaten zetten aannames over AI-beveiliging redelijk op zijn kop en benadrukken het blijvende belang van menselijke expertise in het beveiligen van deze systemen.
Een van de opvallende bevindingen is dat de meest effectieve aanvallen niet altijd technisch complex zijn. Volgens Microsoft’s rapport vertrouwen cybercriminelen niet op complexe berekeningen, zoals gradiënten, maar op technieken zoals prompt engineering. In een van de tests omzeilde het team de veiligheidsfuncties van een beeldgenerator door schadelijke instructies te verbergen in de tekst van een afbeelding. Dit illustreert hoe relatief eenvoudige methoden AI-systemen kunnen manipuleren. Deze aanpak is overigens ook heel “goed” toepasbaar op industriële situaties en bijvoorbeeld pogingen om in te breken op industriële netwerken.
De belangrijke rol van mensen
Hoewel Microsoft een open-source tool heeft ontwikkeld, genaamd PyRIT, om beveiligingstests te automatiseren, blijft menselijke beoordeling cruciaal. Dit werd duidelijk bij het testen van chatbots die gevoelig omgaan met bijvoorbeeld emotionele noodsituaties. Het beoordelen van deze interacties vereist psychologische expertise en een goed begrip van de mogelijke impact op de geestelijke gezondheid.
Menselijke inzichten bleken ook essentieel bij het onderzoeken van AI-bias. Een voorbeeld hiervan is de genderbias in een beeldgenerator. Het team ontdekte vooroordelen door afbeeldingen van beroepen te genereren zonder genderspecifieke aanwijzingen. Deze subtiliteiten kunnen vaak alleen door mensen worden opgemerkt.
Nieuwe beveiligingsuitdagingen
De integratie van AI in dagelijkse toepassingen brengt nieuwe kwetsbaarheden met zich mee. Zo slaagde het team erin een taalmodel te manipuleren om geloofwaardige fraudevoorbeelden te creëren. In combinatie met tekst-naar-spraaktechnologie ontstond een systeem dat gevaarlijk realistisch met mensen kon communiceren.
Bovendien ontdekte het team dat AI niet immuun is voor traditionele beveiligingsproblemen. Zo vonden ze een SSRF (Server-Side Request Forgery)-kwetsbaarheid in een AI-tool voor videobewerking. Dit benadrukt dat AI-systemen zowel nieuwe als oude beveiligingsuitdagingen het hoofd moeten bieden.
'Responsible AI’
Een belangrijk aandachtspunt in het onderzoek waren de risico’s van ‘Responsible AI’, waarbij systemen potentieel schadelijke of ethisch twijfelachtige inhoud kunnen genereren. Dit is extra complex omdat de context en interpretatie per situatie verschillen.
Een verontrustende bevinding was verder dat onbedoelde blootstelling aan problematische inhoud door normale gebruikers ernstiger kan zijn dan opzettelijke aanvallen. Dit wijst erop dat veiligheidsmaatregelen niet goed werken tijdens normaal gebruik.
Aanbevelingen
Microsoft benadrukt dat AI-beveiliging een continu proces moet zijn: kwetsbaarheden opsporen, oplossen en vervolgens opnieuw testen. Ze pleiten voor regelgeving en financiële prikkels die succesvolle aanvallen duurder maken.
Daarnaast roept Microsoft op om vragen te beantwoorden zoals:
- Hoe kunnen gevaarlijke AI-capaciteiten zoals misleiding effectief worden gecontroleerd?
- Hoe passen we beveiligingstests aan voor verschillende talen en culturen?
- Hoe kunnen bedrijven methodes en resultaten op gestandaardiseerde wijze delen?
Het onderzoek van Microsoft onderstreept dat AI-beveiliging niet alleen een technisch probleem is, maar ook een ethische en menselijke uitdaging. Het vereist een voortdurende samenwerking tussen technologie, regelgeving en menselijke expertise om deze complexe systemen veilig en verantwoord te houden.