OpenAI’nin ChatGPT’si ve
Google’ın Gemini modeli gibi yapay zeka modelleri, yalnızca küçük
bir miktar bozulmuş veri ile “zehirlenebilir” uyarısı geldi.
Birleşik Krallık AI Güvenlik Enstitüsü, Alan Turing Enstitüsü ve AI
firması Anthropic’in ortak çalışmasına göre, sadece 250 belge,
büyük dil modellerinde (LLM) gizli bir “backdoor” açığa çıkararak
rastgele ve anlamsız metin üretmelerine neden olabiliyor.
AI hakkında şaşırtan
açıklama!

Araştırmacılar, çoğu LLM’nin
internet üzerindeki halka açık metinler ile önceden eğitildiğini
vurguluyor. Bu durum, kötü niyetli aktörlerin içerik üretip, bu
içeriklerin AI’nin eğitim verisine dahil edilmesini sağlayabileceği
anlamına geliyor. Anthropic’in blog gönderisinde belirtildiği gibi,
“zehirleme” işlemiyle modelin istenmeyen veya tehlikeli davranışlar
öğrenmesi sağlanabiliyor.
Backdoor saldırıları, belirli
tetikleyici kelimelerle modeli gizli bir şekilde belirli
davranışlar sergilemeye zorlayabiliyor. Örneğin, modelin hassas
bilgileri ifşa etmesi tetiklenebilir. Araştırmada, modelin
büyüklüğü veya eğitim verisi miktarı ne olursa olsun, sadece 250
belge ile zehirleme saldırısının mümkün olduğu tespit edildi.
Dr. Vasilios Mavroudis ve Dr.
Chris Hicks, bu sonuçların “sürpriz ve endişe verici” olduğunu
belirterek, veri zehirleme saldırılarının önceki tahminlerden çok
daha uygulanabilir olduğunu ifade etti. Kötü niyetli bir kişi,
örneğin 250 zehirli Wikipedia makalesi oluşturarak AI modellerini
manipüle edebilir.
En Son Tv sitesinden daha fazla şey keşfedin
Subscribe to get the latest posts sent to your email.
