Yapay zeka modelleri 250 belge ile kolayca zehirlenebiliyor

Birleşik Krallık AI Güvenlik Enstitüsü ve Alan Turing Enstitüsü ortak çalışmasında, sadece 250 belgeyle ChatGPT ve Gemini gibi LLM'lerin zehirlenebileceği uyarısı geldi.

Haber Merkezi tarafından yayınlandı

12 Ekim 2025, 00:00 yayınlandı 14 Ekim 2025, 03:26 güncellendi

OpenAI’nin ChatGPT’si ve
Google’ın Gemini modeli gibi yapay zeka modelleri, yalnızca küçük
bir miktar bozulmuş veri ile “zehirlenebilir” uyarısı geldi.
Birleşik Krallık AI Güvenlik Enstitüsü, Alan Turing Enstitüsü ve AI
firması Anthropic’in ortak çalışmasına göre, sadece 250 belge,
büyük dil modellerinde (LLM) gizli bir “backdoor” açığa çıkararak
rastgele ve anlamsız metin üretmelerine neden olabiliyor.

AI hakkında şaşırtan
açıklama!

Araştırmacılar, çoğu LLM’nin
internet üzerindeki halka açık metinler ile önceden eğitildiğini
vurguluyor. Bu durum, kötü niyetli aktörlerin içerik üretip, bu
içeriklerin AI’nin eğitim verisine dahil edilmesini sağlayabileceği
anlamına geliyor. Anthropic’in blog gönderisinde belirtildiği gibi,
“zehirleme” işlemiyle modelin istenmeyen veya tehlikeli davranışlar
öğrenmesi sağlanabiliyor.

Backdoor saldırıları, belirli
tetikleyici kelimelerle modeli gizli bir şekilde belirli
davranışlar sergilemeye zorlayabiliyor. Örneğin, modelin hassas
bilgileri ifşa etmesi tetiklenebilir. Araştırmada, modelin
büyüklüğü veya eğitim verisi miktarı ne olursa olsun, sadece 250
belge ile zehirleme saldırısının mümkün olduğu tespit edildi.

Dr. Vasilios Mavroudis ve Dr.
Chris Hicks, bu sonuçların “sürpriz ve endişe verici” olduğunu
belirterek, veri zehirleme saldırılarının önceki tahminlerden çok
daha uygulanabilir olduğunu ifade etti. Kötü niyetli bir kişi,
örneğin 250 zehirli Wikipedia makalesi oluşturarak AI modellerini
manipüle edebilir.