Yeni bir araştırma ChatGPT gibi yapay zeka modellerinin uydurma (halüsinasyon görmesi) nedeninin tahmin yürütmeye programlanmaları olduğunu ortaya çıkardı.
İspanyol araştırmacılar Ekim 2024’te BigScience şirketinin BLOOM, Meta’nın Llama ve OpenAI’nin ChatGPT’sinin son sürümlerini, her modele matematik, fen ve coğrafya üzerine binlerce soru sorarak doğruluk açısından sınamıştı.
Yapay zeka dil modellerinin (LLM) ne kadar gelişkinse bir soruya yanıt bulamadığını kabullenme olasılığının o kadar azaldığı ortaya çıkmıştı.
Önceki sürümler yanıtı bulamadığını veya daha fazla bilgiye ihtiyaç duyduğunu söylüyordu. Fakat yeni sürümlerin tahminde bulunma ya da kolay sorulara bile yanlış yanıt üretme eğiliminde olduğu belirlenmişti.
Independent’ın haberine göre yapay zekanın ‘halüsinasyon görmesi’, yani uydurması önemli bir endişe kaynağı. Zira konuşma becerileri sayesinde yanlış bilgileri kendilerinden çok emin bir şekilde sunabiliyorlar.
Örneğin 7 Ağustos’ta ChatGPT’nin bazı çocukları içki, uyuşturucu ve aşırı diyet programlarına yönlendirdiği ortaya çıkmıştı.
Başka bir örnekteyse ABD’de yapay zeka uygulamasının tavsiyesine uyan bir adam sodyum bromür içerek zehirlendi. Adam aslında sadece sağlıklı bir tuz arıyordu.
ChatGPT’nin yaratıcısı OpenAI’dan araştırmacılar yapay zeka halüsinasyonuna hatalı eğitim verileri ve model karmaşıklığı gibi çeşitli faktörlerin katkıda bulunduğunu belirtti.
Fakat yeni araştırmalarında asıl nedenin algoritmanın ‘yanlış teşviklerle’ çalışması olduğu belirlendi.
Açıklama şöyle:
“Çoğu değerlendirme model performansını, belirsizlik karşısında dürüst davranmaktan ziyade tahmin yürütmeyi teşvik eden bir şekilde ölçüyor.
Aynı şekilde modeller yalnızca doğruluk, yani tam olarak doğru cevapladıkları soru yüzdesi üzerinden puanlandığında, ‘Bilmiyorum’ demek yerine tahminde bulunmaya teşvik ediliyorlar.
Daha çok gelişseler de modellerin belirsizliği kabul etmektense kendilerinden emin bir şekilde yanlış cevaplar vererek halüsinasyon görmeyi sürdürmelerinin bir nedeni de bu.”
