Yapay Zeka Sağlık Tavsiyelerinde Dikkat: Yanıtların Yarısı Sorunlu!
Son dönemde hızla gelişen yapay zeka (YZ) teknolojileri, sağlık alanında da önemli bir yer edinmeye başladı. Ancak, bu teknolojilerin sunduğu bilgilerin doğruluğu ve güvenilirliği konusunda endişeler de artıyor. BMJ Open dergisinde yayımlanan bir araştırma, YZ destekli sohbet botlarının sağlıkla ilgili konulardaki performansını mercek altına aldı. Araştırma sonuçları, YZ'nin sağlık tavsiyelerinde ciddi hatalar yapabildiğini ortaya koyuyor.
Çalışmada, kanser, aşılar, kök hücre, beslenme ve atletik performans gibi çeşitli konularda beş farklı sohbet botuna 50 tıbbi soru yöneltildi. Uzmanlar tarafından yapılan değerlendirmede, botların verdiği yanıtların önemli bir bölümünün sorunlu olduğu tespit edildi. Yanıtların %20'si "yüksek derecede sorunlu", %50'si "sorunlu" ve %30'u ise "kısmen sorunlu" olarak değerlendirildi. Bu sonuçlar, YZ'nin sağlık konusunda sunduğu bilgilerin ne kadar dikkatli bir şekilde değerlendirilmesi gerektiğini gösteriyor.
Araştırmanın dikkat çekici bir diğer bulgusu ise, botların doğru kaynak gösterme konusunda yetersiz kalması oldu. Hiçbir bot, tamamen doğru bir referans listesi sunamadı. Kaynakçaların çoğunda yanlış yazar isimleri, çalışmayan bağlantılar veya tamamen uydurulmuş makaleler yer alıyordu. Performans sıralamasında Grok %58 hata oranıyla en düşük performansı sergilerken, onu %52 ile ChatGPT ve %50 ile Meta AI takip etti. Özellikle beslenme ve atletik performans gibi çelişkili bilgilerin yoğun olduğu alanlarda YZ'nin daha fazla hata yaptığı gözlemlendi.
Çalışma, YZ'nin "doğru mu yanlış mı" şeklindeki kapalı uçlu sorularda daha başarılı olduğunu, ancak açık uçlu sorularda hata payının arttığını ortaya koydu. Açık uçlu sorulara verilen yanıtların %32'si yüksek derecede sorunlu bulundu. Uzmanlar, YZ'nin gerçek bilgiye sahip olmadığını, yalnızca eğitim verilerindeki istatistiksel olasılıklara göre kelime tahmini yaptığını vurguladı. Bu verilerin içinde hakemli dergilerin yanı sıra forum siteleri ve sosyal medya tartışmalarının da bulunması, hatalı sonuçların temel nedeni olarak gösteriliyor.
Nature Medicine dergisinde yayımlanan bir başka çalışma ise ilginç bir veriyi ortaya koydu. YZ modelleri tıbbi sorulara kendi başlarına %95 oranında doğru yanıt verebilirken, gerçek kullanıcılar bu araçları kullandığında doğru bilgiye ulaşma oranı %35'e kadar düştü. Bilim insanları, bu araçların karmaşık konuları özetlemek veya doktora sorulacak soruları hazırlamak için yardımcı olabileceğini ancak tek başına bir tıbbi otorite olarak kabul edilmemesi gerektiğini vurguladı. Kullanıcılara, YZ'den aldıkları sağlık tavsiyelerini mutlaka doğrulamaları ve sunulan kaynakları kontrol etmeleri tavsiye ediliyor. )