Klinisyenler AI’yı entegre ederken tıbbi halüsinasyonlar devam ediyor


Yapay Zeka ve Makine Öğrenimi, Yeni Nesil Teknolojiler ve Güvenli Geliştirme

Araştırmacılar AI’nın sağlık hizmetlerinde fabrikasyon gerçeklerini detaylandırır, çözümleri tartışır

Rashmi Ramesh (Rashmiramesh_) •
18 Mart 2025

Klinisyenler AI'yı entegre ederken tıbbi halüsinasyonlar devam ediyor
Resim: Shutterstock

Yapay Zeka Vakfı modellerindeki halüsinasyonlar, sağlık uzmanlarını ve teknoloji uzmanlarını uygulayıcıların AI’yı nasıl güvenli bir şekilde kullanabileceğini yeniden düşünmeye zorluyor.

Ayrıca bakınız: Temel Endpoint Güvenlik Alıcının Kılavuzu

Dijital metin ve klinik verilerin geniş bir şekilde eğitilmiş tıbbi temel modelleri klinik karar desteğini ve tıbbi araştırmaları devrim yaratmayı vaat ediyor. Ancak, aslında yanlış olurken ikna edici bir şekilde tutarlı çıktılar üretebilirler.

Günlük görevlerde küçük olgusal yanlışlıklar olarak ortaya çıkabilen jenerik AI halüsinasyonların aksine, halüsinasyonlu bir laboratuvar sonucu veya hatalı bir teşhis önerisi zararlı müdahalelere veya kaçırılmış tedavilere yol açabilir. MIT, Harvard Tıp Okulu ve Johns Hopkins Üniversitesi gibi kurumlardan iki düzineden fazla uzman, önde gelen teknoloji şirketlerinden temsilcilerin yanı sıra, bir araştırma makalesinde tıbbi halüsinasyonları kategorize etti ve GitHub deposunu destekledi ve klinik ortamlarda oluşturdukları gerçek dünya risklerini inceledi.

Araştırma ekibi, hasta olaylarının kronolojik olarak sipariş edilmesi, laboratuvar verilerinin yorumlanması ve hassas gerçek hatırlama ve sentez gerektiren ayırıcı tanıların oluşturulması gibi klinik akıl yürütmeye temel görevleri incelemiştir. Bazı modeller örüntü tanıma için şaşırtıcı bir yetenek gösterir, ancak kesin detaylar çok önemli olduğunda sıklıkla azalır. Teşhis tahminleri, var olmayandan%22’ye kadar değişen daha düşük halüsinasyon oranları sergilemiştir, ancak kronolojik sıralama ve laboratuvar veri yorumu gibi gerçek detayların doğru bir şekilde çıkarılmasını talep eden görevler, hata oranlarını yaklaşık%25’e kadar kışkırmıştır.

Çalışma ayrıca, hataları dört türe kategorize eden tıbbi halüsinasyonların taksonomisini tanımladı: olgusal hatalar, modası geçmiş referanslar, imal edilmiş kaynaklara veya kılavuzlara ve eksik akıl yürütme zincirlerine yol açan sahte korelasyonlar. Her kategori klinik uygulama için belirgin sonuçlar taşır. Gerçek hatalar, bir klinisyenin AI’nın önerilerine güvenme yeteneğini doğrudan etkilerken, eski referanslar eski verilere dayalı tedavi kararlarını yanlış yönlendirebilir. Sahte korelasyonlar doğrulanmamış tıbbi kılavuzların onaylanmasına yol açabilir ve eksik akıl yürütme aşırı basitleştirilmiş veya yanıltıcı sonuçlara yol açabilir. Taksonomi sorunu çerçeveliyor ve aynı zamanda hedeflenen azaltma stratejilerini geliştirmek için zemin hazırlıyor.

Araştırmanın bir parçası olarak yürütülen 75 tıp uzmanının yapılan bir araştırması, tıp pratisyenlerinin% 91,8’inin günlük AI araçlarını kullandıklarında halüsinasyonlarla karşılaştığını ve% 84.7’sinin bu tür hataların hasta sağlığını olumsuz etkileyebileceğine inandığını buldu. Bu istatistiklere rağmen, klinisyenlerin bir kısmı – katılımcıların yaklaşık% 40’ı – AI çıktılarına yüksek derecede güven ifade etmişlerdir.

Anket ayrıca AI araçlarının zaten klinik uygulamada bir fikstür haline geldiğini gösterdi. Kırk uygulayıcı bu araçların günlük kullanımını bildirirken, diğerleri haftada birkaç kez veya ara sıra onlarla etkileşime girdi. AI tarafından üretilen halüsinasyonların bir kısmı bile klinik hataya dönüşürse, bahisler yüksek olabilir, potansiyel olarak yanlış teşhis, uygunsuz tedavi planlarına veya hatta sağlık hizmeti sağlayıcılarına ve teknoloji geliştiricilerine karşı davaya yol açabilir.

Araştırmacılar, teşhis desteği vaadi cazip olsa da, modellerin halüsinasyon eğilimi temkinli ve ölçülü bir yaklaşım gerektirdiğini uyarıyor. AI çıktılarının sürekli izlenmesini, güncellenmiş tıbbi verileri içeren gelişmiş eğitim protokollerini ve tüm klinik karar alma süreçlerine insan gözetiminin dahil edilmesini içeren sıkı önlemleri savundular.

Genel amaçlı modellerin son karşılaştırmaları, antropik ve openai tarafından geliştirilenler gibi bazı sistemlerin teşhis görevlerinde daha düşük halüsinasyon oranları sergilediğini, en iyi çıktılarının bile yanılmaz olmadığını göstermiştir.





Source link