Abstract
<jats:p xml:lang="tr">Giriş: Büyük dil modelleri (LLM), tıp eğitimi ve klinik destek dahil olmak üzere sağlık hizmetlerinin birçok alanında giderek daha fazla kullanılmaktadır. Bununla birlikte, ortopedik travma gibi yüksek riskli klinik alanlardaki güvenilirlikleri henüz net değildir. Bu çalışma, ortopedik travma sorularında ChatGPT ve Google Gemini’nin doğruluk, klinik muhakeme performansı ve potansiyel klinik risk düzeylerini karşılaştırmayı ve bu performansı ortopedi cerrahlarının performansı ile kıyaslamayı amaçlamıştır. Gereç ve Yöntem: Üst ekstremite, alt ekstremite, pediatrik travma ve acil durumları kapsayan toplam 60 ortopedik travma sorusu (30 teorik ve 30 klinik senaryo tabanlı) hazırlanmıştır. Yanıtlar ChatGPT, Google Gemini ve iki bağımsız ortopedi cerrahından elde edilmiştir. Tüm yanıtlar anonimleştirilmiş ve iki kıdemli ortopedi cerrahı tarafından doğru, kısmen doğru, yanlış veya potansiyel olarak klinik açıdan güvensiz olarak değerlendirilmiştir. İstatistiksel analizler ki-kare ve Fisher’ın kesin testi kullanılarak yapılmıştır. Bulgular: Genel doğruluk oranı ChatGPT için %83,3, Gemini için %80,0 ve ortopedi cerrahları için %91,7 olarak bulunmuştur (p <0,05). Yapay zekâ sistemleri teorik sorularda klinik senaryolara kıyasla daha iyi performans göstermiştir. Potansiyel olarak klinik açıdan güvensiz yanıtlar ChatGPT yanıtlarının %5,0’ında, Gemini yanıtlarının %8,3’ünde ve cerrah yanıtlarının %1,7’sinde görülmüştür. Güvensiz yanıtlar açısından cerrahlar ile Gemini arasındaki fark istatistiksel olarak anlamlı bulunmuştur. Sonuç: Güncel büyük dil modelleri ortopedik travma sorularında yüksek doğruluk göstermesine rağmen, özellikle klinik senaryo temelli muhakemede eğitimli ortopedi cerrahlarının gerisinde kalmaktadır. LLM’ler destekleyici eğitim araçları olarak hizmet edebilir, ancak yüksek riskli travma karar verme süreçlerinde insan denetimi zorunlu olmaya devam etmektedir.</jats:p>