Comparative evaluation of ChatGPT, Google Gemini and orthopedic surgeons in orthopedic trauma decision-making

Authors: GÖKHAN GÜZEL, HASAN CEYLAN

Publication: Atlas Universitesi Tip ve Saglik Bilimleri Dergisi

Published: Jun 1, 2026

Source: Crossref

Back to Search View Original Cite This Article

Abstract

<jats:p xml:lang="tr">Giriş: Büyük dil modelleri (LLM), tıp eğitimi ve klinik destek dahil olmak üzere sağlık hizmetlerinin birçok alanında giderek daha fazla kullanılmaktadır. Bununla birlikte, ortopedik travma gibi yüksek riskli klinik alanlardaki güvenilirlikleri henüz net değildir. Bu çalışma, ortopedik travma sorularında ChatGPT ve Google Gemini’nin doğruluk, klinik muhakeme performansı ve potansiyel klinik risk düzeylerini karşılaştırmayı ve bu performansı ortopedi cerrahlarının performansı ile kıyaslamayı amaçlamıştır. Gereç ve Yöntem: Üst ekstremite, alt ekstremite, pediatrik travma ve acil durumları kapsayan toplam 60 ortopedik travma sorusu (30 teorik ve 30 klinik senaryo tabanlı) hazırlanmıştır. Yanıtlar ChatGPT, Google Gemini ve iki bağımsız ortopedi cerrahından elde edilmiştir. Tüm yanıtlar anonimleştirilmiş ve iki kıdemli ortopedi cerrahı tarafından doğru, kısmen doğru, yanlış veya potansiyel olarak klinik açıdan güvensiz olarak değerlendirilmiştir. İstatistiksel analizler ki-kare ve Fisher’ın kesin testi kullanılarak yapılmıştır. Bulgular: Genel doğruluk oranı ChatGPT için %83,3, Gemini için %80,0 ve ortopedi cerrahları için %91,7 olarak bulunmuştur (p <0,05). Yapay zekâ sistemleri teorik sorularda klinik senaryolara kıyasla daha iyi performans göstermiştir. Potansiyel olarak klinik açıdan güvensiz yanıtlar ChatGPT yanıtlarının %5,0’ında, Gemini yanıtlarının %8,3’ünde ve cerrah yanıtlarının %1,7’sinde görülmüştür. Güvensiz yanıtlar açısından cerrahlar ile Gemini arasındaki fark istatistiksel olarak anlamlı bulunmuştur. Sonuç: Güncel büyük dil modelleri ortopedik travma sorularında yüksek doğruluk göstermesine rağmen, özellikle klinik senaryo temelli muhakemede eğitimli ortopedi cerrahlarının gerisinde kalmaktadır. LLM’ler destekleyici eğitim araçları olarak hizmet edebilir, ancak yüksek riskli travma karar verme süreçlerinde insan denetimi zorunlu olmaya devam etmektedir.</jats:p>

Keywords

klinik travma olarak ortopedi ortopedik

Comparative evaluation of ChatGPT, Google Gemini and orthopedic surgeons in orthopedic trauma decision-making

Abstract

Keywords

Related Articles

Comparing the Performance Evaluation Models of Gas Refineries Using AHP and TOPSIS

Evaluation of the potential of innovative enterprises in the region of Malopolska

Modeling and Transformation of the Evaluation Mechanism of Greek Higher Education Institutes using Balanced Scorecard Technique

Preliminary Phytochemical Screening, Pharmacognostic and Physicochemical Evaluation of Leaf of Argyreia Pilosa Wight &amp; ArnA

Comparative Study of Serum Lipid Profile Parameters for Oral Cancer and Non Oral Cancer Patients

Preliminary Phytochemical Screening, Pharmacognostic and Physicochemical Evaluation of Leaf of Argyreia Pilosa Wight & ArnA