| Tez Türü | Diş Hekimliği Uzmanlık |
| Ülke | Türkiye |
| Üniversite | Tokat Gaziosmanpaşa Üniversitesi |
| Enstitü | Diş Hekimliği Fakültesi |
| Anabilim Dalı | Protetik Diş Tedavisi Ana Bilim Dalı |
| Tez Onay Yılı | 2025 |
| Öğrenci Adı ve Soyadı | Ahmet Doğan IŞIK |
| Tez Danışmanı | DOÇ. DR. KAAN YERLİYURT |
| Türkçe Özet | Amaç: Bu çalışmanın amacı, yapay zeka tabanlı altı farklı büyük dil modelinin (LLM) (ChatGPT-4o, Claude 3.7 Sonnet, Microsoft Copilot, DeepSeek-V2, Gemini 2.0 ve Grok-3) protetik diş hekimliği alanında hastalar tarafından sıkça sorulan sorulara verdikleri yanıtların etkililiğini bilimsel olarak değerlendirmektir. Yanıtlar; bilimsel doğruluk, kapsamlılık, açıklık ve alaka düzeyi parametreleri açısından karşılaştırmalı olarak incelenmiştir.Gereç ve Yöntem: Tanımlayıcı ve karşılaştırmalı olarak tasarlanan bu in-vitro çalışmada, protetik diş hekimliği pratiğinde sıkça karşılaşılan 10 standart hasta sorusu, altı güncel LLM'e yöneltilmiştir. Toplamda 60 adet özgün yanıt, `protetik diş tedavisi uzmanı` kimliğiyle vermeleri istenerek elde edilmiştir. Yanıtlar, protetik diş tedavisi anabilim dalında görev yapan iki bağımsız akademisyen tarafından, önceden tanımlanmış 5'li Likert ölçeği (1: Çok Zayıf, 5: Çok İyi) ve detaylı bir puanlama rubriği kullanılarak çift-kör bir yöntemle değerlendirilmiştir. Verilerin istatistiksel analizi, değerlendiriciler arası uyum (Sınıf-içi Korelasyon Katsayısı - ICC), ölçek iç tutarlılığı (Cronbach Alfa) ve modellerin performans karşılaştırması (Kruskal-Wallis H Testi) ile yapılmıştır. Anlamlılık düzeyi p<0.05 olarak kabul edilmiştir.Bulgular: Test edilen LLM'lerin genel olarak orta-iyi düzeyde performans sergilediği görülmüştür. Claude 3.7 Sonnet (3.79 ± 0.74) en yüksek genel skoru alırken, en düşük performansı Microsoft Copilot (3.29 ± 0.53) göstermiştir. Bilimsel doğruluk (p=0.320), açıklık (p=0.184) ve alaka düzeyi (p=0.608) parametrelerinde modeller arasında istatistiksel olarak anlamlı bir fark bulunmazken, kapsamlılık parametresinde anlamlı bir farklılık saptanmıştır (p=0.036). Değerlendirici güvenilirliği (ICC=0.709, p<0.001) ve ölçek iç tutarlılığı (Cronbach α=0.709) `iyi` düzeyde bulunmuştur. Gemini 2.0 ve DeepSeek modelleri, değerlendirme parametreleri arasında yüksek düzeyde pozitif korelasyon (r>0.80, p<0.01) göstermiştir.Sonuçlar: Yapay zeka tabanlı chatbotlar, protetik diş hekimliği alanında hasta bilgilendirme için değerli yardımcı araçlar olma potansiyeli taşımaktadır. Ancak, modellerin yanıtlarının derinliği açısından farklılıklar mevcuttur ve hiçbiri `çok iyi` kategorisine ulaşamamıştır. Bu teknolojiler, klinik karar verme süreçlerinde profesyonel bir diş hekimi danışmanlığının yerini alamaz. Model seçimi, LLM kullanımında kritik bir önem taşımaktadır. |
| İlgilizce Özet | Objective: The aim of this study was to scientifically evaluate the effectiveness of six different artificial intelligence-based large language models (LLMs) (ChatGPT-4o, Claude 3.7 Sonnet, Microsoft Copilot, DeepSeek-V2, Gemini 2.0, and Grok-3) in responding to frequently asked patient questions in the field of prosthodontics. The responses were comparatively analyzed based on the parameters of scientific accuracy, comprehensiveness, clarity, and relevance.Materials and Methods: In this in-vitro descriptive and comparative study, 10 standard patient questions frequently encountered in prosthodontic practice were posed to six current LLMs. A total of 60 unique responses were obtained by prompting the models to answer with the persona of a `prosthodontist.` The responses were evaluated by two independent academics from the department of prosthodontics using a double-blind method with a predefined 5-point Likert scale (1: Very Poor, 5: Very Good) and a detailed scoring rubric. Statistical analysis of the data was performed to assess inter-rater reliability (Intraclass Correlation Coefficient - ICC), internal consistency of the scale (Cronbach's Alpha), and to compare the performance of the models (Kruskal-Wallis H Test). The significance level was set at p<0.05.Results: The tested LLMs were found to exhibit a moderate-to-good level of performance overall. Claude 3.7 Sonnet achieved the highest overall score (3.79 ± 0.74), while Microsoft Copilot showed the lowest performance (3.29 ± 0.53). While no statistically significant difference was found among the models for the parameters of scientific accuracy (p=0.320), clarity (p=0.184), and relevance (p=0.608), a significant difference was identified in the comprehensiveness parameter (p=0.036). Inter-rater reliability (ICC=0.709, p<0.001) and internal consistency of the scale (Cronbach α=0.709) were found to be `good.` The Gemini 2.0 and DeepSeek models demonstrated a high level of positive correlation (r>0.80, p<0.01) among the evaluation parameters.Conclusion: AI-based chatbots have the potential to be valuable auxiliary tools for patient education in the field of prosthodontics. However, there are differences in the depth of the models' responses, and none reached the `very good` category. These technologies cannot replace professional dental consultation in clinical decision-making processes. The choice of model is of critical importance when utilizing LLMs. |