Çok değişkenli verilerde sınıflandırma ve sağlık verileri üzerine uygulaması


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: İstanbul Ticaret Üniversitesi, Fen Bilimleri Enstitüsü, Türkiye

Tezin Onay Tarihi: 2021

Tezin Dili: Türkçe

Öğrenci: ADIL HANI ABDULKAREEM ABDULKAREEM

Danışman: KASAPBAŞI MUSTAFA CEM

Özet:

ÖZET Meme kanseri, dünyadaki en tehlikeli ve ikinci en yaygın kanser türlerinden biridir. Gelişmiş cihazlarla ve tıbbi tedavilerle meme kanseri ile mücadele daha kolay hale geldi. Meme kanseri tedavisinde en iyi sonucu elde etmek ve erken tanı için periyodik kontroller yapılmalıdır. Makine öğrenme teknikleri, tedavinin başarısını tahmin etmek veya teşhis etmek için kullanılır. Bu çalışmada meme kanserinin erken tespiti için K-En Yakın Komşu (k-NN), Destek Vektör Makinesi (SVM), Naïve Bayes (NB), Lojistik Regresyon (LR) ve Rastgele Ormanlar (RF) sınıflandırıcısı makine öğrenmesi algoritmaları kullanılmıştır. Kullanılan veri seti, yaş, glikoz, BMI, resistin, insülin, adiponektin, HOMA, MCP1 ve leptin özelliklerinden oluşan UCI kütüphanesinden alınan Coimbra meme kanser veri setidir. Yaş, Resistin, Glikoz ve BMI kullanan K-En Yakın Komşu modeli en yüksek sonuçları vermektedir. Burada özgüllüğün % 90'ı hassasiyetin % 84'ü ve % 87. 5'i doğruluk elde edilir. SVM algoritması, çalışmamızda % 83 doğruluk oranıyla ikinci en yüksek doğruluğu elde edildi. Ayrıca, RF algoritması % 79 doğruluk oranına, NB algoritması % 79 doğruluk oranına ve LR algoritmasının % 75 doğruluk oranına elde edildi. Bu bulgular resistin, glikoz, yaş ve BMI'yı birleştiren modellerin meme kanseri tespiti için güçlü bir araç olabileceğine dair umut verici kanıtlar sunmaktadır. Anahtar Kelimeler: Bio belirteci, Coimbra veriset, KNN, Meme Kanseri, Veri madenciliği. ABSTRACT Breast cancer is one of the most dangerous and second most common types of cancer in the world. Breast cancer-fighting with developed devices and medical therapies has become easier. To obtain the best result in breast cancer treatment, periodic checks should be carried out to follow the early diagnosis. Data Mining techniques are used to predict the success of treatment or diagnosis. In this study, the K-Nearest Neighbor (k-NN), Support Vector Machine (SVM), Naïve Bayes (NB), Logistic Regression (LR), and Random Forests (RF) classifier algorithms of machine learning were used for early detection of breast cancer. From the UC Irvine Machine Learning Repository (UCI) library Coimbra Breast Cancer data set which consists of age, glucose, body mass index (BMI), resistin, insulin, adiponectin, homeostatic model assessment (HOMA), monocyte chemoattractant protein-1 (MCP1), and leptin attributes were used. K-NN model using Age, Resistin, Glucose, and BMI give the highest results, where 90% of specificity 84% percent of sensitivity, and 87. 5% accuracy is achieved. The SVM algorithm achieved the second-highest accuracy in our study with an 83% accuracy rate. Also, the RF algorithm has a 79% accuracy rate, the NB algorithm a 79% accuracy rate, and the LR algorithm has a 75% accuracy rate. These findings provide promising evidence that models combining resistin, glucose, age, and BMI may be a powerful tool for breast cancer detection. Keywords: Breast cancer, Cancer biomarker, Coimbra dataset, Data mining, KNN. İÇİNDEKİLER İÇİNDEKİLER . i ÖZET . iii ABSTRACT . iv TEŞEKKÜR . v ŞEKİLLER DİZİNİ . vi ÇİZELGELER DİZİNİ . vii SİMGELER VE KISALTMALAR DİZİNİ . viii 1. GİRİŞ. 1 1. 1. Veri Madenciliği Genel Bilgiler . 2 1. 1. 1. Tanım . 3 1. 2. Meme Kanseri: Genel Bilgiler . 5 1. 3. Literatür İncelemesi . 6 2. VERİ MADENCİLİĞİ YÖNTEMLERİ VE MALZEMELERİ . 9 2. 1. Sınıflandırma Algoritmaları . 9 2. 2. Naive Bayes (NB) . 11 2. 2. 1. Bayes teoremi . 11 2. 2. 2. Naive bayes . 11 2. 2. 3. Gauss naïve bayes sınıflandırması. 12 2. 3. Random Forest algoritması (RF). 12 2. 3. 1. RF tanmı . 13 2. 3. 2. RF algoritmasının adımları. 14 2. 3. 3. RF genelleme hatası ve parametreleri ayarlama . 16 2. 3. 4. Gini indeksi . 16 2. 3. 5. Kayıp değerleri ve örnekler arası uzaklık . 17 2. 3. 6. RF yönteminin özellikleri . 17 2. 4. K-en Yakın Komşu Algoritması (KNN) . 17 2. 4. 1. KNN algorithm phases . 18 2. 4. 2. KNN algoritması mesafe ölçümü . 19 2. 5. Destek Vektör Makinesi (SVM) . 20 2. 5. 1 Doğrusal destek vektör makineleri . 21 2. 5. 2 Doğrusal olmayan destek vektör makineleri . 23 2. 6. Lojistik Regresyon (LR) . 25 2. 7. Sınıflandırma Yöntemleri: Genel Bakış . 28 2. 7. 1 Doğruluk . 28 2. 7. 2 Aşırı uyum gösterme. 30 2. 7. 3 ROC eğrisi altındaki alan (AUC) . 31 3. DENEYSEL SONUÇLARI . 32 3. 1. Veri Kümesinin Açıklaması . 32 3. 2. Sıcaklık Haritası . 34 3. 3. Yöntemlerin Uygulanması . 36 3. 3. 1. NB algoritmasının uygulanması . 36 3. 3. 2. KNN algoritmasının uygulanması . 37 3. 3. 3. RF algoritmasının uygulanması . 39 3. 3. 4. SVM algoritmasının uygulanması . 40 3. 3. 5. LR algoritmasının uygulanması . 41 3. 4. Sınıflandırma Yöntemlerinin Sonuçları . 42 3. 5. AUC Ölçüm Sonuçları . 43 4. SONUÇ VE ÖNERİLER . 47 4. 1. Sonuç . 47 4. 2. Önerlier . 48 KAYNAKLAR . 49 EKLER. 56 ÖZGEÇMİŞ . 68