İşletmelerin iflas tahmininde makine öğrenmesi algoritmalarının karşılaştırmalı analizi


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: İstanbul Ticaret Üniversitesi, Fen Bilimleri Enstitüsü, Türkiye

Tezin Onay Tarihi: 2021

Tezin Dili: Türkçe

Öğrenci: GİZEM DİLKİ

Danışman: DENİZ BAŞAR ÖZLEM

Özet:

ÖZET İflas, işletmelerin finansal acıdan işlevini yerine getirememesi olarak tanımlanmaktadır. İflas surece yaygın olarak gercekleşir, bu durumda iflasın ceşitli modellemeler yardımıyla tahmin edilmesi mumkun olabilmektedir. Bu calışmada, oncelikle iflas tanımı ve iflas surecine değinilmiştir. Ardından, iflas tahmin modellerinin tarihsel gelişimine yer verilmiştir. Gelişen teknoloji ile birlikte, veri saklama, saklanan veriyi işlemeye verilen onem uzerinde durulmuş, bu bağlamda makine oğrenmesi disiplininden bahsedilmiştir. Makine oğrenmesi, iflas tahmin problemine sınıflandırma algoritmaları kullanılarak uyarlanmıştır. Bu amacla calışmada Kaliforniya Universitesi veri tabanından alınan Polonyalı şirketler veri seti kullanılmıştır. Sınıflandırma algoritmaları olarak denetimli makine oğrenmesi algoritmalarından olasılık tabanlı Naive Bayes, tembel oğrenici k En Yakın Komşuluk ve istatistiksel oğrenme teorisi temelli Destek Vektor Makinesi kullanılmıştır. Veri on işleme aşamasında Kanıt Ağırlığı ve Bilgi Değeri kriterleri yardımıyla değişken secimi yapılmıştır. Veri setindeki dengesizliği azaltmak amacıyla SMOTE aşırı ornekleme yontemi kullanılmıştır. Calışmada duyarlılık, keskinlik, F puanı ve doğruluk değerleri ile ROC eğrisi ve AUC değeri hesaplanmıştır. İlgili performans olcutleri ile karşılaştırılan uc algoritma arasından en başarılı sınıflama sonucunu veren algoritma Destek Vektor Makinesi algoritması olmuştur. Anahtar Kelimeler: iflas tahmini, k en yakın komşuluk, naive bayes, destek vektor makineleri, smote, kanıt ağırlığı, bilgi değeri ABSTRACT Bankruptcy is defined as the inability of companies to perform their functions financially. Bankruptcy widely occurs in the process; with this, it is possible to predict bankruptcy with the help of various modeling. In this study, first of all, the definition of bankruptcy and the bankruptcy process are discussed. Then, the historical development of bankruptcy prediction models are included. With the developing technology, the importance given to data retention and processing stored data is emphasized and machine learning discipline is mentioned in this context. Machine learning is adapted to the bankruptcy prediction problem using classification algorithms. For this purpose, a data set of Polish companies taken from the University of California (UCI) database is used in the study. As classification algorithms from supervised machine learning algorithms, probability-based Naive Bayes, lazy learner k Nearest Neighborliness and Support Vector Machine based on statistical learning theory is used. Variable selection is made with the help of Evidence Weight and Information Value criteria during the data pre-processing phase. The SMOTE over-sampling method is used to reduce the imbalance in the data set. In the study, sensitivity, specificity, F score and accuracy values and ROC curve and AUC value are calculated. Of the three algorithms compared with the relevant performance criteria, the algorithm that gave the most successful classification result is the Support Vector Machine algorithm. Keywords: bankruptcy prediction, k nearest neighbour, naive bayes, support vector machines, smote, weight of evidence, information value İÇİNDEKİLER İÇİNDEKİLER . i ÖZET . iii ABSTRACT . iv TEŞEKKÜR . v ŞEKİLLER . vi TABLOLAR . vii SİMGELER ve KISALTMALAR . viii 1. GİRİŞ . 1 2. LİTERATUR OZETİ . 4 3. İFLAS TAHMİN MODELLERİ . 7 3. 1. İflas Tanımı . 7 3. 2. İflas Sureci . 9 3. 2. 1. İflasın nedenleri . 10 3. 2. 2. İflas tespiti . 12 3. 2. 3. Kurtarma . 13 3. 3. İflas Tahmin Yontemleri . 14 3. 3. 1. Teorik tabanlı iflas tahmin yontemleri . 15 3. 3. 2. İstatistik tabanlı iflas tahmin yontemleri . 18 3. 3. 3. Yapay zeka tabanlı iflas tahmin yontemleri . 23 4. MAKİNE OĞRENMESİ . 25 4. 1. Veri Madenciliği . 25 4. 2. Klasik İstatistik, Yapay Zeka ve Makine Oğrenmesi . 27 4. 3. Makine Oğrenmesi Turleri . 29 4. 4. Makine Oğrenmesi Problemleri . 31 4. 5. Naive Bayes Algoritması . 32 4. 5. 1. Bayes teoremi . 33 4. 6. k En Yakın Komşuluk Algoritması . 35 4. 7. Destek Vektor Makinesi Algoritması . 38 4. 7. 1. İstatistiksel oğrenme teorisi . 39 4. 7. 2. VC boyutu . 41 4. 7. 3. Yapısal risk minimizasyonu . 43 4. 7. 4. Destek vektor makinesi ile sınıflandırma . 44 4. 7. 5. Yumuşak (soft) marjin . 47 4. 7. 6. Kernel cekirdek fonksiyonları . 51 5. UYGULAMA . 57 5. 1. Araştırmada Kullanılan Veri Seti . 58 5. 2. Araştırmanın Metodolojisi . 60 5. 2. 1. Değişken secimi . 60 5. 2. 2. Veri on işleme, eğitim ve test seti ayrımı . 65 5. 2. 3. Performans olcutleri . 68 5. 3. Analiz ve Bulgular . 73 5. 3. 1. Naive bayes algoritması ile sınıflandırma . 73 5. 3. 2. k en yakın komşuluk algoritması ile sınıflandırma . 80 5. 3. 3. Destek vektor makinesi algoritması ile sınıflandırma . 87 5. 3. 4. Sınıflama algoritmalarının karşılaştırılması . 94 6. SONUC ve ONERİLER . 99 KAYNAKLAR . 105 EKLER . 111 Ek. 1 WOE ve IV Hesaplama Kodları . 111 Ek. 2 SMOTE Ornekleme ve Test Train Ayrımı Kodları . 111 Ek. 3 NB ile Sınıflandırma Calışması Kodları . 112 Ek. 4 kNN ile Sınıflandırma Calışması Kodları . 113 Ek. 5 DVM ile Sınıflandırma Calışması Kodları . 115 ÖZGEÇMİŞ . 116