Churn prediction in telecommunication sector


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: İstanbul Ticaret Üniversitesi, Fen Bilimleri Enstitüsü, Türkiye

Tezin Onay Tarihi: 2021

Tezin Dili: İngilizce

Öğrenci: FAIZA HASSAN MOHAMED

Danışman: KASAPBAŞI MUSTAFA CEM

Özet:

ÖZET Literatürde, Makine Öğrenimi, Veri Madenciliği ve Hibrit teknikleri gibi farklı teknikler kullanılarak Ayrılma/Çalkalanma Tahmini gerçekleştirilmiştir. Bu teknikler, şirketleri ve işletmeleri, hizmetlerini kullanarak şirketlerinde kalabilmeleri için müşterileri belirleme ve tahmin etme ayrıca ayrılan müşteri konusunda destekler. Üst düzey yöneticilerin ve karar vericilerin güvenilir kararlar almasına ve Müşteri İlişkileri Yönetimi (CRM) departmanına da yardımcı olur. Bu çalışmada, müşteri kaybını tahmin etmek için Orange (Uluslararası Telekominikasyon firması) adlı bir telekom sektörü ayrılan müşteri veri seti kullanılmıştır. Topluluk sınıflandırıcıları AdaBoostM1, PCA, InfoGain, Gain Ratio, Bagging ile birlikte J4. 8, Naive Bayes, Lojistik Regresyon, Rastgele Orman, KNN, LMT (Lojistik model Ağacı) sınıflandırıcıları kombinasyonları ile birlikte kullanılır. Torbalama ve J4. 8 kombinasyonu ile en yüksek % 94 doğruluk elde edilir. Sonuçlar diğer çalışmalarla da karşılaştırılmış ve bu çalışma araştırılan literatür kadar iyi performans göstermiş ve bazı vakalarda daha başarılı olduğu görülmüştür. Anahtar Kelimeler: Ayrılama Tahmini, kNN, LMT, CRM, PCA ABSTRACT Churn Prediction has been implemented in the research works and more studies on it been published using different advanced mechanisms including Machine Learning, Data Mining, and Hybrid mechanism. These mechanisms found out to help enterprise companies and small businesses to classify and predict churning customers to be able to retain them to stay with their company using their services. Also, found out to help top managers and decision makers to be able take reliable decisions and Customer Relation Management CRM department as well. In this study, a telecom sector churn dataset named Orange which belongs to International Orange Telecom Company is used for customer churn prediction. Ensemble classifiers are used AdaBoostM1, PCA, Gain Ratio, Info Gain, Bagging in combination with J4. 8, Naïve Bayes, Logistic Regression, Random Forest, KNN, LMT (Logistic model Tree). Highest accuracy of 94% is obtained by combination of Bagging and J48. The results are compared with other studies as well and this study performed as good as the surveyed literature and surpassed in same cases. Keywords: Churn Prediction, KNN, LMT, CRM, PCA İÇİNDEKİLER TABLE OF CONTENTS . ii ABSTRACT . iii ÖZET . iii ACKNOWLEDGEMENT . iiv LIST OF FIGURES . v LIST OF TABLES . vi ABBREVIATIONS . vii 1. INTRODUCTION . 1 1. 1 Background of the Study . 1 1. 2. Problem Statement . 4 2. LITERATURE REVIEW . 5 3. MATERIAL AND METHODOLOGIES . 12 3. 1 Data Description . 12 3. 1. 1 Brief history of orange telecom company . 12 3. 1. 2 Orange telecom dataset . 13 3. 2 Methodologies . 14 3. 2. 1 Naïve bayes . 14 3. 2. 2 J48 . 15 3. 2. 3 Random forests . 16 3. 2. 4 K Nearest Neighbor (kNN) . 16 3. 2. 5 Logistics regression . 17 3. 2. 6 Decision stump . 17 3. 2. 7 Logistic model tree LMT . 17 3. 2. 8 AdaboostM1 . 18 3. 2. 9 Principal component analysis (PCA) . 18 3. 2. 10 Gain ratio . 18 3. 2. 11 Information gain . 18 3. 2. 12 Bagging . 18 3. 2. 13 WEKA . 18 4. EVALUATIONS AND DISCUSSION . 21 4. 1 Implementation Results Evaluation . 21 4. 2 Discussion . 26 5. CONCLUSION . 27 REFERENCES . 29 BIOGRAPHY . 32