Telekomünikasyon sektörü için veri madenciliği ve makine öğrenmesi teknikleri ile ayrılan müşteri analizi


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: İstanbul Ticaret Üniversitesi, Fen Bilimleri Enstitüsü, Türkiye

Tezin Onay Tarihi: 2021

Tezin Dili: Türkçe

Öğrenci: FURKAN UYANIK

Danışman: KASAPBAŞI MUSTAFA CEM

Özet:

ÖZET Son yıllarda şirketler arası rekabetin artmasıyla beraber aboneliğinden ayrılacak müşterilerin tahmin edilmesi oldukça önemli hale gelmiştir. Ayrılan müşteri analizi, veri madenciliği, makine öğrenmesi ve derin öğrenme gibi yapay zekâ alanlarında sıklıkla karşılaşılan analiz çeşitlerinden biridir. Özellikle telekomünikasyon, sigortacılık ve bankacılık gibi sektörlerde yaygın olarak kullanılmaktadır. Bu çalışma da veri madenciliği ve makine öğrenmesi teknikleri ile aboneliğini sonlandırma ihtimali olan müşterileri tahmin etmeyi amaçlamaktadır. Bu çalışma Lojistik Regresyon, Karar Ağacı, Yapay Sinir Ağları, Torbalama (Bagging) ve Artırma (Boosting) sınıflandırma modelleri kullanılarak arasından en iyi sonucu bulmayı önermiştir. Veri setinde sınıf dengesizliği olduğu için SMOTE (Synthetic Minority Oversampling Technique) ve ADASYN (Adaptive Synthetic Sampling Method) tekniği ile örnekleme yapılmıştır. Bu çalışmada, 2 adet tahmin modeli önerilmiştir ve tahmin modelleri Veri Seti, Veri Ön İşleme, Veri Örnekleme, Değerlendirme olarak 4 farklı aşamadan oluşmaktadır. Veri Ön İşleme aşamasında, kullanılmayan ve önemsiz özniteliklerin veri setinden çıkartılması, normalizasyon, şifreleme ve aşırı örnekleme gibi birçok yöntem kullanılmıştır. Performans ölçütü olarak Doğruluk Oranı, Geri Çağırma (Recall), Hassasiyet (Precision) ve Özgünlük (Specificity), Dengelenmiş Doğruluk Oranı gibi birçok değer kullanılmıştır. Performans ölçütlerine göre en iyi tahmin modeli, ADASYN örnekleme yöntemi kullanılan model olmuştur. Sınıflandırma yöntemi olarak en iyi sonucu veren LightGBM (Light Gradient Boosting Machine) tekniği olmuştur. Önerilen modeller arasında Veri Ön İşleme ve Veri Örnekleme aşamalarında farklılıklar bulunmaktadır. Bu çalışmada önerilen tahmin modellerinin eğitim süresi, benzer çalışmalara göre daha iyi performans sağladığı tespit edilmiştir. Ayrıca bu çalışmada, sadece 58 öznitelik kullanarak 172 öznitelik kullanan benzer çalışmaların başardığına çok yakın sonuçlar elde edilmiştir. Anahtar Kelimeler: Ayrılan müşteri analizi, makine öğrenmesi, müşteri karmaşası tahmini, örnekleme algoritmaları, sınıflandırma, tahmin, telekomünikasyon, topluluk sınıflandırması, veri madenciliği. ABSTRACT With the increasing competition among companies in recent years, it has become very important to estimate the customers who are churned. Churn is one of the most common types of analysis, especially in areas such as data mining, machine learning and deep learning. It is widely used in sectors such as telecommunications, insurance and banking. In this study, it purpose to predict customers who may end their subscription with data mining and machine learning techniques. This study proposed to find the best result from using Logistic Regression, Decision Tree, Artificial Neural Network, Bagging and Boosting classification models. For the data set was unstable, sampling was performed using SMOTE (Synthetic Minority Oversampling Technique) and ADASYN (Adaptive Synthetic Sampling Method) technique. In the study, 2 prediction models are proposed and the proposed prediction models consist of 4 different phases as Data Set, Data Pre-Processing, Data Sampling and Evaluation. In the Data Pre-Processing phase, many methods were used, such as removing unused and unimportant features from the data set, normalization, encoding and oversampling. Accuracy Rate, Recall, Precision and Specificity, Balanced Accuracy Rate and Area Under the ROC Curve (ROC-AUC) value were used as performance measures. Considering the performance measures, the best prediction model suggested was the model using ADASYN sampling method. As the classification method, the best success was the LightGBM (Light Gradient Boosting Machine) technique. There are differences in the Data Pre-Processing and Data Sampling stages phases the proposed models. It was determined that the prediction models proposed in this study provide better performance than similar studies. Also, in this study, results very close to those achieved by similar studies using 172 features using only 58 features were obtained. Keywords: Churn analysis, churn prediction, classification, data mining, ensemble classification, machine learning, oversampling algorithms, telecommunication. İÇİNDEKİLER İÇİNDEKİLER . i ÖZET . iii ABSTRACT . iv TEŞEKKÜR . v ŞEKİLLER DİZİNİ . vi ÇİZELGELER DİZİNİ . vii SİMGELER VE KISALTMALAR DİZİNİ . viii 1. GİRİŞ. 1 2. LİTERATÜR ÖZETİ . 2 3. AYRILAN MÜŞTERİ ANALİZİ . 6 3. 1. Telekomünikasyon Sektöründe Ayrılan Müşteri Analizi . 7 3. 2. Farklı Sektörlerde Ayrılan Müşteri Analizi . 7 4. VERİ MADENCİLİĞİ . 8 4. 1. Veri Madenciliği Süreci . 9 4. 1. 1. Problemin tanımlanması . 9 4. 1. 2. Verilerin hazırlanması . 9 4. 1. 3. Modelin kurulması ve değerlendirilmesi . 10 4. 1. 4. Modelin kullanılması . 10 4. 1. 5. Modelin izlenmesi . 10 4. 2. Veri Madenciliğinde Kullanılan Yöntemler . 11 4. 2. 1. Öznitelik indirgeme (Attributes Reduction) . 11 4. 2. 2. Veri normalizasyonu . 11 4. 2. 2. 1. Min-max normalizasyon yöntemi . 12 4. 2. 3. Veri kodlama . 12 4. 2. 3. 1. Etiket kodlama (Label Encoding) yöntemi . 12 4. 2. 3. 2. One-Hot Encoding yöntemi . 13 4. 2. 4. Öznitelik seçimi . 14 4. 2. 4. 1. Pearson Correlation Coefficient yöntemi . 14 4. 2. 4. 2. Univariate Feature Selection (Tek Değişkenli Öznitelik seçimi) yöntemi . 15 4. 2. 5. Veri aşırı örnekleme . 15 4. 2. 5. 1. SMOTE (Synthetic Minority Oversampling Technique) . 16 4. 2. 5. 2. ADASYN (Adaptive Synthetic Sampling Method) . 18 5. MAKİNE ÖĞRENMESİ . 20 5. 1. Makine Öğrenmesi Yöntemleri . 21 5. 1. 1. Lojistik Regresyon (Logistic Regression) yöntemi . 21 5. 1. 2. Karar ağacı (Decision Tree) yöntemi . 23 5. 1. 3. Yapay sinir ağları (Artificial Neural Network) yöntemi . 23 5. 2. Makine öğrenmesinde topluluk öğrenmesi yöntemleri . 25 5. 2. 1. Torbalama (Bagging) yöntemi . 26 5. 2. 2. Arttırma (Boosting) yöntemi . 26 5. 2. 2. 1. Gradient Boosting yöntemi. 28 5. 2. 2. 2. Adaptive Boosting (AdaBoost) yöntemi . 28 5. 2. 2. 3. Extreme Gradient Boosting (XGBoost) yöntemi . 28 5. 2. 2. 4. Light Gradient Boosting Machine (LightGBM) yöntemi . 29 5. 2. 2. 5. CatBoost yöntemi . 30 5. 2. 3. Rastgele orman (Random Forest) yöntemi . 30 5. 3. Değerlendirme Ölçütleri . 31 5. 3. 1. Doğruluk oranı (Accuracy Rate) . 32 5. 3. 2. Geri çağırma (Recall). 32 5. 3. 3. Hassasiyet (Precision) . 33 5. 3. 4. Özgünlük (Specificity) . 33 5. 3. 5. Dengelenmiş doğruluk oranı (Balanced Accuracy Rate) . 33 5. 3. 6. F1 Skoru (F1 Score) . 33 5. 3. 7. ROC eğrisinin altında kalan alan değeri (ROC-AUC) . 34 6. UYGULAMA . 35 6. 1. Geliştirme Ortamı . 35 6. 2. Veri Kümesi . 35 6. 3. Veri Ön İşleme . 41 6. 4. Önerilen Modeller . 42 6. 4. 1. SMOTE ile önerilen tahmin modeli . 43 6. 4. 2. ADASYN ile önerilen tahmin modeli . 44 7. BULGULAR VE TARTIŞMA . 46 7. 1. Aşırı Örnekleme Yöntemi Kullanmadan Eğitilen Tahmin Modelleri . 46 7. 2. Aşırı Örnekleme Yöntemi Kullanarak Eğitilen Tahmin Modelleri . 47 8. SONUÇ VE ÖNERİLER . 51 KAYNAKLAR . 53 ÖZGEÇMİŞ . 57