Ağaç temelli makine öğrenmesi yöntemleri ile e-ticaret sitesi müşteri harcamalarını tahmin edecek modelin belirlenmesi


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: İstanbul Ticaret Üniversitesi, Fen Bilimleri Enstitüsü, Türkiye

Tezin Onay Tarihi: 2021

Tezin Dili: Türkçe

Öğrenci: MEHMET YALÇIN

Danışman: BAĞDATLI KALKAN SEDA

Özet:

ÖZET Teknoloji, günümüz dünyasında en hızlı gelişen ve yaygınlaşan bir kavramdır. Teknolojinin yaygınlaşması ile dijitalleşme de doğru orantılı olarak sürekli artış göstermiş olup bireylerin satın alma davranışları da bu değişime ayak uydurmuştur. İnternet ortamına kolayca erişebilen bireyler, fiziksel mağazalardan alışveriş yapmak yerine online alışveriş yöntemine yönelmiştir. Bireylerin online alışverişe yönelmesi ile e-ticaret sektörü gelişmiştir. Genel olarak bakıldığında; küresel ölçekte satış yapabilme, kira ve çalışan ücretleri gibi şirket içindeki sabit giderlerde azalma, 7/24 satış yapabilme, online ve düşük maliyetli stok takibi gibi faktörler e-ticaretin önemini giderek arttırmaktadır. E-ticaretin en avantajlı yanlarından biri de online platformda müşteri hareketliliğinin kolayca takip edilebilmesidir. Şirketler, müşterinin her “tıklamasını” analiz ederek müşteriyi tanımaya çalışmaktadır. Bu çalışma kapsamında, makine öğrenmesi kavramı, süreçleri anlatılmakta ve uygulama olarak Google Merchandise Store (googlemerchandisestore. com) web sitesi verileri kullanılmaktadır. Makine öğrenmesi yöntemlerinden olan Ağaç Temelli Modellerden (Tree Based Methods) faydalanılarak online platforma giren müşterilerin alışverişte ne kadar harcama yapacağını tahmin edecek modeller üzerine çalışılmaktadır. Çalışmada, makine öğrenmesi uygulama adımları tamamlanarak Karar Ağaçları, Rassal Ormanlar, GBM, LightGBM, XGBoost ve CatBoost modelleri kullanılmaktadır. Modellerin başarı performansları kıyaslanarak en iyi tahmin sonuçlarını veren modeli bulmak amaçlanmış ve sonuçta en iyi tahmin performansı veren modelin hangisi olduğu belirlenmiştir. Ayrıca en iyi performansı veren model ile müşterilerin harcamalarında hangi faktörlerin daha etkili olduğu sıralanmıştır. Anahtar Kelimeler: Ağaç temelli modeller, e-ticaret, makine öğrenmesi, topluluk öğrenmesi. ABSTRACT Technology is rapidly developing and spreading in today's world. With the spread of technology, digitalization has also increased in direct proportion, and the purchasing behavior of individuals has also kept up with this change. Individuals who can easily access the internet have turned to online shopping instead of shopping from physical stores. With the orientation of individuals to online shopping, the e-commerce sector has developed. In addition, factors such as the ability to sell on a global scale, decrease in company fixed expenses such as rent and employee wages, 24/7 sales, online and low-cost inventory tracking are increasing the importance of e-commerce. One of the most advantageous aspects of e-commerce is that customer activity can be easily followed on the online platform. Companies try to get to know the customer by analyzing every "click" of the customer. Within the scope of this study, the concept of machine learning and its processes are explained and Google Merchandise Store (googlemerchandisestore. com) website data is used as an application. Using Tree Based Methods, one of the machine learning methods, models that will estimate how much customers who enter the online platform will spend on shopping are studied. In the study, after the data was pre-processed, the amount of expenditure was estimated with Decision Tree, Random Forest, GBM, LightGBM, XGBoost ve CatBoost. By comparing the success performances of the models, it was aimed to find the model that gave the best prediction results, and as a result, it was determined which model gave the best prediction performance. In addition, the model with the best performance listed which factors are more effective in customers' spending. Keywords: E-Commerce, ensemble learning, machine learning, tree-based models. İÇİNDEKİLER İÇİNDEKİLER . i ÖZET. iii ABSTRACT . iv TEŞEKKÜRLER . v ŞEKİLLER . vi ÇİZELGELER. vii SİMGELER VE KISALTMALAR DİZİNİ . viii 1. GİRİŞ . 1 2. LİTERATÜR ÖZETİ . 4 3. E - TİCARET . 6 3. 1. E-Ticaret Kavramı . 6 3. 2. E-Ticaret Tarihsel Gelişimi . 8 3. 3. E-Ticaretin Türleri . 10 3. 3. 1 Şirketler arası (B2B, Business to Business) e-ticaret . 11 3. 3. 2 Şirket - Tüketici arası (B2C, Business to Consumer) e-ticaret . 12 3. 3. 3. Tüketici - Tüketici arası (C2C, Consumer to Consumer) e-ticaret . 12 3. 3. 4. İşletmeden Devlete (B2G, Business to Government) e-ticaret . 13 4. MAKİNE ÖĞRENMESİ . 14 4. 1. Makine Öğrenmesinin Tarihsel Gelişimi . 15 4. 2. Makine Öğrenmesi Türleri . 18 4. 2. 1. Denetimli öğrenme . 18 4. 2. 2. Denetimsiz öğrenme. 20 4. 2. 3. Takviyeli öğrenme . 20 4. 3. Makine Öğrenmesi Uygulama Aşamaları . 21 4. 3. 1. Problemin belirlenmesi . 21 4. 3. 2. Verilerin toplanması . 22 4. 3. 3. Veri ön işleme . 23 4. 3. 4. Model oluşturulması . 24 4. 3. 5. Model sonuçlarının değerlendirilmesi. 25 4. 3. 6. Model performansları değerlendirme ölçütleri . 26 4. 3. 6. 1. Ortalama Kare Hata (Mean Squared Error, MSE) . 27 4. 3. 6. 2. Kök Ortalama Kare Hata (Root Mean Squared Error, RMSE) . 27 4. 3. 6. 3. Ortalama Mutlak Hata (Mean Absolute Error, MAE) . 28 5. AĞAÇ TEMELLİ MAKİNE ÖĞRENMESİ MODELLERİ. 29 5. 1. Karar Ağaçları . 29 5. 1. 1. Karar Ağacı algoritmaları . 33 5. 1. 1. 1. CART algoritması . 34 5. 2. Ağaç Temelli Topluluk Öğrenme Yöntemleri (Ensemble Learning Methods) . 38 5. 2. 1. Rassal Ormanlar (Random Forests) . 40 5. 2. 2. Gradyan Artırma Makineleri (Gradient Boosting Machine) . 41 5. 2. 3. Ekstrem Gradyan Artırma (Extreme Gradient Boost, XGBoost) . 43 5. 2. 4. Light Gradyan Artırma (Light Gradient Boosting, LightGBM) . 44 5. 2. 5. Kategorik Artırma (Category Boosting, CatBoost) . 44 6. UYGULAMA . 46 6. 1. Problemin Tanımlanması . 46 6. 2. Verinin Toplanması . 47 6. 3. Veri Ön İşleme . 48 6. 4. Modelin Oluşturulması ve Sonuçların Değerlendirilmesi . 56 7. SONUÇ VE ÖNERİLER . 64 KAYNAKLAR . 67 ÖZGEÇMİŞ . 72