Makine öğrenmesindeki sınıflandırma yöntemlerinin karşılaştırılması ve e-ticaret üzerinde bir uygulama


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: İstanbul Ticaret Üniversitesi, Fen Bilimleri Enstitüsü, Türkiye

Tezin Onay Tarihi: 2021

Tezin Dili: Türkçe

Öğrenci: RABİA ÖZDEMİR

Danışman: TURANLI MÜNEVVER

Özet:

ÖZET Bilgi teknolojilerinin gelişmesi ile internet kavramının insanların hayatına girmesi dünyadaki iş akışını değiştiren bir buluş olmuştur. Teknolojik gelişmeler ve bununla birlikte yaygınlaşan internet sayesinde büyük boyutlarda veri akışı oluşmaktadır. Bu veri akışının daha kontrol edilebilir ve akıllı bir şekilde yönetilmesi için zamanla yapay zeka, makine öğrenmesi gibi kavramlar ortaya çıkmıştır. Günlük faaliyetlerin internet ortamına taşınması ile birlikte ticaret kavramı da elektronik ortama taşınmış ve e-ticaret kavramı oluşmuştur. E-ticaret kavramı zamanla küresel boyutta işlemlerin yapıldığı platformlar oluşturmuş ve birçok insan tarafından kullanılmaya başlanmıştır. E-ticaret ile gerçekleştirilen işlemlerin her aşamasında büyük oranda veri kaynağı oluşmaktadır. Bu verilerin doğru bir şekilde işlenmesi ve doğru kararlar alınabilmesi amacı ile makine öğrenmesi yöntemleri kullanılmaktadır. Makine öğrenmesi e-ticaretin en çok kullanıldığı alanlardandır. Tez çalışmasında, makine öğrenmesindeki kavramlardan, tarihsel gelişimlerden ve makine öğrenmesindeki sınıflandırma yöntemlerinin nasıl çalıştıkları anlatılmaya çalışılmıştır. E-ticaret platformlarında satın alma yapan müşteriler, tüm ürün, hizmet veya sistem sağlayıcıları tarafından büyük önem taşıyan internet kullanıcılarıdır. Bu nedenle e-ticaret platformları üzerinden satın alma işlemi yapan müşterilerin tespit edilmesi büyük önem taşımaktadır. İşletmeden tüketiciye yapılan e-ticaret ile ürün satmakta olan incikcincik. co adlı e-ticaret web sitesi verileri kullanılarak, makine öğrenmesi Lojistik Regresyon, Naïve Bayes, Destek Vektör Makineleri ve Rastgele Ormanlar sınıflandırma yöntemleri ile satın alan ve almayan müşterilere yönelik tahmin edilmiş ve hangi sınıflandırma yönteminin daha başarılı tahmin sonuçları olduğuna dair karşılaştırılmalar yapılmıştır. Anahtar Kelimeler: Destek vektör makineleri, e-ticaret, lojistik regresyon, makine öğrenmesi, naïve bayes, rastgele ormanlar, sınıflandırma yöntemleri. ABSTRACT With the development of information technologies, the introduction of the concept of the internet into people's lives has been an invention that changes the workflow in the world. Thanks to technological developments and the widespread internet, large data flows occurs. In order to, concepts such as artificial intelligence and machine learning have emerging to manage this data flow in a more controllable and intelligent way. Along with the movement of daily activities to the internet environment, the concept of trade was moved to electronic environment and the concept of e-commerce was formed. The concept of e-commerce has created platforms where transactions are made on a global scale over time and is used by many people. The transactions carried out with e-commerce also provide a large amount of data sources with every stage. Machine learning methods are used in order to process this data correctly and to make right decisions. Machine learning is one of the most used areas of e-commerce. In the thesis, concepts, current sub-methods, historical developments and how machine learning classification algorithms work were explained within the scope of machine learning Customers who make purchases on e-commerce platforms are internet users who are of great importance by all product, service or system providers. For this reason, it is of great importance to identify customers who make purchases through e-commerce platfoms. Using e-commerce web site data named incikcincik. co, which is selling products through e-commerce from business to consumer, with machine learning Logistics Regression, Naïve Bayes, Support Vector Machines and Random Forests classification methods were estimated for customers who has been purchased and non purchased. Comparisons have been made as to which classification method has more successful estimation results. Keywords: Classification methods, e-commerce, logistic regression, machine learning, naïve bayes, random forests, support vector machines. İÇİNDEKİLER İÇİNDEKİLER . i ÖZET. iv ABSTRACT . v TEŞEKKÜRLER . vi ŞEKİLLER DİZİNİ . vii ÇİZELGELER DİZİNİ . viii SİMGELER VE KISALTMALAR DİZİNİ . ix 1. GİRİŞ . 1 2. LİTERATÜR ÖZETİ . 5 3. E-TİCARET . 8 3. 1. E-Ticaret Kavramı . 8 3. 2. E-Ticaretin Tarihsel Gelişimi . 12 3. 3. E-Ticaret Türleri . 15 3. 3. 1. İşletmeden işletmeye yapılan e-ticaret (Business to business-B2B) . 16 3. 3. 2. İşletmeden tüketiciye yapılan e-ticaret (Business to consumer-B2C) . 17 3. 3. 3. İşletmeler ile kamu idaresi arasında yapılan e-ticaret (Business to government-B2G) . 18 3. 3. 4. Tüketiciden tüketiciye yapılan e-ticaret (Consumer to consumer-C2C). 18 3. 3. 5. Tüketiciler ile kamu idaresi arasında yapılan e-ticaret (Consumer to government-C2G) . 18 3. 3. 6. Devletler arasında yapılan e-ticaret (Goverment to government-G2G) . 19 3. 4. E-Ticaretin Avantaj ve Dezavantajları . 19 4. MAKİNE ÖĞRENMESİ . 22 4. 1. Makine Öğrenmesi Kavramı . 22 4. 2. Makine Öğrenmesinin Tarihsel Gelişimi . 25 4. 3. Makine Öğrenmesi Yöntemleri . 27 4. 3. 1. Denetimli öğrenme . 27 4. 3. 2. Denetimsiz öğrenme. 29 4. 3. 3. Yarı denetimli öğrenme. 30 4. 3. 4. Takviyeli öğrenme . 31 4. 4. Makine Öğrenmesi Uygulama Süreci . 31 4. 4. 1. Problemin tanımlanması. 32 4. 4. 2. Verilerin toplanması süreci . 33 4. 4. 3. Verilerin hazırlanması süreci . 33 4. 4. 4. Eğitim ve test verisinin belirlenmesi . 34 4. 4. 5. Makine öğrenmesi yönteminin uygulanması/model oluşturma . 35 4. 4. 6. Modelin yorumlanması ve doğruluğunun ölçülmesi . 35 5. MAKİNE ÖĞRENMESİ SINIFLANDIRMA YÖNTEMLERİ. 36 5. 1. Lojistik Regresyon . 36 5. 1. 1. Lojistik Regresyon’un kısa tarihçesi . 37 5. 1. 2. Lojit dönüşüm ve Lojistik Regresyon modeli . 38 5. 1. 3. İkili (Binary) Lojistik Regresyon Analizi . 41 5. 1. 4. Çoklu Sınıflayıcı (Multinomial) Lojistik Regresyon Analizi . 41 5. 1. 5. Çoklu Sıralayıcı (Multiordinal) Lojistik Regresyon Analizi . 42 5. 2. Naive Bayes . 42 5. 3. Destek Vektör Makineleri . 46 5. 3. 1. Destek Vektör Makineleri’nin kısa tarihçesi. 47 5. 3. 2. Doğrusal Destek Vektör Makineleri . 48 5. 3. 3. Doğrusal Olmayan Destek Vektör Makineleri . 52 5. 4. Rastgele Ormanlar . 54 5. 4. 1. Rastgele Ormanlar’ın kısa tarihçesi . 56 5. 4. 2. Rastgele Orman algoritması . 56 5. 5. Sınıflandırma Model Performanslarının Değerlendirme Ölçütleri. 58 5. 5. 1. Holdout yöntemi . 58 5. 5. 2. Karışıklık matrisi . 59 5. 5. 3. Doğruluk oranı (Accuracy rate) . 60 5. 5. 4. Hata oranı (Error rate) . 61 5. 5. 5. Kesinlik (Precision) . 61 5. 5. 6. Duyarlılık/Hassasiyet (Sensitivity/Recall rate) oranı . 62 5. 5. 7. F1 ölçütü (F1-measure) . 62 5. 5. 8. Alıcı işlem karakteristik (Receiver operating characteristic-ROC) eğrileri . 63 5. 5. 9. Eğri altındaki alan (AUC-area under curve) . 64 6. UYGULAMA . 65 6. 1. Problemin Tanımlanması . 65 6. 2. Verinin Toplanması . 66 6. 3. Veri Ön-işleme/Hazırlama. 68 6. 4. Eğitim ve Test Verisinin Ayrılması . 70 6. 5. Modelin Oluşturması, Test Edilmesi ve Değerlendirilmesi . 70 7. SONUÇ ve ÖNERİLER . 75 KAYNAKÇA . 77 ÖZGEÇMİŞ . 82