Konu modelleme yöntemlerinin belge sınıflandırma üzerine kullanımı


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: İstanbul Ticaret Üniversitesi, Fen Bilimleri Enstitüsü, Türkiye

Tezin Onay Tarihi: 2021

Tezin Dili: Türkçe

Öğrenci: SÜLEYMAN ÖZDEMİRCİ

Danışman: TURAN METİN

Özet:

ÖZET Konu modellemenin doküman sınıflandırma, konu kümeleme, belge etiketleme, geniş belge koleksiyonlarında özellik çıkarma gibi çok sayıda uygulaması vardır. Bu çalışmada, Latent Dirichlet Allocation konu modellemenin pratik keşif yöntemi, Bidirectional Encoder Representations from Transformers ve Terim Frekansı - Ters Belge Frekansı yöntemi deneysel belge setine ayrı ayrı uygulanmıştır. Bu veri seti lisansüstü öğrenciler tarafından internetten toplanan toplam 801 adet spor ve eğitim makalelerini içermektedir. Bu çalışmanın amacı, konu modellemesine hangi yöntemin en uygun olduğunu gözlemlemek ve mümkünse bu yöntemler topluluğu ile doğruluk oranını arttırmaktır. Çalışmada, en iyi yöntemlerin güçlü özellikleri birleştirilerek yeni bir yöntem önerilip önerilemeyeceği gibi soruların cevapları aranmıştır. Bu çalışma sonucunda BERT'in bazı dezavantajları olsa da doğru konuya sahip belgeleri ortalama %92. 6 başarı oranıyla sınıflandırdığı, diğer yöntemlerden daha başarılı olduğu görülmüştür. Anahtar Kelimeler: BERT, Konu Modelleme, LDA, Sınıflandırma, TF-IDF. ABSTRACT Topic modeling has numerous applications like text categorization, topic clustering, document tagging, feature extraction on wide document collections. In this study, practical exploration method of topic modeling of Latent Dirichlet Allocation, transformers based machine learning method Bidirectional Encoder Representations from Transformers and Term Frequency — Inverse Document Frequency method were applied to the experimental document set separately. It includes sport and education articles collected from internet by graduate students, 801 number totally. The purpose of this study is to observe which method best suits to the topic modeling and if it is possible, increase the accuracy rate via the combination of these methods. In the study, the answers to the questions such as whether a new method can be proposed by combining the strong features of the best methods were sought. Although BERT has some disadvantages, it was observed that classifying the documents with the correct topic was achieved with a %92. 6 success rate, overwhelming the other methods. Keyword: BERT, Classification, LDA, TF-IDF, topic modeling, İÇİNDEKİLER İÇİNDEKİLER . i ÖZET . iii ABSTRACT . iv TEŞEKKÜR . v ŞEKİLLER DİZİNİ . vi ÇİZELGELER DİZİNİ . viii SİMGELER VE KISALTMALAR DİZİNİ . ix 1. GİRİŞ. 1 1. 1. Çalışmanın amacı . 4 2. LİTERATÜR ÖZETİ . 5 3. YÖNTEM . 9 3. 1. Veri Seti . 9 3. 1. 1. Veri Setinin ön işlemesi . 10 3. 2. Terim Frekansı(TF)-Ters doküman Frekansı(IDF) . 12 3. 3. Latent Dirichlet Allocation(LDA) . 13 3. 4. Bidirectional Encoder Representations from Transformers . 14 3. 5. BERT ve LDA’nın Birleştirilmesi . 14 3. 5. 1. Otomatik Kodlayacı . 14 3. 6. Karar Matrisi ile Çoğunluk Analizi . 15 4. SONUÇ VE ÖNERİLER . 16 4. 1. TF-IDF Yönteminin Sonuçları . 16 4. 2. Latent Dirichlet Allocation Yönteminin Sonuçları . 19 4. 3. BERT Yönteminin Sonuçları . 21 4. 4. LDA ve BERT Yöntemlerinin Birleştirilmesi ile Elde Edilen Sonuçlar 22 4. 5. Karar Matrisi ile Yöntemlerin Çoğunluk Analizi . 25 4. 6. Sonuçların Değerlendirilmesi . 26 KAYNAKLAR . 27 ÖZGEÇMİŞ . 30