NLP Kullanılarak Haberlerin Yaş Gruplarına Göre Sınıflandırılması


Creative Commons License

KONTUK R., TURAN M.

Gazi Üniversitesi Fen Bilimleri Dergisi Part C: Tasarım ve Teknoloji, cilt.8, sa.2, ss.372-382, 2020 (Hakemli Dergi) identifier

Özet

Bu çalışmada, Doğal Dil İşleme kullanılarak elektronik ortamlardaki haberlerin yaş gruplarınagöre etiketlenmesi amaçlanmıştır. Haber sitelerinden toplanan haber veri setinin eğitim amaçlıseçilmiş olanları, NLP Zemberek Kütüphanesi kullanılarak Python dili ile işlenmiş,Havighurst’ün “Gelişim Kuramı” nın güncel duruma adapte edilmiş Çocukluk, Ergenlik veYetişkinlik yaş gruplarını temsil edebilecek kelime sözlüğü oluşturulmuştur (her kelimeninhangi yaş grubuna uygun olduğu). Daha sonra, bu sözlük kullanılarak haber veri setinin testamaçlı seçilmiş olanlarının sınıflarını belirlemek üzere bir sınıflandırıcı önerilmiştir. Testlersonucunda, geliştirilen sözlüğün 0.70 oranında doğru sınıfı tespit edebildiği görülmüştür.
In this study, it is aimed to label the news in electronic media according to age groups by using Natural Language Processing. The selected ones for training in the news dataset collected from the news sites were processed in Python language using the NLP Zemberek Library, and a vocabulary dictionary that could represent Childhood, Adolescence and Adult age groups of Havighurst's Development Theory adapted to the current situation was created (which age group of each word as appropriate). A classifier was then proposed to determine the classes of the news dataset selected for testing using this dictionary. As a result of the tests, it was seen that the developed dictionary can detect the correct class with a success rate of 0.70.