NLP kullanılarak haberlerin yaş gruplarına göre sınıflandırılması


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: İstanbul Ticaret Üniversitesi, Fen Bilimleri Enstitüsü, Türkiye

Tezin Onay Tarihi: 2020

Tezin Dili: Türkçe

Öğrenci: RABİA KONTUK

Danışman: TURAN METİN

Özet:

ÖZET Çalışma kapsamında haber metinlerinin yaş gruplarına göre Doğal Dil İşleme tekniğinden faydalanılarak sınıflandırılması sağlanmıştır. Çünkü gelişen teknoloji ile beraber özellikle çocuk yaş grubunun, zarar görebileceği içeriklerden uzak tutulması gerekmektedir. Her ne kadar İnternet Servis Sağlayıcıları ailelere filtreleme imkanları sunsa da ailelerin çoğu bu filtrelemeyi uygulamakta zorlanmakta veya kayıtsız kalmaktadırlar. Bu tür olumsuz durumların üstesinden gelmek için internette yayınlanan içerikler üzerinde yasal bir kontrol sistemi gerekmektedir. Python dili kullanılarak geliştirilen çalışmada Türkçe haber metinlerinin Doğal Dil işlemleri için Zemberek Kütüphanesi kullanılmıştır. Havighurst’ün Gelişim Kuramından faydalanılarak Çocukluk, Ergenlik ve Yetişkinlik yaş grupları belirlenmiştir. Belirlenen yaş gruplarına ait haberlerin bulunduğu toplamda 3925 haber öğesini içeren bir veri kümesi oluşturulmuştur. Veri kümesinin eğitim haberleri ile sözlük oluşturulup sınama haberleri ile de sözlük test edilmiştir. İlk test işleminde haberin yaş grubunu belirleme doğruluğu %71 olarak bulunmuştur. Gözlem doğrultusunda, sadece isimleri içeren sözlük ile %73'lük bir başarı elde edilmiştir. Diğer bir gözlem doğrultusunda, Ergenlik yaş grubuna ait kelimelerin diğer iki grupla örtüşmesi nedeniyle, Ergenlik yaş grubu ile Çocukluk yaş grubu birleştirilip yetişkin ve yetişkin olmayan yeni yaş grupları oluşturulmuş, sadece isimleri barındıran bir sözlük ile %83 oranında daha ayrıştırıcı bir sonuç elde edilmiştir. Anahtar Kelimeler: Doğal Dil İşleme, haber yaş grubu tespiti, terim frekansı, yaş grubu sözlüğü, Zemberek. ABSTRACT Within the scope of the study, it was provided to classify news texts according to age groups by using Natural Language Processing technique. Because with the developing technology, especially the child age group should be kept away from the content that can be damaged. Although Internet Service Providers provide families with filtering facilities, most families find it difficult to implement this filter or remain indifferent. In order to overcome such negative situations, a legal control system is required on the content published on the internet. In the study developed using Python language, Zemberek Library was used for Natural Language operations of Turkish news texts. Childhood, Adolescence and Adulthood age groups were determined by using Havighurst's Development Theory. A dataset containing 3925 news items was created in which there are news belonging to the determined age groups. The educational news of the dataset was created and a dictionary was tested with the test news. In the first test process, the accuracy of determining the age group of the news was found to be 71%. In line with the observation, a 73% success was achieved with a dictionary containing only names. In line with another observation, since the words belonging to the Adolescence age group overlap with the other two groups, the Adolescence age group and the Childhood age group have been combined to create new adult and non-adult age groups, resulting in a distinctive result of 83% with a dictionary containing only names. Keywords: Age group dictionary, Natural Language Processing, news age group detection, term frequency, Zemberek. İÇİNDEKİLER İÇİNDEKİLER . i ÖZET . iii ABSTRACT . iv TEŞEKKÜR . v ŞEKİLLER DİZİNİ . vi ÇİZELGELER DİZİNİ . viii SİMGELER VE KISALTMALAR DİZİNİ . ix 1. GİRİŞ. 1 1. 1. Çalışmanın Amacı . 3 2. LİTERATÜR ÖZETİ . 5 3. YAPAY ZEKA . 12 3. 1. Doğal Dil İşleme . 13 3. 2. Zemberek Kütüphanesi . 14 3. 2. 1. DDİ Zemberek kütüphanesinin yapısı . 15 3. 2. 2. DDİ Zemberek kütüphanesinin kök ağacı . 15 3. 2. 3. Zemberek ile TRNLTK karşılaştırması . 16 3. 3. Hata Matrisi . 17 3. 4. K-Katlamalı Çapraz Doğrulama . 18 4. YÖNTEM . 19 4. 1. Veri Seti . 19 4. 2. Veri Ön İşleme . 23 4. 2. 1. Kelimelere ayrıştırma (Tokenizasyon) . 24 4. 2. 2. Dil bilimi işlemleri (Morfoloji) . 26 4. 2. 3. Durak kelimelerinin kaldırılması (Stop Words). . 27 4. 3. Sözlük Oluşturma. . 39 4. 3. 1. Terim Frekansı. . 29 4. 3. 2. Eşik değeri bulma . 30 4. 3. 3. Sözlük. . 31 4. 4. Tahminleme . 33 5. SONUÇ VE ÖNERİLER . 36 KAYNAKLAR . 44 EKLER. 49 ÖZGEÇMİŞ . 74