İngilizce Dokümanlarda Tema ve Alt Kavramlar Tespit Modeli


Creative Commons License

ÖGTELİK S., TURAN M.

Düzce Üniversitesi Bilim ve Teknoloji Dergisi, cilt.6, sa.4, ss.754-764, 2018 (Hakemli Dergi) identifier

  • Yayın Türü: Makale / Tam Makale
  • Cilt numarası: 6 Sayı: 4
  • Basım Tarihi: 2018
  • Dergi Adı: Düzce Üniversitesi Bilim ve Teknoloji Dergisi
  • Derginin Tarandığı İndeksler: TR DİZİN (ULAKBİM)
  • Sayfa Sayıları: ss.754-764
  • İstanbul Ticaret Üniversitesi Adresli: Evet

Özet

Bu makalede dokümanlarda tema ve alt kavram tespiti konusunda bir model önerilmiş ve deneysel bulgulardeğerlendirilmiştir. Dokümanlarda tema ve alt kavramların tespiti için kullanılabilecek anlamlı sözcüklerinbelirlenmesi amacıyla Helmholtz prensibi temelli Gestalt teorisi kullanılmıştır. Bu sözcüklerin girdi olduğu birYapay Sinir Ağı (YSA) modeli oluşturulmuş, eğitim dokümanları (140 adet) ile bu ağ eğitilmiştir. Eğitim vesınama doküman veri seti spor ve eğitim temalarında olup, toplam 14 alt kavram seçilmiştir. YSA’nın çıktısıtema ve alt-kavram bilgilerini vermektedir. 70 adet sınama dokümanı ile farklı sayıda (5, 10, 20) anlamlı kelimeseçilerek deneyler yapılmış, başarı oranının konularda yaklaşık olarak %95, alt kavramlarda ise %80 olduğugözlemlenmiştir
In this article, a model of topic and sub topic detection is proposed in the documents and experimental findings are evaluated. The Gestalt theory based on the Helmholtz principle was used in the documents to determine the meaningful words that could be used to determine concepts and sub topic. An Artificial Neural Network (ANN) model was established in which these words were entered, and this network was trained with number of 140 training documents. The training and testing document dataset is about the sports and training topics and 14 subtopics have been selected. The output of ANN gives the topic and sub topic information. Experiments were executed with 70 test documents with different numbers of (5, 10, 20) words. It was observed that the success rate was approximately 95% in the topic and 80% in the sub topic.