Tezin Türü: Yüksek Lisans
Tezin Yürütüldüğü Kurum: İstanbul Ticaret Üniversitesi, Fen Bilimleri Enstitüsü, Türkiye
Tezin Onay Tarihi: 2022
Tezin Dili: İngilizce
Öğrenci: MERT İLERİ
Danışman: TURAN METİN
Özet:ÖZET Son on yılda, dünya çapında muazzam veriler paylaşılmaktadır. Günümüzün büyük veri dünyasında analiz uygulamaları ile şirketler, müşterilerinin ruh hallerini analiz etmek ve duyarlılıklarına göre verimlerini artırmak üzere duygu analizi tekniklerini kullanmayı denemektedirler. Bu araştırmada duygu analizinin farklı bir uygulaması olarak, kapalı mekanlarda konuşma analizi yapılarak toplantıda duygu analizi tespitine odaklanılmıştır. Araştırma düşük gürültülü ortamlara ihtiyaç duymaktadır. Aksi takdirde gürültülerden (diğer seslerden) etkilenebilir ve birden fazla duygu için çelişkili durumlar oluşabilir (örneğin gürültü genelde olumsuz duygu oluşturacaktır). Çözüm olarak anlamlı ses özelliklerini kullanan bir yapay sinir ağı önerilmiştir. Bu araştırmada Ryerson Duygusal Konuşma-Şarkı Görsel İşitsel Veritabanı (RAVDESS) verileri kullanılmıştır. Ses özellikleri çıkarıldıktan sonra verilere normalizasyon (Z-score standardizasyonu) uygulanmıştır. Yapay sinir ağı, eğitim verileriyle beslenmiş ve bir sınıflayıcı makine öğrenmesi modeli oluşturulmuştur. Test verileri kullanılarak yapılan başarım ölçümlerinde ortalama başarı olarak yaklaşık %88 değerine ulaşılmıştır. Anahtar Kelimeler: Duygu analizi, ses özellikleri, yapay sinir ağı. ABSTRACT In the last decade, enormous data has been shared throughout the world. With analysis applications in today’s big data world, companies try to use sentiment analysis techniques to analyze their customers’ moods and improve their efficiency according to their sensitivity. In this research, as a different application of emotion analysis, speech analysis in closed places was focused on the detection of emotion analysis in the meeting. The research needs low-noise environments. Otherwise, it may be affected by noises (other sounds) and conflicting situations may occur for more than one emotion (for example, noise will generally create negative emotion). As a solution, an artificial neural network that using meaningful sound features is proposed. Ryerson Audio Visual Database of Emotional Speech and Song (RAVDESS) data was used in this study. After the sound features were extracted, normalization (Z-score standardization) was applied to the data. The artificial neural network is fed with training data and a classifier machine learning model is created. In the performance measurements made using the test data, the average success rate was approximately 88%. Keywords: Artificial neural network, sentiment analysis, voice features. İÇİNDEKİLER CONTENTS . i ABSTRACT . ii ÖZET . iii ACKNOWLEDGEMENTS . iv LIST OF FIGURES . v LIST OF TABLES . vi SYMBOLS AND ABBREVIATIONS LIST . vii 1. INTRODUCTION . 1 2. LITERATURE REVIEW . 4 3. METHODOLOGY . 8 3. 1. Data Acquisition . 8 3. 2. Mlp Classifier . 9 3. 2. 1. Activation functions . 11 3. 2. 1. 1. Linear activation functions . 11 3. 2. 1. 2. Non-linear activation functions . 12 3. 2. 1. 2. 1 Sigmoid function . 13 3. 2. 1. 2. 2. Hyperbolic tangent function . 13 3. 2. 1. 2. 3. Rectified linear unit function . 14 3. 2. 1. 2. 4. Softmax function . 15 3. 3. Feature Extraction. 17 3. 3. 1. Mfcc (Mel frequency cepstrum coefficients). 18 3. 3. 2. Zero crossing rate . 18 3. 3. 3. Spectral flux . 19 3. 3. 4. Contrast . 20 3. 3. 5. Chroma . 20 3. 3. 6. Spectral roll-off . 21 3. 3. 7. Tonnetz . 21 3. 3. 8. Spectral centroid. 22 3. 3. 9. Pitch . 22 3. 4. Methodology of System . 23 3. 4. 1. Data gathering and feature extraction . 23 3. 4. 2. Data normalization (Z-score standardization) . 24 3. 4. 3. Classifier training and model initialization . 25 4. EXPERIMENTAL SETUP AND RESULTS . 27 5. CONCLUSIONS AND IMPLICATIONS . 32 REFERENCES . 33 BIBLIOGRAPHY . 37