Video duygu analizi


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: İstanbul Ticaret Üniversitesi, Fen Bilimleri Enstitüsü, Türkiye

Tezin Onay Tarihi: 2020

Tezin Dili: Türkçe

Öğrenci: EMRE ARIĞ

Danışman: TURAN METİN

Özet:

ÖZET Bu çalışmada, videodaki görüntülerden tespit edilen insan yüzleri üzerinde CNN derin öğrenme modeli kullanılarak duygu analizi yapılmıştır. Bu analize ait sonuçlar saniye saniye kayıt edilerek bir duygu analiz grafiği çıkarılmıştır. Çalışma 3 ana safhadan oluşmaktadır. İlki CNN modeli için gerekli duygu yüklü görsellerin bulunup etiketlenmesi, ikincisi duygu analizi yapabilecek bir CNN derin öğrenme modelinin oluşturulması ve üçüncüsü de videolardaki yüz görüntülerinin tespit edilmesidir. Eğitim veri seti oluşturmak amacı ile seçilen 61 adet filmden, binlerce yüz fotoğrafı analiz edilmiştir. Bunların arasında; Bay Evet, Karabasan, Yaralı Yüz, Yedi Yaşam gibi farklı duyguların ağırlıklı olduğu filmler bulunmaktadır. İlk olarak 7 duygu türü için yüzler toplanmıştır. Bu duygular bıkkınlık, korku, mutluluk, sakinlik, şaşkınlık, sinirlilik ve üzgünlüktür. Yüz tespiti safhasında Haarcascade tekniği kullanılmıştır. Tespit edilen yüzlerin duygulara göre etiketlenmesinde, Amazon webservisi olan Face Recognition’dan yardım alınmıştır. Çalışmada, 50 bin civarı yüz örneklemi elde edilmiştir. Ancak daha sonra yapılan kontrollerde Haarcascade ile bulunmuş görüntüler arasında yüz olmayan birçok görsel tespit edilerek çıkarılmıştır. Ayrıca, Amazon web servisinden dönen duygu analizlerinde %40 civarında yanlış duygu tespiti olduğu belirlenerek, eğitim veri setinden çıkarılmıştır. Tüm veri seti üzerinde yapılan temizleme çalışmaları sonucunda 7 duygu için etiketlenmiş 20 bin fotoğraf elde edilmiştir. Derin öğrenme sonucu, yapılan sınamalarda en çok karıştırılan 4 duygudan 2’sinin bıkkınlık ve şaşkınlık olduğu gözlemlenmiştir. Bıkkınlık sakinlikle, şaşkınlık ise korku yüz ifadeleri ile karışmaktadır. Kalan 5 duygu ile yapılan analizde, önerilen model ile %60’lık doğruluk değerine ulaşılmıştır. Videodan yüzleri çıkarıp modele gönderen ve bu sonuçlar ile bir duygu analizi grafiği çıkaran yazılımda, yüz tespitinin daha doğru olması için gerçek zamanlı analizde Haarcascade yöntemi yerine bir DNN modeli kullanılmıştır. Anahtar Kelimeler: Duygu Analizi, Derin Öğrenme, Video İşleme, Yapay Sinir Ağları ABSTRACT In this study, emotional analysis was carried out with the CNN deep learning model on the human faces detected from the images in the video. The results of this analysis were recorded in seconds and an emotion analysis graph was created. The study consists of 3 main stages. The first is to find and label the emotional images required for the CNN model, the second is to create a CNN deep learning model that can conduct emotion analysis, and the third is to identify the facial images from the videos. In order to create a training data set, thousands of photographs from 61 selected films were analyzed. These include films with different feelings such as Yes Man, The Babadook, Scarface, Seven Pounds. First, faces were collected for 7 types of emotions. These feelings are boredom, fear, happiness, calmness, confusion, irritability and sadness. Haarcascade technique is used in the face detection section. Assistance was received from the Amazon Face Recognition web service for tagging detected faces according to emotions. In the study, about 50 thousand face samples were obtained. However, in the subsequent controls, many non-facial images were detected and removed from the images found with Haarcascade. In addition, approximately 40% false emotion detection was determined in the emotional analysis returned from the Amazon web service and removed from the training dataset. As a result of the cleaning work carried out on the entire data set, 20 thousand photos were tagged for 7 emotions. As a result of the deep learning, it was observed that 2 of the 4 emotions most confused during the tests were boredom and confusion. Boredom is confused with calmness, and confusion with fear facial expressions. In the analysis made with the remaining 5 emotions, we have reached the accuracy value of 60% with the proposed model. Software that extract faces from the video and sends them to the model and displays an emotional analysis graph with these results, a DNN model is used instead of Haarcascade method in real-time analysis to make the face detection more accurate. Keywords: Emotion Analysis, Deep Learning, Video Processing, Artificial Neural Networks İÇİNDEKİLER İÇİNDEKİLER . i ÖZET . iii ABSTRACT . iv TEŞEKKÜR . v ŞEKİLLER DİZİNİ . vi ÇİZELGELER DİZİNİ . viii SİMGELER VE KISALTMALAR DİZİNİ . ix 1. GİRİŞ. 1 2. LİTERATÜR ÖZETİ . 6 3. İLGİLİ KAVRAMLAR . 8 3. 1. Konvolüsyon Katmanı (Convolutional Layer). 8 3. 2. Aktivasyon Katmanı (Activation Layer) . 10 3. 3. Havuzlama (Pooling Layer) . 11 3. 4. Vektörel Dönüşüm (Flattening Layer) . 12 3. 5. Tamamen Bağlı Ağ Katmanı (Fully Connected Layer) . 12 4. ARAŞTIRMA BULGULARI VE TARTIŞMA . 14 4. 1. Eğitim Verilerinin Toplanması . 14 4. 2. CNN Modeli . 15 4. 3. Video Duygu Analizi . 19 5. SONUÇ VE ÖNERİLER . 25 KAYNAKLAR . 27 EKLER. 31 EK A. Grafikler . 32 EK B. Fotoğraflar . 35 ÖZGEÇMİŞ . 45