Sentiment analysis on new currency in Kenya using Twitter dataset


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: İstanbul Ticaret Üniversitesi, Fen Bilimleri Enstitüsü, Türkiye

Tezin Onay Tarihi: 2020

Tezin Dili: İngilizce

Öğrenci: IBRAHIM MOGE NOOR

Danışman: TURAN METİN

Özet:

ABSTRACT Social media sites recently became popular, it is clear that it has major influence in society. Twitter is one of these sites, full of people’s opinions, where one can truck sentiment express about different kinds of topics. Sentiment analysis is one of the major interesting research areas nowadays. In this work, we focused on sentimental insight into the 2019 Kenya currency replacement. Kenyans citizens expressed their reaction over new banknotes. We perform sentiment analysis of the tweets from Twitter using the Multinomial Naïve Bayes algorithm. We split our dataset using k-folder cross validation since we had limited amounts of data, so to achieve unbiased prediction of the model. We calculated unigram and bigram models and given as features to the Multinomial Naïve Bayes classifier. We found an accuracy of 70. 8% when we used unigram model and 64. 1% when we applied bigram model. Results show that the model reached to an acceptable accuracy of (72%) on average using unigram model. Keywords: Machine learning, Multinomial Naïve Bayes, sentiment analysis, Twitter data. ÖZET Sosyal medya siteleri son zamanlarda popüler hale gelmiştir, toplumda büyük etkisi olduğu açıktır. Twitter, bu tür sitelerden biridir, insanların görüşleri ile dolu olup, farklı türlerdeki konularda duyguları ifade edebilir. Duygu analizi, günümüzde önemli ilginç araştırma alanlarından biridir. Bu çalışmada, 2019 Kenya para birimi değişimine ilişkin duygusal analize odaklandık. Kenya vatandaşları yeni banknotlar üzerindeki tepkilerini dile getirmiştir. Multinomial Naïve Bayes algoritmasını kullanarak, Twitter tweet'lerinin duygu analizini yaptık. Veri setimiz, sınırlı miktarda veriye sahip olduğundan, modelin tarafsız tahminini elde etmek için k-çapraz doğrulama yöntemi kullanarak böldük. Unigramları ve bigramlarıhesapladık ve Multinomial Naïve Bayes sınıflandırıcısına özellik olarak verdik. Unigram modelini kullandığımızda %70. 8, bigram modelini uyguladığımızda %64. 1 doğruluk bulduk. Sonuçlar, modelin unigram kullanarak ortalama olarak kabul edilebilir bir doğruluğa (72%) ulaştığını göstermektedir. Anahtar Kelimeler: Duygu analizi, makine öğrenmesi, Multinomial Naïve Bayes, Twitter verileri. CONTENTS CONTENTS . i ABSTRACT……………………………………………. ………. ……………. ……. ii ÖZET. iii ACKNOWLEDGEMENT. iv LIST OF FIGURES. v LIST OF TABLES. vi SYMBOL AND ABBREVIATIONS LIST. vii 1. INTRODUCTION . 1 1. 1 Overview . 1 1. 2 Background of Demonetization Policy . 1 1. 3 Twitter Data . 2 1. 4 Classification of Sentiment Analysis . 3 1. 5 Objective and Limitations . 4 1. 6 Multilingual Tweets . 5 1. 7 Motivation . 6 2. LITARATURE REVIEW . 7 3. PROPOSED APPROACH . 9 3. 1 Data Collection . 9 3. 2 Data Set . 11 3. 2. 1 Train data . 12 3. 2. 2 Test data . 13 3. 3 Data Pre-Processing . 13 3. 4 Feature Extraction . 15 3. 4. 1 The term frequency–inverse document frequency. 15 3. 4. 2 Count vectorization . 16 3. 5 N-gram Model . 17 3. 6 Sentiment Analysis of Tweets . 18 3. 7 Bayesian classifier: Naive Bayes. 19 3. 7. 1 Pros and Cons of Naive Bayes? . 21 3. 8 Multinomial Naïve Bayes . 22 3. 9 Bayesian Classifier . 22 3. 10 Confusion Matrix . 25 3. 11 Dataset Validation . 26 3. 11. 1 Report Dataset after applied cross validation tests: . 27 4. RESULT AND DISCUSSION . 34 5. CONCLUTIONS AND IMPLICATIONS . 38 REFERENCES . 39 BIBLIOGRAPHY . 42