Date of Award
11-2024
Document Type
Dissertation
Degree Name
Doctor of Philosophy (PhD)
Department
Information Systems and Security
First Advisor
Dr. Marton Gergely
Second Advisor
Dr. Khaled Shuaib
Abstract
With the increase in popularity of online communities, such as social media platforms, online games, and chatroom servers, there is a need to improve chat and content moderation. Platforms have reported an increase in the prevalence of toxic behavior and hate speech. Meanwhile, moderators are reporting difficulties in keeping up with the amount of data to check as well and the type of content they are exposed to, which further harms their own mental health. The main objective of this work is to address the challenges that exist within online communities with the rising prevalence of hate speech. Additionally, some of the burden of reviewing incidents and applying accountability will be lifted off any human moderators. Leveraging the evolution of Large Language Models (LLMs), a Natural Language Processing (NLP)-based solution is prototyped that would monitor chat messages passing through a server and classifying them according to their content. To do this, several LLMs are selected based on the reviewed literature and tested against a dataset containing chat messages sourced from various platforms. The LLM that “behaved” the best is selected to run on a simulated chat server to monitor chat messages and maintain a record of classifications. The results of training and validation showed that DistilBERT performed the best, achieving an accuracy of 95% for binary classification and 75% for six-category classification. After embedding the model into a simulated chatroom’s server and testing it against 1,100 data entries, the binary and six-category accuracies achieved were 98% and 79%, respectively. After retraining, the binary model achieved 98% accuracy with familiar data and 90% for completely new data, while the six-category model achieved 84%. With these results, leveraging LLMs for content moderation shows promise, as presented by the prototype moderator presented in this work. With further optimization and more data, the performance of the model will improve according to the environment it is monitoring.
Arabic Abstract
مكافحة السمية والتحرش في البيئات الإلكترونية باستخدام الذكاء الإصطناعي
مع تزايد شعبية المجتمعات الإلكترونية، مثل منصات وسائل التواصل الاجتماعي، الألعاب عبر الإنترنت، وخوادم غرف الدردشة، ظهرت الحاجة إلى تحسين مراقبة الدردشة والمحتوى. أبلغت المنصات عن زيادة في انتشار السلوكيات السامة وخطاب الكراهية، بينما أفاد المشرفون بصعوبة مواكبة كمية البيانات التي يجب فحصها، بالإضافة إلى نوعية المحتوى الذي يتعرضون له، مما يؤثر سلبًا على صحتهم النفسية. يهدف هذا العمل إلى معالجة التحديات التي تواجه المجتمعات الإلكترونية مع تزايد انتشار خطاب الكراهية، بالإضافة إلى تقليل العبء عن المشرفين البشريين في مراجعة الحوادث وتطبيق المساءلة. بالاستفادة من تطور نماذج اللغة الضخمة (LLMs)، تم تطوير حل يعتمد على معالجة اللغة الطبيعية (NLP) لمراقبة الرسائل النصية المارة عبر خادم وتصنيفها بناءً على محتواها. لتحقيق ذلك، تم اختيار عدة نماذج LLM بناءً على الأدبيات المستعرضة واختبارها باستخدام مجموعة بيانات تحتوي على رسائل دردشة من مصادر متنوعة. تم اختيار النموذج الذي قدم الأداء الأفضل لتشغيله على خادم دردشة محاكٍ لمراقبة الرسائل وتسجيل تصنيفاتها. أظهرت نتائج التدريب والتحقق أن نموذج DistilBERT كان الأفضل، حيث حقق دقة بنسبة %95 للتصنيف الثنائي و75% للتصنيف ذي الفئات الست بعد تضمين النموذج في خادم دردشة محاك واختباره باستخدام 1,100 مدخل بيانات، تم تحقيق دقة بلغت %98% للتصنيف الثنائي و79% للتصنيف ذي الفئات الست. بعد إعادة التدريب، حقق نموذج التصنيف الثنائي دقة 98 مع البيانات المألوفة و90% مع البيانات الجديدة تمامًا، بينما حقق نموذج التصنيف ذي الفئات الست دقة 84 تُظهر هذه النتائج أن الاستفادة من نماذج LLM في مراقبة المحتوى تحمل وعودًا واعدة، كما هو موضح في النموذج الأولي المقدم في هذا العمل، ومع مزيد من التحسينات وإضافة بيانات جديدة، يمكن تحسين أداء النموذج بشكل يتماشى مع البيئة التي يراقبها.
Recommended Citation
Saleous, Heba, "TACKLING TOXICITY AND HARASSMENT IN ONLINE ENVIRONMENTS THROUGH THE USE OF ARTIFICIAL INTELLIGENCE" (2024). Dissertations. 311.
https://scholarworks.uaeu.ac.ae/all_dissertations/311