Date of Award

6-2023

Document Type

Dissertation

Degree Name

Doctor of Philosophy in Informatics and Computing

Department

Computer Science and Software Engineering

First Advisor

Hany Alashwal

Second Advisor

Kadhim Hayawi

Abstract

This dissertation focuses on the problem of evolving social bots in online social networks, particularly Twitter. Such accounts spread misinformation and inflate social network content to mislead the masses. The main objective of this dissertation is to propose a stream-based evolving bot detection framework (SEBD), which was constructed using both graph- and feature-based models. It was built using Python, a real-time streaming engine (Apache Kafka version 3.2), and our pretrained model (bot multi-view graph attention network (Bot-MGAT)). The feature-based model was used to identify predictive features for bot detection and evaluate the SEBD predictions. The graph-based model was used to facilitate multiview graph attention networks (GATs) with fellowship links to build our framework for predicting account labels from streams. A probably approximately correct learning framework was applied to confirm the accuracy and confidence levels of SEBD.

The results showed that the SEBD can effectively identify bots from streams and profile features are sufficient for detecting social bots. The pretrained Bot-MGAT model uses fellowship links to reveal hidden information that can aid in identifying bot accounts. The significant contributions of this study are the development of a stream based bot detection framework for detecting social bots based on a given hashtag and the proposal of a hybrid approach for feature selection to identify predictive features for identifying bot accounts. Our findings indicate that Twitter has a higher percentage of active bots than humans in hashtags. The results indicated that stream-based detection is more effective than offline detection by achieving accuracy score 96.9%. Finally, semi supervised learning (SSL) can solve the issue of labeled data in bot detection tasks.

Arabic Abstract

تركز هذه الرسالة على مشكلة تطور حسابات الروبوتات الاجتماعية في شبكات التواصل الاجتماعي عبر الانترنت، وخاصة شبكة تويتر. حيث تنشر مثل هذه الحسابات معلومات مضللة وتضخم محتوى الشبكة الاجتماعية لتضليل الجماهير. الهدف الرئيسي من هذه الرسالة هو اقتراح إطار متطور لاكتشاف الروبوتات (SEBD)، والذي تم إنشاؤه باستخدام كل من النماذج القائمة على الرسم البياني والميزات. تم بناؤه باستخدام لغة البرمجة (Python)، ومحرك دفق في الوقت الفعلي (Apache Kafka version 3.2). ونموذجنا الذي تم اختباره مسبقا؛ شبكة الانتباه للرسم البياني متعدد العروض (Bot-MGAT).تم استخدام النموذج القائم على الميزات لتحديد الميزات التنبؤية لاكتشاف الروبوتات وتقييم تنبؤات (SEBD)). تم استخدام النموذج القائم على الرسم البياني لتسهيل استخدام شبكات الاهتمام بالرسم البياني متعددة العروض () مع روابط الزمالة لبناء إطار للتنبؤ بنوع الحساب من التدفقات. تم تطبيق إطار تعليمي تقريبي لتأكيد مستويات الدقة والثقة في الإطار المقترح (SEBD).

أظهرت النتائج أن (SEBD) يمكنه تحديد الروبوتات بشكل فعال من التدفقات، وأن ميزات الملف الشخصي كافية لاكتشاف حسابات الروبوت الاجتماعية. كما أظهرت النتائج أن نموذج (Bot-MGAT) الذي تم اختباره مسبقا من خلال روابط الزمالة يستطيع الكشف عن المعلومات المخفية من خلال هذه الروابط للمساعدة على تحديد حسابات الروبوت. تتمثل المساهمات المهمة لهذه الدراسة في تطوير إطار عمل لاكتشاف الروبوتات القائمة على التدفق لاكتشاف برامج الروبوت الاجتماعية بناء على علامة تصنيف معينة (Hashtag) واقتراح نهج مختلط لاختيار الميزات لتحديد الميزات التنبؤية لتحديد هذه الحسابات الروبوتية. تشير النتائج التي توصلنا إليها أن شبكة التواصل تويتر تحتوي على أعداد كثير من الروبوتات النشطة بنسبة أعلى من البشر في علامات التصنيف (Hashtag). أشارت النتائج إلى أن الاكتشاف المستند إلى التدفق أكثر فعالية من الاكتشاف في الوضع التقليدي بنسبة دقة 96.9%. أخيرا، يمكن للتعلم شبه الخاضع للإشراف (SSL) حل مشكلة نقص البيانات المصنفة للقيام بمهام اكتشاف حسابات الروبوت.

Share

COinS