Date of Award
10-2023
Document Type
Thesis
Degree Name
Master of Science in Software Engineering
Department
Computer Science and Software Engineering
First Advisor
Amir Ahmad
Abstract
The classification of imbalanced datasets poses significant challenges, becoming a crucial topic in ML, particularly when standard algorithms struggle with accurate classification. In OCC, classifiers may encounter objects from ensembles of one class, leading to outlier scores generated at different scales. Additionally, there is a lack of a unified combination method, with many experiments resorting to using an average as the combination method. The thesis aims to investigate the effectiveness of normalization and unnormalized outlier scores on OCC ensembles. Furthermore, we conducted a comparative study of different types of combination methods. We used k-means clustering as OCC model, and the min-max normalization technique to bring the outlier scores generated by different models on the same scale. The study used 6 software defects datasets from NASA repository. As a result, no combination method performs best for most of the datasets. The comparative performance of the combination methods also depends on the performance measures.
Arabic Abstract
أساليب التجميع لمجموعات التصنيف من فئة واحدة لمجموعات البيانات البرمجيات غير المتزنة
يفرض تصنيف مجموعات البيانات غير المتوازنة تحديات كبيرة، ويصبح تحدياً في تعلم الآلة، خاصة عندما تواجه الخوارزميات القياسية صعوبة في التصنيف الدقيق. في تصنيف الفئة الواحدة، قد يواجه المصنف كائنات من مجموعات من فئة واحدة، مما يؤدي إلى نتائج خارجية يتم انتشارها على مستويات مختلفة. بالإضافة إلى ذلك، هناك نقص في طريقة الجمع الموحدة، حيث تلجأ العديد من الأبحاث إلى استخدام المتوسط الحسابي كطريقة معتمدة للجمع. تهدف الأطروحة إلى التحقق من فعالية تطبيع النتائج على تصنيف الفئة الواحدة. علاوة على ذلك، أجرينا دراسة لمقارنة أنواع مختلفة من طرق الجمع. تم استخدام (K-means Clustering) كنموذج OCC وتقنية التطبيع Min-max لجلب النتائج الخارجية الناتجة عن نماذج مختلفة على نفس المقياس. استخدمت الدراسة 6 مجموعات بيانات البرمجيات غير المتوازنة من المقدمة وكالة ناسا. ونتيجة لذلك، لا توجد طريقة تجميعية تحقق أفضل أداء لمعظم مجموعات البيانات. يعتمد الأداء المقارن لطرق التجميع أيضاً على مقاييس الأداء.
Recommended Citation
Alkalbani, Maitha Mohammed, "THE COMBINATION APPROACHES FOR ONE CLASS CLASSIFIER ENSEMBLES FOR SOFTWARE DEFECT DATASETS" (2023). Theses. 1440.
https://scholarworks.uaeu.ac.ae/all_theses/1440