Date of Award

10-2023

Document Type

Thesis

Degree Name

Master of Science in Software Engineering

Department

Computer Science and Software Engineering

First Advisor

Amir Ahmad

Abstract

The classification of imbalanced datasets poses significant challenges, becoming a crucial topic in ML, particularly when standard algorithms struggle with accurate classification. In OCC, classifiers may encounter objects from ensembles of one class, leading to outlier scores generated at different scales. Additionally, there is a lack of a unified combination method, with many experiments resorting to using an average as the combination method. The thesis aims to investigate the effectiveness of normalization and unnormalized outlier scores on OCC ensembles. Furthermore, we conducted a comparative study of different types of combination methods. We used k-means clustering as OCC model, and the min-max normalization technique to bring the outlier scores generated by different models on the same scale. The study used 6 software defects datasets from NASA repository. As a result, no combination method performs best for most of the datasets. The comparative performance of the combination methods also depends on the performance measures.

Arabic Abstract


أساليب التجميع لمجموعات التصنيف من فئة واحدة لمجموعات البيانات البرمجيات غير المتزنة

يفرض تصنيف مجموعات البيانات غير المتوازنة تحديات كبيرة، ويصبح تحدياً في تعلم الآلة، خاصة عندما تواجه الخوارزميات القياسية صعوبة في التصنيف الدقيق. في تصنيف الفئة الواحدة، قد يواجه المصنف كائنات من مجموعات من فئة واحدة، مما يؤدي إلى نتائج خارجية يتم انتشارها على مستويات مختلفة. بالإضافة إلى ذلك، هناك نقص في طريقة الجمع الموحدة، حيث تلجأ العديد من الأبحاث إلى استخدام المتوسط الحسابي كطريقة معتمدة للجمع. تهدف الأطروحة إلى التحقق من فعالية تطبيع النتائج على تصنيف الفئة الواحدة. علاوة على ذلك، أجرينا دراسة لمقارنة أنواع مختلفة من طرق الجمع. تم استخدام (K-means Clustering) كنموذج OCC وتقنية التطبيع Min-max لجلب النتائج الخارجية الناتجة عن نماذج مختلفة على نفس المقياس. استخدمت الدراسة 6 مجموعات بيانات البرمجيات غير المتوازنة من المقدمة وكالة ناسا. ونتيجة لذلك، لا توجد طريقة تجميعية تحقق أفضل أداء لمعظم مجموعات البيانات. يعتمد الأداء المقارن لطرق التجميع أيضاً على مقاييس الأداء.

COinS