Date of Award

3-2019

Document Type

Dissertation

Degree Name

Doctor of Philosophy (PhD)

Department

Computer Science

First Advisor

Mohammad Mehedy Masud

Second Advisor

Amir Ahmad

Third Advisor

Mamoun Awad

Abstract

Real-time data has always been an essential element for organizations when the quickness of data delivery is critical to their businesses. Today, organizations understand the importance of real-time data analysis to maintain benefits from their generated data. Real-time data analysis is also known as real-time analytics, streaming analytics, real-time streaming analytics, and event processing. Stream processing is the key to getting results in real-time. It allows us to process the data stream in real-time as it arrives. The concept of streaming data means the data are generated dynamically, and the full stream is unknown or even infinite. This data becomes massive and diverse and forms what is known as a big data challenge. In machine learning, streaming feature selection has always been a preferred method in the preprocessing of streaming data. Recently, feature grouping, which can measure the hidden information between selected features, has begun gaining attention. This dissertation’s main contribution is in solving the issue of the extremely high dimensionality of streaming big data by delivering a streaming feature grouping and selection algorithm. Also, the literature review presents a comprehensive review of the current streaming feature selection approaches and highlights the state-of-the-art algorithms trending in this area. The proposed algorithm is designed with the idea of grouping together similar features to reduce redundancy and handle the stream of features in an online fashion. This algorithm has been implemented and evaluated using benchmark datasets against state-of-the-art streaming feature selection algorithms and feature grouping techniques. The results showed better performance regarding prediction accuracy than with state-of-the-art algorithms.

Comments

استطاع مفهوم تحليل البيانات اليوم أن يفرض نفسه على كثير من التخصصات المختلفة ذات المجالات المتنوعة، حيث أصبحت المؤسسات تدرك أهمية تحليل البيانات فوريا في تطوير خدماتها أو منتجاتها أوما يتعلق بأي منهما. من هنا ظهر علم (streaming feature selection) والذي يعتبر أحد التخصصات المدرجة في مجال معالجة البيانات المتدفقة، حيث تعتبر بيانات متدفقة بصورة هائلة يصعب التنبؤ بحجمها أو حتى حصرها. تشكل عملية فرز البيانات الخطوة الأولى في اختيار المفيد منها بطريقة علمية مقنّنة، وذلك لتحقيق هدف اكتشاف الحقائق الخفية في قواعد البيانات. في الآونة الأخيرة برزت كفاءة وأهمية (feature grouping) في تعزيز قدره (feature selection) الانتقائية، حيث تعتمد فكرته على تجميع (features) إلى مجموعات أصغر وانتقاء الأكثر فائدة من بينها. في هذا البحث سوف نتناول مشكلة البيانات الضخمة المتولدة والمتدفقة بشكل مستمر، بالإضافة إلى كيفية فرز هذه البيانات فوري ا،ً وذلك للمساهمة في دعم اتخاذ القرارات التنفيذية المستقبلية. يقدم البحث حلاً لعملية فرز هذه البيانات، بحيث يعتمد على مفهوم التجميع للميزات المتدفقة. بداية تعرض الدراسة الأدبية في بحثنا هذا مسح ا دقيق ا لنظريات ونماذج تم جمع بياناتها من الدوريات والنشرات الرسمية وبعض المصادر العلمية الأخرى، بالإضافة إلى بعض الخوارزميات المعمول بها في مجال .(Streaming feature selection) كما ويستعرض البحث دراسة تجريبية مفصلة لغرض المقارنة وإثبات كفاءة الطريقة المقترحة عملي ا وذلك باستخدام بيانات مرجعية ومقارنتها بخوارزميات أخرى. حيث أظهرت النتائج أداءً فائقًا فيما يتعلق بدقة التنبؤ.

Included in

Data Science Commons

Share

COinS