Date of Award

6-2022

Document Type

Thesis

Degree Name

Master of Science in Electrical Engineering (MSEE)

Department

Electrical and Communication Engineering

First Advisor

Qurban A. Memon

Abstract

Predicting whether or not someone will get heart or cardiac disease is now one of the most difficult jobs in the area of medicine. Heart disease is responsible for the deaths of about one person per minute in the contemporary age. Processing the vast amounts of data that are generated in the field of healthcare is an important application for data science. Because predicting cardiac disease is a difficult undertaking, there is a pressing need to automate the prediction process to minimize the dangers that are connected with it and provide the patient with timely warning. The chapter one in this thesis report highlights the importance of this problem and identifies the need to augment the current technological efforts to produce relatively more accurate system in facilitating the timely decision about the problem. The chapter one also presents the current literature about the theories and systems developed and assessed in this direction.
This thesis work makes use of the dataset on cardiac illness that can be found in the machine learning repository at UCI. Using a variety of data mining strategies, such as Naive Bayes, Decision Tree, Support Vector Machine (SVM), K-Nearest Neighbor (K-NN), and Random Forest, the work that has been reported in this thesis estimates the likelihood that a patient would develop heart disease and can categorize the patient's degree of risk. The performance of chosen classifiers is tested on chosen feature space with help of feature selection algorithm. On Cleveland heart datasets of heart disease, the models were placed for training and testing. To assess the usefulness and strength of each model, several performance metrics are utilized, including sensitivity, accuracy, AUC, specificity, ROC curve and F1-score.

The effort behind this research leads to conduct a comparative analysis by computing the performance of several machine learning algorithms. The results of the experiment demonstrate that the Random Forest and Support Vector machine algorithms achieved the best level of accuracy (94.50% and 91.73% respectively) on selected feature space when compared to the other machine learning methods that were employed. Thus, these two classifiers turned out to be promising classifiers for heart disease prediction. The computational complexity of each classifier was also investigated. Based on the computational complexity and comparative experimental results, a robust heart disease prediction is proposed for an embedded platform, where benefits of multiple classifiers are accumulated. The system proposes that heart disease detection is possible with higher confidence if and only if many of these classifiers detect it. In the end, results of experimental work are concluded and possible future strategies in enhancing this effort are discussed.

Arabic Abstract

يعد التنبؤ بما إذا كان شخص ما سيصاب بأمراض القلب أو القلب الآن من أصعب الوظائف في مجال الطب. أمراض القلب مسؤولة عن وفاة حوالي شخص واحد في الدقيقة في العصر المعاصر. تعد معالجة الكميات الهائلة من البيانات التي يتم إنشاؤها في مجال الرعاية الصحية تطبيقًا مهمًا لعلوم البيانات. نظرًا لأن التنبؤ بأمراض القلب هو مهمة صعبة، فهناك حاجة ملحة لأتمتة عملية التنبؤ لتقليل المخاطر المرتبطة بها وتزويد المريض بالتحذير في الوقت المناسب. يسلط الفصل الأول في تقرير الأطروحة هذا الضوء على أهمية هذه المشكلة ويحدد الحاجة إلى زيادة الجهود التكنولوجية الحالية لإنتاج نظام أكثر دقة نسبيًا في تسهيل اتخاذ القرار في الوقت المناسب بشأن المشكلة. من ناحية أخرى، يقدم الفصل الثاني الأدبيات الحالية حول النظريات والأنظمة التي تم تطويرها وتقييمها في هذا الاتجاه .
تستخدم هذه الأطروحة مجموعة البيانات الخاصة بأمراض القلب التي يمكن العثور عليها في مستودع التعلم الآلي في UCI. باستخدام مجموعة متنوعة من استراتيجيات استخراج البيانات، مثل Naive Bayes و Decision Tree و Support Vector Machine (SVM) و K-Nearest Neighbor (K-NN) و Random Forest، فإن العمل الذي تم الإبلاغ عنه في هذه الأطروحة يقدر احتمالية ذلك قد يصاب المريض بأمراض القلب ويمكنه تصنيف درجة مخاطر المريض. يتم اختبار أداء المصنفات على مساحة ميزة محددة من خلال خوارزميات اختيار الميزة المختلفة. تم تدريب النماذج واختبارها على كليفلاند. يتم استخدام العديد من مقاييس الأداء وهي: الدقة، والحساسية، والنوعية، ومنحنى AUC ، و F1-Scor، و MCC، و ROC لمراقبة فعالية وقوة كل نموذج . الغرض من الجهد وراء هذا البحث هو تقديم تحليل مقارن عن طريق حساب أداء العديد من خوارزميات التعلم الآلي. أظهرت نتائج التجربة أن خوارزميات Random Forest و Support Vector قد حققت أفضل مستوى من الدقة (91.73% و 94.50%) على مساحة الميزة المختارة. عند مقارنتها بأساليب التعلم الآلي الأخرى المستخدمة. وهكذا، تبين أن هذين المصنفين من المصنفات الواعدة للتنبؤ بأمراض القلب. كما تم التحقيق في التعقيد الحسابي لكل مصنف. استنادًا إلى التعقيد الحسابي والنتائج التجريبية المقارنة، يُقترح تنبؤ قوي بأمراض القلب لمنصة مضمنة، حيث يتم تجميع فوائد كلا المصنفين. يقترح النظام أن أمراض القلب موجودة إذا وفقط إذا اكتشفها كلا المصنفين. في النهاية، يتم الانتهاء من نتائج العمل التجريبي ومناقشة الاستراتيجيات المستقبلية المحتملة لتعزيز هذا الجهد.

COinS