Date of Award

6-2025

Document Type

Thesis

Degree Name

Master of Science in Chemical Engineering (MSChE)

Department

Chemical and Petroleum Engineering

First Advisor

Kaushik Sivaramakrishnan

Second Advisor

Munawar Shaik

Abstract

Traditional experimental approaches in industrial processes, such as Fourier Transform Infrared Spectroscopy (FTIR) spectroscopy, thermogravimetric analysis (TGA), and well-drilling operations, are often constrained by time, cost, and operational limitations. This research explores the application of data-driven Machine Learning (ML)-based predictive modeling to improve efficiency and reduce dependency on resource-intensive experimentation. The study develops ML models for three distinct processes: FTIR intensity prediction of bitumen thermal cracking products, thermal degradation of Medium-Density Fibreboard (MDF) using TGA data, and Rate of Penetration (ROP) prediction in petrochemical industry. Six algorithms: Linear Regression (LinReg), Partial Least Squares Regression (PLSR), Support Vector Regression (SVR), Gradient Boosting Regression (GBR), Random Forest (RF), and K-Nearest Neighbors (KNN) were evaluated across multiple scenarios. The models were assessed using metrics such as the coefficient of determination (R²) and Root Mean Squared Error (RMSE) to ensure both accuracy and generalization capabilities. All computational modeling, including data cleaning, feature engineering, ML modeling and Bayesian Optimization (BO), was performed using Python.

Results show that ensemble models, particularly GBR and RF, consistently outperformed other techniques in predictive accuracy and generalizability. In the FTIR analysis, GBR achieved 99.65% accuracy under an 80/20 data split, while RF yielded 94.37% accuracy when trained on lower temperatures and tested on unseen high temperatures. For the TGA data, RF achieved 100% test accuracies in oxidation and pyrolysis under full dataset splits, while GBR maintained strong performance in extrapolative scenarios achieving 98.91% accuracy for oxidation and 99.67% for pyrolysis when trained on lower heating rates and tested on higher ones. In ROP prediction, the GBR model reached 96.2% accuracy, outperforming empirical models such as the Bourgoyne and Young (BY) and Bingham models. The findings emphasize the importance of data distribution in training/testing splits, particularly when extrapolating to high-temperature conditions.

This study demonstrates the transformative potential of ML in enhancing predictive accuracy across various industrial systems. The integration of Python-based modeling, scenario-driven analysis, and advanced hyperparameter tuning through BO establishes a versatile framework for data-driven optimization. These outcomes support the broader adoption of ML in petrochemical and environmentally focused industries, offering pathways toward more sustainable, efficient, and intelligent process management.

Arabic Abstract


تطبيقات التعلم الآلي المعتمدة على البيانات للنمذجة التنبؤية في الأنظمة البتروكيميائية والبيئية المستدامة

تُعد الأساليب التجريبية التقليدية في العمليات الصناعية، مثل التحليل الطيفي بالأشعة تحت الحمراء بتحويل فورييه (FTIR)، والتحليل الحراري الوزن (TGA)، وعمليات حفر الآبار، محدودة من حيث الزمن والتكلفة والقيود التشغيلية. تستكشف هذه الدراسة تطبيق النمذجة التنبؤية المستندة إلى الذكاء الاصطناعي والتعلم الآلي (ML) المعتمد على البيانات لتحسين الكفاءة وتقليل الاعتماد على التجارب المكثفة والمكلفة. تم تطوير نماذج تعلم آلي لثلاث عمليات صناعية مختلفة: التنبؤ بشدة أطياف FTIR لنواتج التكسير الحراري للبيتومين، وتحليل الانحلال الحراري للوح الليفي متوسط الكثافة (MDF) باستخدام بيانات TGA، والتنبؤ بمعدل اختراق الابار (ROP) في الصناعة البتروكيميائية. تم تقييم ست خوارزميات وهي: الانحدار الخطي (LinReg)، والانحدار باستخدام المربعات الصغرى الجزئية (PLSR)، والانحدار بدعم المتجهات (SVR)، والانحدار المعزز التدرجي (GBR)، وغابة القرارات العشوائية (RF)، وأقرب الجيران (KNN) عبر سيناريوهات متعددة. تم تقييم أداء النماذج باستخدام مؤشرات مثل معامل التحديد (R²) وجذر متوسط الخطأ التربيعي (RMSE) لضمان الدقة وقابلية التعميم. وقد تم تنفيذ جميع مهام النمذجة الحاسوبية، بما في ذلك تنظيف البيانات، وهندسة الميزات، والنمذجة، وتحسين المعاملات عبر التحسين البايزي، باستخدام لغة البرمجة Python.

أظهرت النتائج أن النماذج القائمة على التعلم الجماعي، وخاصة خوارزميتي GBR وRF، تفوقت باستمرار على غيرها من التقنيات من حيث دقة التنبؤ والقدرة على التعميم. في تحليل بيانات FTIR، حققت خوارزمية GBR دقة بلغت 99.65% باستخدام تقسيم 20/80 للبيانات، في حين حققت RF دقة 94.37% عند التدريب على درجات حرارة منخفضة والاختبار على درجات حرارة عالية لم يتم اختبارها على النموذج مسبقًا. وبالنسبة لبيانات TGA، حققت RF دقة اختبار بلغت 100% في ظروف الأكسدة والانحلال الحراري عند استخدام المجموعة الكاملة من البيانات، بينما حافظت GBR على أداء قوي في السيناريوهات الاستقرائية، حيث حققت دقة 98.91% في الأكسدة و99.67% في الانحلال الحراري عند التدريب على معدلات تسخين منخفضة والاختبار على معدلات أعلى. أما في التنبؤ بـROP، فقد وصلت GBR إلى دقة 96.2%، متفوقة بذلك على النماذج التجريبية التقليدية مثل نموذج بورغوين ويونغ (BY) ونموذج بنغهام .

تُبرز هذه الدراسة الإمكانيات الفائقة لتقنيات التعلم الآلي في تعزيز دقة التنبؤ عبر أنظمة صناعية متعددة. إن دمج اللغة الحاسوبية Python لنمذجة السيناريوهات وتحليلها، إلى جانب تحسين المعاملات الفائقة باستخدام التحسين البايزي، يوفر إطارًا مرنًا للتحسين القائم على البيانات. وتدعم هذه النتائج التوسع في اعتماد تقنيات التعلم الآلي في الصناعات البتروكيميائية والبيئية، مما يوفر مسارات نحو إدارة عمليات أكثر استدامة وكفاءة وذكاءً .

COinS