Date of Award

5-2024

Document Type

Dissertation

Degree Name

Doctor of Philosophy in Geosciences

Department

Geosciences

First Advisor

Ala Aldahan

Abstract

Groundwater is a vital global resource, yet mapping and managing aquifers remains challenging due to costs and complexities. This doctoral dissertation pioneers novel data-driven methodologies harnessing machine learning and hydrogeology domain knowledge to sustainably characterize and monitor aquifer systems. The overarching hypothesis investigated is that time series clustering of historical well hydrographs can enable low-cost delineation of aquifer boundaries by detecting response similarities between wells sharing the same aquifer. To test this, three interconnected studies were conducted. First, a specialized time series clustering framework was developed incorporating a global temporal alignment index and custom dissimilarity metrics tuned for hydrogeology. The modular architecture leverages a set of preprocessing techniques to handle real-world data inconsistencies like gaps and outliers, along with agglomerative hierarchical clustering to handle the following steps. Optimization identified parameters that maximized accuracy. The approach was validated on a regional dataset of the major aquifers in the state of Texas, USA. Proving the framework’s ability to accurately group wells into their respective aquifer clusters.

A key challenge was visualizing the clustering outputs as interpretable aquifer maps. To address this, a second study developed GeoZ, an open-source Python library for geographical mapping of clustering algorithms outputs. GeoZ trains classifiers like support vector machines on spatial coordinates to predict cluster decision zones, which can be plotted as estimated aquifer outlines. This provides intuitive visualization of subsurface patterns. GeoZ was tested on California's groundwater basins to demonstrate its applicability.

The third study explored integrating the clustering algorithms and mapping techniques with hydrogeochemical analysis to maximize insights from multifaceted groundwater datasets. The workflow was applied to characterize aquifer systems in the United Arab Emirates (UAE). Machine learning models were developed and tested to impute any missing hydrogeochemical parameters. K-Means clustering was then used to elucidate aquifer zonation, relationships, recharge sources, and surface-subsurface interactions based on major ion chemistry and radon concentrations. Spatially mapping the multivariate clustering results revealed new knowledge of hydrogeological characteristics and connections across the arid region.

The data-driven analysis frameworks advanced in this dissertation establish the feasibility and value of leveraging machine learning methods to cost-effectively map aquifer architectures and properties solely from groundwater hydrographs and geochemistry data, without requiring expensive geophysical surveys. The transferable techniques unlock the potential of historical monitoring records to illuminate subsurface hydrogeology, empowering groundwater management even where resources are limited. The open-source time series clustering and visualization tools developed provide a foundation for the emerging field of computational hydrogeology.

While the methods exhibited promising capabilities, limitations were also identified. The clustering algorithm requires lengthy historical records to achieve suitable effectiveness or reliability in identifying distinct aquifer boundaries. Performance is sensitive to hyperparameter settings and optimization is computationally intensive. The 2D analysis cannot yet incorporate structural heterogeneity or ancillary data like geology. Further testing across diverse aquifer systems is needed to evaluate generalizability and validate advantages over conventional techniques.

Multiple opportunities exist to advance the novel approaches. Foremost is reducing data requirements by enhancing the similarity metrics, temporal alignments, and outlier handling components. Extending the analysis to 3D and incorporating supplementary variables could boost accuracy. Delineating both regional aquifers and local-scale hydrogeological units would expand applicability. Creating a python library of the framework would disseminate it much further and increase its adaptability.

This novel research at the intersection of data science and hydrogeology exemplifies the burgeoning potential for machine learning to revolutionize groundwater studies and management. The techniques provide new capabilities to illuminate critical aquifers and support evidence-based sustainability policies. By integrating domain knowledge into flexible data- driven frameworks, the methods can continue maturing and unlocking actionable insights from the rising flood of global hydrological information. Collaboration between hydrogeologists, mathematicians, and computer scientists will be key to fully realizing the vast benefits of computational water science. The accessible, scalable analytics developed in this dissertation offer an important step towards data-driven stewardship of Earth's vital groundwater resources.

Arabic Abstract

مسح الخفي: أساليب التعلم الآلي والتصوير الجغرافي لإدارة المياه الجوفية

تعد المياه الجوفية مورداً عالمياً حيوياً، إلا أن رسم خرائط طبقات المياه الجوفية وإدارتها لا يزال يمثل تحدياً بسبب التكاليف والتعقيدات. تقدم أطروحة الدكتوراه هذه منهجيات جديدة تعتمد على البيانات لتسخير التعلم الآلي والمعرفة بمجال الهيدروجيولوجيا لتوصيف ومراقبة أنظمة طبقات المياه الجوفية بشكل مستدام.

تتمثل الفرضية الرئيسية التي تم بحثها في أن تشكيل السلاسل الزمنية لهيدروغرافات الآبار التاريخية يمكن أن يتيح ترسيم حدود خزانات المياه الجوفية بتكلفة منخفضة من خلال الكشف عن أوجه التشابه في الاستجابة بين الآبار التي تشارك خزان المياه الجوفية ذاته. ولاختبار ذلك، تم إجراء ثلاث دراسات مترابطة. أولاً، تم تطوير إطار تجميع سلاسل زمنية متخصص يتضمن مؤشر محاذاة زمنية عام ومقاييس تباين مخصصة تم مواءمتها لتناسب علم المياه الجوفية. توظف البنية التركيبية تجميعاً هرمياً تكيفياً لمعالجة تناقضات البيانات في العالم الحقيقي مثل الفجوات والقيم المتطرفة. حدّد التحسين المتكرر من مستوى الدقة إلى الحد الأقصى. وقد تم التثبت من صحة هذا النهج في قاعدة بيانات إقليمية لخزانات المياه الجوفية الرئيسية في تكساس، مما يثبت إمكانية تجميع الآبار بدقة في مجموعات خزانات المياه الجوفية الخاصة بها.

وقد شكل تصوير مخرجات التكتلات الإحصائية كخرائط خزانات مياه جوفية قابلة للتفسير أحد التحديات الرئيسية. ولمعالجة هذه الإشكالية، قامت دراسة ثانية بتطوير GeoZ، وهي مكتبة بايثون مفتوحة المصدر لرسم الخرائط الجغرافية لمخرجات خوارزميات التجميع. تقوم GeoZ بتدريب مصنفات مثل آلة المتجه الداعم على إحداثيات مكانية للتنبؤ بمناطق قرار التكتلات، والتي يمكن رسمها كخرائط تقديرية لحدود خزانات المياه الجوفية. ويوفر ذلك تصوراً بديهياً لأنماط الطبقات تحت سطح الأرض. تم اختبار GeoZ على أحواض المياه الجوفية في كاليفورنيا لإثبات قابليتها للتطبيق.

استكشفت الدراسة الثالثة دمج خوارزميات التجميع وتقنيات رسم الخرائط مع التحليل الهيدروكيميائي بهدف الاستفادة القصوى من قواعد بيانات المياه الجوفية متعددة الأوجه. طُبّق سير العمل لتوصيف أنظمة خزانات المياه الجوفية في الإمارات العربية المتحدة. تم تطوير واختبار نماذج التعلم الآلي لتعويض أي متغيرات هيدروكيميائية مفقودة. وقد تم استخدام تكتل K-Means بعد ذلك لتوضيح مناطق خزانات المياه الجوفية والعلاقات ومصادر التغذية والتفاعلات ما بين السطح وتحت السطح بناءً على كيمياء الأيونات الرئيسية وتركيزات الرادون. وكشفت رسم الخرائط المكانية لنتائج التكتل متعدد المتغيرات عن معرفة ورؤى جديدة في الخصائص الهيدروجيولوجية والعلاقات فيما بينها عبر المنطقة القاحلة.

يحدد إطار التحليل القائم على البيانات المقدم في هذه الأطروحة جدوى وقيمة الاستفادة من التعلم الآلي لرسم خرائط فعالة من حيث التكلفة لبنية خزان المياه الجوفية وخصائصها فقط من هيدروغرافات المياه الجوفية والبيانات الجيوكيميائية، دون الحاجة إلى مسوحات جيوفيزيائية مكلفة. تفتح هذه التقنيات القابلة للنقل إمكانات سجلات المراقبة التاريخية لإلقاء الضوء على المياه الجوفية، مما يعزز إدارة المياه الجوفية حتى عندما تكون الموارد محدودة. توفر أدوات تكتل وتصوير السلاسل الزمنية مفتوحة المصدر التي تم تطويرها قاعدة لمجال الهيدروجيولوجيا الحسابية الناشئ.

في حين أظهرت هذه الأساليب قدرات واعدة، فقد تم تحديد بعض أوجه قصورها أيضاً. يتطلب التجميع حالياً سجلات تاريخية طويلة لتحقيق الدقة المناسبة. كما أن الأداء يتسم بالحساسية لإعدادات المتغيرات الفائقة ويستلزم تحسينات حسابية مكثفة. لا يمكن للتحليل ثنائي الأبعاد أن يدمج حتى الآن التباين الهيكلي أو أي بيانات إضافية مثل البيانات الجيولوجية. هناك حاجة إلى إجراء المزيد من الاختبارات عبر أنظمة متنوعة من خزانات المياه الجوفية لتقييم قابلية التعميم والتحقق من مزاياها مقارنة بالتقنيات التقليدية.

توجد العديد من الفرص لتطوير المنهجيات المستخدمة، لا سيما في مقدمتها تقليل متطلبات البيانات من خلال تحسين مقاييس التشابه والمحاذاة الزمنية ومكونات التعامل مع العناصر الشاذة أو المتطرفة. كما أن توسيع نطاق التحليل إلى ثلاثة أبعاد ودمج المتغيرات التكميلية قد يؤدي إلى تعزيز الدقة. ومن شأن تحديد كل من خزانات المياه الجوفية الإقليمية والوحدات الهيدروجيولوجية على المستوى المحلي أن يوسع نطاق التطبيق. إن إنشاء مكتبة بايثون لإطار العمل من شأنه أن ينشره بشكل أكبر ويزيد من إمكانية استخدامه.

یجسد ھذا البحث الرائد في تقاطع علم البیانات و الھیدروجیولوجیا الإمكانات المتنامیة للتعلم الآلي لإحداث ثورة في دراسات المیاه الجوفیة وإدارتھا. توفر التقنیات إمكانیات جدیدة لإلقاء الضوء على خزانات المیاه الجوفیة الحساسة ودعم سیاسات الاستدامة القائمة على الأدلة. ومن خلال دمج معرفة المجال في أطر عمل مرنة تعتمد على البیانات، یمكن أن تستمر الأسالیب في النضج وإطلاق رؤى قابلة للتنفیذ من الفیض المتزاید من المعلومات الھیدرولوجیة العالمیة. سیكون التعاون بین علماء الھیدروجیولوجیا المائیة وعلماء الریاضیات وعلماء الحاسو ب عاملا أساسیاً لتحقیق الفوائد الھائلة لعلوم المیاه الحاسوبیة بشكل كامل. تقدم التحلیلات التي یسھل الوصول إلیھا والقابلة للتطویر في ھذه الأطروحة خطوة مھمة نحو الإشراف القائم على بیانات موارد المیاه الجوفیة الحیویة للأرض.

Included in

Geology Commons

Share

COinS