Date of Award
11-2025
Document Type
Thesis
Degree Name
Master of Science in Information Technology Management
Department
Information Systems and Security
First Advisor
Nazar Zaki Siedahmed
Abstract
Increasing numbers of applications have revealed limitations in legacy keyword-filtering-based Applicant Tracking Systems (ATS), which commonly overlook candidate potential and ignore contextual or transferable skills. Advances in Natural Language Processing (NLP) and Large Language Models (LLMs) offer an exhilarating alternative, supporting context-sensitive and human-crafted reasoning in candidate evaluation. This thesis systematically evaluates four classes of approaches, lexical models, embedding-based methods, Large Language Models (LLMs), and hybrid ensembles, for automation of Curriculum Vitae (CV) to Job Description (JD) matching without exploiting prior annotations or annotations at match time. Using a combination of publicly available datasets and real-world sample data covering three technical roles, human raters established ground-truth rankings as baselines to measure performance against. We discovered that lexical models achieved efficiency at the loss of poor correlation to human judgment, while embedding‑based models, including Sentence‑BERT (SBERT) and Masked and Permuted Network (MPNet), raised semantic similarity but did not offer evaluative reasoning.
Large Language Models showed superior correlation to human ranking, reaching high accuracy and contextual comprehension, in spite of results being input-sensitive and computationally costly. The paper offers empirical insights into prompt engineering, hybrid modeling, and awareness of fairness, and identifies a pivotal role for LLMs in revolutionizing recruitment practice. It concludes that, despite being able to simulate recruiter judgments, hybrid systems outperform and provide stability, and lay foundations for scalable, transparent, and ethically responsible recruitment technologies.
Arabic Abstract
تقييم نماذج اللغات الكبيرة لتصنيف السيرة الذاتية آليًا: نهج تضمين هجين لتحسين التوظيف
كشف التزايد المستمر في أعداد طلبات التوظيف عن وجود قيود في أنظمة تتبّع المتقدّمين التقليدية القائمة على تصفية الكلمات المفتاحية، والتي غالبًا ما تتجاهل إمكانات المرشحين وتتغافل عن المهارات السياقية أو القابلة للنقل. تُقدّم التطورات الحديثة في مجال معالجة اللغة الطبيعية ونماذج اللغة الكبيرة بديلً واعدًا يدعم التفكير الحسّاس للسياق والمستند إلى منطق أقرب للتفكير البشري في عملية تقييم المرشحين.
تُقيّم هذه الأطروحة منهجيًا أربع فئات من المناهج: النماذج المعجمية، والأساليب القائمة على التضمين، ونماذج اللغة الكبيرة، والمناهج الهجينة، بهدف أتمتة عملية مطابقة السيرة الذاتية مع الوصف الوظيفي دون الحاجة إلى استخدام بيانات مشروحة مسبقًا أو أثناء المطابقة. باستخدام مزيج من مجموعات بيانات متاحة للعامة وبيانات واقعية تغطي ثلثة أدوار تقنية، وضع المُقيّمون البشريون تصنيفات معيارية تُستخدم كأساس لقياس الأداء.
أظهرت النتائج أن النماذج المعجمية حققت كفاءة عالية لكنها أظهرت ضعفًا في الارتباط بالحكم البشري، بينما حسّنت النماذج القائمة على التضمين من التشابه الدلالي لكنها لم تُقدّم استدلالًا تقييميًا. في المقابل، أظهرت نماذج اللغة الكبيرة ارتباطًا أقوى بتصنيفات البشر، محققةً دقةً مرتفعةً وفهمًا سياقيًا عميقًا، رغم حساسيتها للمدخلت وتكلفتها الحسابية العالية .
تُقدّم هذه الدراسة رؤىً تجريبية حول هندسة التعليمات، والنمذجة الهجينة، والعدالة في التوظيف، وتُبرز الدور المحوري لنماذج اللغة الكبيرة في إحداث ثورة في ممارسات التوظيف الحديثة. وتخلص إلى أن الأنظمة الهجينة — رغم قدرة نماذج اللغة الكبيرة على محاكاة أحكام مسؤولي التوظيف — تُظهر أداءً أكثر استقرارًا، وتضع أسسًا لتقنيات توظيف قابلة للتوسّع، وشفافة، ومسؤولة أخلقيًا.
Recommended Citation
Alhindaassi, Sarah Mohamed, "EVALUATING LARGE LANGUAGE MODELS FOR AUTOMATED CV RANKING: A HYBRID EMBEDDING APPROACH FOR ENHANCED RECRUITMENT" (2025). Theses. 1400.
https://scholarworks.uaeu.ac.ae/all_theses/1400