Theses

ENHANCING LLM CODE GENERATION: A SYSTEMATIC EVALUATION OF MULTI-AGENT COLLABORATION AND RUNTIME DEBUGGING FOR IMPROVING ACCURACY, RELIABILITY, AND LATENCY

Nazmus Ashrafi, United Arab Emirates UniversityFollow

Date of Award

10-2025

Document Type

Thesis

Degree Name

Master of Science in Software Engineering

Department

Computer Science and Software Engineering

First Advisor

Dr. Salah Boukif

Abstract

The use of large language models (LLMs) for automated code generation has emerged as a significant focus within AI research. As these pretrained models continue to evolve, their ability to understand and generate complex code structures has opened up new possibilities for automating intricate programming tasks with greater accuracy. Although contemporary foundational models demonstrate promising results, researchers continue to explore optimal post-training strategies to enhance code quality. These include supervised fine-tuning, retrieval-augmented generation (RAG), debugging, and many others. In this thesis, I combine two such widely used post training approaches—namely (1) multi agent collaboration and (2) runtime execution of information-based debugging—for improving code generation functionality, reliability, and practical applicability. I perform an empirical study to extend the evaluation of both individual strategies and their combined application. My study uses 19 LLMs to examine the performance of each strategy as well as their composition, o!ering comprehensive insights into how di!erent post training strategies influence code generation electiveness. In particular, I implement a chained system that integrates both strategies to assess their combined impact on functional accuracy, code reliability, and generation latency using two benchmark datasets commonly used for code generation. My findings provide valuable insights for organizations seeking robust AI driven coding solutions by guiding them in selecting models that can better adapt to complex post-training strategies—ultimately fostering the adoption of more e!ective and reliable code generation technologies. This research addresses the lack of extensive evaluation of post-training techniques designed to enhance code generation using large language models. By covering a broad range of LLMs, various approaches and various dimensions of evaluating LLM based approaches, such as code accuracy, generation latency and code rigorousness, I propose a comprenhensive framework to combine LLM code generation techniques and evaluate them thoroughly.

Arabic Abstract

تحسين توليد أكواد LLM: تقييم منهجي للتعاون متعدد الوكلاء وتصحيح الأخطاء أثناء التشغيل لتحسين الدقة والموثوقية ووقت الاستجابة

برز استخدام نماذج اللغات الكبيرة (LLMs) لتوليد الشيفرة البرمجية تلقائيًا كمحور تركيز رئيسي في أبحاث الذكاء الاصطناعي. ومع استمرار تطور هذه النماذج المدربة مسبقا، فإن قدرتها على فهم وتوليد هياكل شيفرة معقدة قد أتاحت إمكانيات جديدة لأتمتة مهام البرمجة المعقدة بدقة أكبر. على الرغم من أن النماذج الأساسية المعاصرة تظهر نتائج واعدة، يواصل الباحثون استكشاف استراتيجيات ما بعد التدريب المثلى لتحسين جودة الشيفرة. وتشمل هذه الاستراتيجيات الضبط الدقيق المشرف عليه، والتوليد المعزز بالاسترجاع (RAG)، وتصحيح الأخطاء، وغيرها الكثير. في هذه الرسالة، أجمع بين منهجين شائعي الاستخدام لما بعد التدريب - وهما (۱) التعاون متعدد الوكلاء و(۲) تنفيذ تصحيح الأخطاء القائم على المعلومات أثناء التشغيل - لتحسين وظائف توليد الشيفرة، وموثوقيتها، وإمكانية تطبيقها العملي. أجري دراسة تجريبية لتوسيع نطاق تقييم كل من الاستراتيجيات الفردية وتطبيقاتها المشتركة. تستخدم دراستي ۱۹ نموذجًا من نماذج اللغات الكبيرة لفحص أداء كل استراتيجية، بالإضافة إلى تركيبها ، مُقدِمةً رؤى شاملة حول كيفية تأثير استراتيجيات ما بعد التدريب المختلفة على فعالية توليد الشيفرة على وجه الخصوص، أطبق نظاما متسلسلا يدمج كلتا الاستراتيجيتين لتقييم تأثيرهما المشترك على دقة الوظائف، وموثوقية الكود، وزمن وصول التوليد، باستخدام مجموعتي بيانات معياريتين تُستخدمان عادةً لتوليد الكود. تقدم نتائجي رؤى قيمة للمؤسسات التي تسعى إلى حلول ترميز فعّالة قائمة على الذكاء الاصطناعي، من خلال توجيهها في اختيار نماذج تتكيف بشكل أفضل مع استراتيجيات ما بعد التدريب المتعقدة، مما يُعزّز في نهاية المطاف اعتماد تقنيات توليد كود أكثر فعالية وموثوقية. يُعالج هذا البحث نقص التقييم الموقع لتقنيات ما بعد التدريب المصممة لتحسين توليد الكود باستخدام نماذج لغوية كبيرة. من خلال تغطية مجموعة واسعة من برامج الماجستير في القانون (LLM)، ومناهج مختلفة، وأبعاد مختلفة لتقييم المناهج القائمة على LLM، مثل دقة الكود ، وزمن وصول التوليد، ودقة الكود، أقترح إطارا شاملا لدمج تقنيات توليد الكود في LLM وتقييمها بدقة.

Recommended Citation

Ashrafi, Nazmus, "ENHANCING LLM CODE GENERATION: A SYSTEMATIC EVALUATION OF MULTI-AGENT COLLABORATION AND RUNTIME DEBUGGING FOR IMPROVING ACCURACY, RELIABILITY, AND LATENCY" (2025). Theses. 1354.
https://scholarworks.uaeu.ac.ae/all_theses/1354

Download

Included in

Software Engineering Commons

COinS