"A SECURE AND EFFECTIVE FRAMEWORK FOR KEY CONCEPT MINING FROM EDUCATION" by Ashika Sameem Abdul Rasheed

Date of Award

11-2024

Document Type

Thesis

Degree Name

Master of Science in Information Security

Department

Information Systems and Security

First Advisor

Mohammad Mehedy Masud

Abstract

This thesis examines the use of Large Language Models (LLMs) in education, with a focus on improving performance and implementing strong security measures. The research has two main goals, namely, the development of an effective lecture summarization technique using LLMs and identifying and addressing security vulnerabilities in LLM applications according to OWASP (Open Web Application Security Project) guidelines. For the former goal, we have proposed an effective framework for fine-tuning LLMs using real lecture datasets and compared the performance of different LLMs. For the latter goal, we conducted a thorough review of the application dataflow of the proposed framework and revealed several vulnerabilities, categorized as high risk, medium risk, and low risk. We also propose countermeasures to these vulnerabilities and demonstrate their efficacy. Thus, this study suggests a framework for securely integrating LLMs into educational purposes, tackling critical security concerns while harnessing the models' efficiency.

Arabic Abstract


إطار عمل آمن وفعال لاستخراج المفاهيم الأساسية من المحتوى التعليمي باستخدام نماذج اللغات الكبيرة

تدرس هذه الأطروحة استخدام نماذج اللغة الكبيرة (LLMs) في التعليم، مع التركيز على تحسين الأداء وتنفيذ تدابير أمنية قوية. للبحث هدفان رئيسيان، وهما تطوير تقنية فعالة لتلخيص المحاضرات باستخدام نماذج اللغة الكبيرة وتحديد نقاط الضعف الأمنية في تطبيقات نماذج اللغة الكبيرة ومعالجتها وفقًا لإرشادات OWASP (مشروع أمان تطبيقات الويب المفتوحة). بالنسبة للهدف الأول، اقترحنا إطارًا فعالًً لضبط نماذج اللغة الكبيرة باستخدام مجموعات بيانات المحاضرات الحقيقية وقارنا أداء نماذج اللغة الكبيرة المختلفة. بالنسبة للهدف الأخير، أجرينا مراجعة شاملة لتدفق بيانات التطبيق للإطار المقترح وكشفنا عن العديد من نقاط الضعف، المصنفة على أنها عالية الخطورة ومتوسطة الخطورة ومنخفضة الخطورة. نقترح أيضًا تدابير مضادة لهذه نقاط الضعف ونوضح فعاليتها. وبالتالي، تقترح هذه الدراسة إطارًا لدمج نماذج اللغة الكبيرة بشكل آمن في الأغراض التعليمية، ومعالجة المخاوف الأمنية الحرجة مع الًستفادة من كفاءة النماذج.

COinS