"TRANSFORMER-BASED DEEP LEARNING MODEL FOR SIGN LANGUAGE RECOGNITION" by Ganzorig Batnasan

Date of Award

4-2024

Document Type

Thesis

Degree Name

Master of Science in Electrical Engineering (MSEE)

Department

Electrical and Communication Engineering

First Advisor

Dr. Qurban Ali Andal

Second Advisor

Dr. Munkhjargal Gochoo

Abstract

Sign language recognition research aims to develop systems and tools that can interpret and translate sign language into text or spoken language. During the past two decades, the challenges faced in this domain are multifaceted. The first and foremost challenge is the complexity of sign language, which includes intricate hand gestures, facial expressions, and body movements. Recognizing and interpreting these components accurately is challenging. The second challenge is variability among different regions and communities, leading to variations in signs and gestures. This variability poses a challenge for developing universal recognition systems.
Limited data is another challenge which makes it difficult to train accurate recognition models. This scarcity of data hinders the performance and generalization of machine learning algorithms. Sign language communication often occurs in real-time, requiring recognition systems to process gestures quickly and accurately. Achieving real-time performance adds complexity to the design of recognition systems.
Some signs may have multiple meanings depending on context or subtle differences in execution. Disambiguating these signs accurately is crucial for reliable recognition. Furthermore, sign languages incorporate non-manual components such as facial expressions and body posture, which convey important linguistic information. Integrating these components into recognition systems poses additional challenges.
Sign language recognition systems may perform differently for different users based on factors such as signing speed, style, and proficiency. Developing systems that can adapt to individual users' signing characteristics is challenging. Additionally, deploying sign language recognition systems on hardware platforms with limited computational resources, such as mobile devices, presents challenges in achieving high performance while maintaining low latency.
This thesis on sign language recognition aims to address some challenges through various approaches. The foremost challenge addressed in this thesis is reduction in accuracy that uses transformer-based deep learning architecture in addition to preprocessing steps that include augmentations and transformations. The augmentations and transformation helped increase the data size. Specifically, in-house signs have been generated using different persons for initial results. The video frames generated included facial expressions and both fingers, which were later stacked. Later, the model was validated using generic sign languages to address. For producing results, the model was trained and assessed on a set of frames. The comparisons with existing works are tabulated. Based on comparative results, it was found out that the accuracy of the proposed model assessed on WLASL2000, and ASL-Citizen datasets is higher than the state-of-the art models.

Arabic Abstract


نموذج التعلم العميق القائم على المحولات للتعرف على لغة الإشارة

تهدف أبحاث التعرف على لغة الإشارة إلى تطوير الأنظمة والأدوات التي يمكنها تفسير لغة الإشارة وترجمتها إلى نص أو لغة منطوقة. خلال العقدين الماضيين، كانت التحديات التي تمت مواجهتها في هذا المجال متعددة الأوجه. التحدي الأول والأهم هو تعقيد لغة الإشارة، والتي تتضمن إيماءات اليد المعقدة، وتعبيرات الوجه، وحركات الجسم. يعد التعرف على هذه المكونات وتفسيرها بدقة أمرًا صعبًا. التحدي الثاني هو التباين بين المناطق والمجتمعات المختلفة، مما يؤدي إلى اختلافات في الإشارات والإيماءات. يشكل هذا التباين تحديًا أمام تطوير أنظمة الاعتراف العالمية.
وتشكل البيانات المحدودة تحديًا آخر يجعل من الصعب تدريب نماذج التعرف الدقيقة. تعيق ندرة البيانات أداء وتعميم خوارزميات التعلم الآلي. غالبًا ما يحدث التواصل بلغة الإشارة في الوقت الفعلي، مما يتطلب أنظمة التعرف على معالجة الإيماءات بسرعة ودقة. يضيف تحقيق الأداء في الوقت الفعلي تعقيدًا إلى تصميم أنظمة التعرف.
قد يكون لبعض العلامات معاني متعددة اعتمادًا على السياق أو الاختلافات الدقيقة في التنفيذ. إن توضيح هذه العلامات بدقة أمر بالغ الأهمية للتعرف عليها بشكل موثوق. علاوة على ذلك، تتضمن لغات الإشارة مكونات غير يدوية مثل تعابير الوجه ووضعية الجسم، والتي تنقل معلومات لغوية مهمة. ويطرح دمج هذه المكونات في أنظمة التعرف تحديات إضافية.
قد تختلف أنظمة التعرف على لغة الإشارة باختلاف المستخدمين بناءً على عوامل مثل سرعة التوقيع والأسلوب والكفاءة. يعد تطوير الأنظمة التي يمكنها التكيف مع خصائص التوقيع الخاصة بالمستخدمين الفرديين أمرًا صعبًا. بالإضافة إلى ذلك، فإن نشر أنظمة التعرف على لغة الإشارة على منصات الأجهزة ذات الموارد الحسابية المحدودة، مثل الأجهزة المحمولة، يمثل تحديات في تحقيق الأداء العالي مع الحفاظ على زمن الوصول المنخفض.
تهدف هذه الأطروحة حول التعرف على لغة الإشارة إلى معالجة بعض التحديات من خلال أساليب مختلفة. التحدي الرئيسي الذي تتناوله هذه الأطروحة هو تقليل الدقة التي تستخدم بنية التعلم العميق القائمة على المحولات بالإضافة إلى خطوات المعالجة المسبقة التي تشمل التعزيزات والتحويلات. ساعدت التعزيزات والتحويلات على زيادة حجم البيانات. وعلى وجه التحديد، تم إنشاء علامات داخلية باستخدام أشخاص مختلفين للحصول على النتائج الأولية. تضمنت إطارات الفيديو التي تم إنشاؤها تعبيرات الوجه وكلا الأصابع، والتي تم تجميعها لاحقًا. وفي وقت لاحق، تم التحقق من صحة النموذج باستخدام لغات الإشارة العامة للتخاطب. للحصول على النتائج، تم تدريب النموذج واختباره على مجموعة من الإطارات. يتم جدولة المقارنات مع الأعمال الموجودة. وبناء على نتائج المقارنة، تبين أن دقة النموذج المقترح الذي تم اختباره على مجموعات بيانات WLASL2000 و ASL-Citizen أعلى من النماذج الحديثة.

COinS