A Partial Replication Load Balancing Technique for Distributed Data as a Service on the Cloud

Klaithem Saeed AI Nuaimi

توفير البيانات كخدمة هو نموذج هام على السحابة، توفر هذه الخدمة عملاء مع أنواع مختلفة من الملفات الكبيرة ومجموعات البيانات في مجالات مثل التمويل، والعلوم، والصحة، والجغرافيا، والفلك، وغيرها الكثير. وهذا يشمل جميع أنواع الملفات بأحجامها التي تتفاوت عن بضعة كيلوبايت إلى مئات تيرابايت. يمكن وتوفير هذه البيانات باستخدام مركز بيانات في موقع جغرافي واحد أو استخدام مراكز البيانات متعددة تقع في مواقع مختلفة تتصل عادة عبر الإنترنت وتسمى خدمة البيانات الموزعة. وبما أن هناك الملايين من المستخدمين ومليارات من الملفات، يجب على مقدمي الخدمة ضمان سرعة وجودة وفعالية خدماتهم. وضمان هذه المتطلبات يجب القيام به بالنظر أيضا في التكلفة المرتبطة بها والتي سيتم تنفيذها من قبل مزود الخدمة وعلى الأرجح من قبل المستخدمين أيضا. النهج التقليدي المستخدم عادة لدعم عدد كبير من العملاء هو تكرار الخدمات على ملقمات مختلفة في مواقع مختلفة. وهذا يتطلب تكرارا كاملا لجميع مجموعات البيانات المخزنة، الأمر الذي يتطلب كمية كبيرة عن التخزين. وعليه فإن استهلاك التخزين الضخم يؤدي إلى زيادة التكاليف، التي يمكن ان تمنع إدخال مزيد من التحسينات من قبل مقدمي الخدمات. وبالإضافة إلى ذلك، فإن هناك أيضا زيادة تكاليف الاستخدام للعملاء. ولذلك، فإن الهدف من هذا البحث هو تقديم طريقة سريعة وفعالة للعملاء، مع تعزيز استهلاك التخزين على خوادم السحابة المستخدمة من قبل مقدمي خدمات البيانات. النهج الذي نقدمه فى هذا البحث هو تعاوني ثنائي الاتجاه لتحميل الملفات أو مجموعة البيانات كأقسام من جانب العميل، والتى من شأنها تعزيز سرعة عملية التحميل بشكل كبير. وعلاوة على ذلك، فإن تكرار جزئيا الأقسام ملف بين الخوادم السحابة باستخدام تحميل التجارب السابقة التي نحصل عليها لكل قسم. ونتيجة لذلك، فإن توليد أقسام جزئية من مجموعات البيانات سيكون أصغر من الحجم الإجمالي المطلوب إذا تم تخزين النسخ المتماثلة الكاملة على كل خادم. أسلوبنا يعمل بشكل تلقائي. وتعمل فقط عندما تكون هناك حاجة مزيد من التخزين. لذلك، يتم تنفيذ عمليات الإزالة للنسخة فقط عند الضرورة. قمنا بتقييم نهجنا ضد النهج القائمة الأخرى وأثبتت أنه يوفر تعزيزا لكل من الأداء تحميل واستهلاك التخزين. كما قمنا بتطوير وتحليل نموذج رياضي يدعم نهجنا والتحقق من صحته ودقته. ولذلك، فإننا نعتقد أنه يوفر نتائج واعدة في مجال موازنة التحميل والتخزين الأمثل لخدمات البيانات على السحابة.

Abstract

Data as a service (DaaS) is an important model on the Cloud, as DaaS provides clients with different types of large files and data sets in fields like finance, science, health, geography, astronomy, and many others. This includes all types of files with varying sizes from a few kilobytes to hundreds of terabytes. DaaS can be implemented and provided using multiple data centers located at different locations and usually connected via the Internet. When data is provided using multiple data centers it is referred to as distributed DaaS. DaaS providers must ensure that their services are fast, reliable, and efficient. However, ensuring these requirements needs to be done while considering the cost associated and will be carried by the DaaS provider and most likely by the users as well. One traditional approach to support a large number of clients is to replicate the services on different servers. However, this requires full replication of all stored data sets, which requires a huge amount of storage. The huge storage consumption will result in increased costs. Therefore, the aim of this research is to provide a fast, efficient distributed DaaS for the clients, while reducing the storage consumption on the Cloud servers used by the DaaS providers. The method I utilize in this research for fast distributed DaaS is the collaborative dual-direction download of a file or dataset partitions from multiple servers to the client, which will enhance the speed of the download process significantly. Moreover, I partially replicate the file partitions among Cloud servers using the previous download experiences I obtain for each partition. As a result, I generate partial sections of the data sets that will collectively be smaller than the total size needed if full replicas are stored on each server. My method is self-managed; and operates only when more storage is needed. I evaluated my approach against other existing approaches and demonstrated that it provides an important enhancement to current approaches in both download performance and storage consumption. I also developed and analyzed the mathematical model supporting my approach and validated its accuracy.