Date of Award

Summer 6-2015

Document Type

Dissertation

Degree Name

Doctor of Philosophy (PhD)

Department

Intelligent Systems

First Advisor

Dr. Nazar Zaki

Second Advisor

Dr. Hany Al Ashwal

Third Advisor

Professor Amr Amin

Abstract

Protein chains are generally long and consist of multiple domains. Domains are the basic elements of protein structures that can exist, evolve, and function independently. The accurate and reliable identification of protein domains and their interactions has very important impacts in several protein research areas. The accurate prediction of protein domains is a fundamental stage in both experimental and computational proteomics. The knowledge of domains is an initial stage of protein tertiary structure prediction which can give insight into the way in which proteins work. The knowledge of domains is also useful in classifying proteins, understanding their structures, functions and evolution, and predicting proteinprotein interactions (PPI). However, predicting structural domains within proteins is a challenging task in computational biology. A promising direction of domain prediction is detecting inter-domain linkers and then predicting the reigns of the protein sequence in which the structural domains are located accordingly. Protein-protein interactions occur at almost every level of cell function. The identification of interaction among proteins and their associated domains provide a global picture of cellular functions and biological processes. It is also an essential step in the construction of PPI networks for human and other organisms. PPI prediction has been considered as a promising alternative to the traditional drug design techniques. The identification of possible viral-host protein interactions can lead to a better understanding of infection mechanisms and, in turn, to the development of several medication drugs and treatment optimization. In this work, a compact and accurate approach for inter-domain linker prediction is developed based solely on protein primary structure information. Then, inter-domain linker knowledge is used in predicting structural domains and detecting PPI. The research work in this dissertation can be summarized in three main contributions. The first contribution is predicting protein inter-domain linker regions by introducing the concept of amino acid compositional index and refining the prediction by using the Simulated Annealing optimization technique. The second contribution is identifying structural domains based on inter-domain linker knowledge. The inter-domain linker knowledge, represented by the compositional index, is enhanced by the incorporation of biological knowledge, represented by amino acid physiochemical properties, to develop a well-optimized Random Forest classifier for predicting novel domains and inter-domain linkers. In the third contribution, the domain information knowledge is utilized to predict protein-protein interactions. This is achieved by characterizing structural domains within protein sequences, analyzing their interactions, and predicting protein interactions based on their interacting domains. The experimental studies and the higher accuracy achieved is a valid argument in favor of the proposed framework.

Comments

السلاسل البروتينية غالبا ما تكون طويلة وتتكون من عدة نطاقات بنائية وتعرف النطاقات بأنها الوحدات الأساسية في بناء البروتينات والتي بامكانها التطور ،)domains protein ( وأداء المهام باستقلالية، وان تحديد مواقع نطاقات البروتينات وتفاعلاتها البينية بطريقة دقيقة وموثوقة لذو أهمية بالغة في مجالات عديدة من البحوث المتعلقة )interactions خطوة أساسية )domain linkers( بالبروتينات، ويعتبر التنبؤ الدقيق بمواقع روابط النطاقات في كل من الأساليب المعملية والحاسوبية في الدراسات المتعلقة بالبروتينات، ان معرفة نطاقات البروتينات له دور هام في التعرف على الهياكل البنائية لهذه البروتينات وكيفية عملها وتصنيفها غير أن التنبؤ بتحديد مواقع ،)protein-protein interactions( والتنبؤ بتفاعلاتها البينية النطاقات يعتبر مهمة صعبة في علم الأحياء الحاسوبي، وان هناك توجه واعد لتحديد مواقع النطاقات من خلال اكتشاف مواقع روابط هذه النطاقات. وتتفاعل البروتينات فيما بينها على جميع مستويات الوظائف الحيوية للخلايا، وان تحديد التفاعلات البينية للبروتينات والنطاقات المتعلقة بهذه التفاعلات ليوفر صورة شاملة لوظائف الخلايا الحية والعمليات الحيوية، كما أنه يعتبر خطوة أساسية في انشاء شبكات التفاعلات البينية للبروتينات في الانسان وسائر الكائنات الحية، وقد أصبح التنبؤ بالتفاعلات البينية للبروتينات بديلا واعدا للأساليب التقليدية في صناعة الأدوية ، كما أن تحديد التفاعلات بين بروتينات الشخص المريض والفيروسات المسببة للمرض قد يؤدي الى فهم أعمق لآليات العدوى، وبالتالي الى تطويرالعقاقير الطبية وتحسين أساليب العلاج. وقد قمنا في هذا العمل بتطوير طريقة دقيقة وفعالة تجمع ما بين التنبؤ بمواقع النطاقات البنائية وروابطها والتنبؤ بالتفاعلات البينية للبروتينات من خلال معرفة سلاسل الأحماض الأمينية لهذه البروتينات، ويمكن ايجاز هذا العمل في ثلاثة اسهامات رئيسة، ويتمثل الاسهام الأول في التنبؤ بمواقع روابط النطاقات من خلال تقديمنا لمفهوم المؤشر التركيبي للأحماض الأمينية ومن ثم تحسين هذا التنبؤ باستخدام أسلوب محاكاة ،)amino acid compositional index( ix ويتمثل الاسهام الثاني في التنبؤ بمواقع النطاقات ،)Simulated Annealing( تقوية المعادن البنائية بناء على معرفة مواقع روابط هذه النطاقات، فمواقع الروابط ممثلة بالمؤشر التركيبي للأحماض الأمينية يتم تعزيزها بقيمة بيولوجية ممثلة بالخصائص الفيزيوكيميائية للأحماض الأمينية، لبناء مصنف الغابة العشوائية )physiochemical properties( للتنبؤ بمواقع النطاقات البنائية، ويتمثل الاسهام الثالث في )Random Forest classifier( الاستفادة من معرفة النطاقات في التنبؤ بالتفاعلات البينية للبروتينات عن طريق تحليل التفاعلات المحتواة في هذه البروتينات ، وقد أثبتت )domain-domain interactions( البينية للنطاقات الدراسات التجريبية على دقة التنبؤ العالية لهذا الإطار المقترح.

Share

COinS