المعلوماتية الحيوية المتكاملة
يفتقر محتوى هذه المقالة إلى الاستشهاد بمصادر. (يناير 2022) |
هذه مقالة غير مراجعة.(أبريل 2019) |
المعلوماتية الحيوية التكاملية هي فرع من المعلوماتية الحيوية التي تركز على مشاكل تكامل البيانات لعلوم الحياة.
مع ظهور تقنيات الإنتاجية العالية (HTP) في علوم الحياة، وخاصة في البيولوجيا الجزيئية، نمت كمية البيانات التي تم جمعها بطريقة الأسية. علاوة على ذلك، تنتشر البيانات عبر عدد كبير من المستودعات العامة والخاصة، ويتم تخزينها باستخدام عدد كبير من التنسيقات المختلفة. هذا الموقف يجعل البحث عن هذه البيانات وإجراء التحليل اللازم لاستخراج المعرفة الجديدة من مجموعة كاملة من البيانات المتاحة صعبة للغاية. تحاول المعلوماتية الحيوية المتكاملة معالجة هذه المشكلة من خلال توفير وصول موحد لبيانات علوم الحياة. هج الويب الدلالي في نهج الويب الدلالي، يتم البحث عن البيانات من مواقع متعددة أو قواعد البيانات عبر البيانات الوصفية. البيانات الوصفية هي رمز يمكن قراءته آليًا، والذي يحدد محتويات الصفحة للبرنامج بحيث تكون المقارنات بين البيانات ومصطلحات البحث أكثر دقة. يعمل هذا على تقليل عدد النتائج غير الملائمة أو غير المفيدة. توجد بعض البيانات الوصفية كتعريفات تسمى الأنطولوجيا، والتي يمكن تمييزها بواسطة المستخدمين أو البرامج؛ تعمل على تسهيل عمليات البحث باستخدام المصطلحات أو العبارات الرئيسية للعثور على البيانات وإعادتها. [1] تشمل مزايا هذا النهج الجودة العامة المتزايدة للبيانات التي يتم إرجاعها في عمليات البحث ومع وضع العلامات المناسبة، حيث تبحث الأنطولوجيات عن إدخالات قد لا توضح بشكل صريح مصطلح البحث ولكنها لا تزال ذات صلة. أحد عيوب هذا النهج هو أن النتائج التي يتم إرجاعها تأتي في شكل قاعدة البيانات من أصلها وعلى هذا النحو، قد يكون من الصعب إجراء مقارنات مباشرة. مشكلة أخرى هي أن المصطلحات المستخدمة في وضع العلامات والبحث يمكن أن تكون غامضة في بعض الأحيان وقد تسبب التباسًا بين النتائج. [2] بالإضافة إلى ذلك، لا يزال نهج الويب الدلالي يعتبر تقنية ناشئة ولا يستخدم على نطاق واسع في هذا الوقت. [3]
أحد التطبيقات الحالية للبحث المستند إلى علم الوجود في العلوم الطبية الحيوية هو GoPubMed ، الذي يبحث في قاعدة بيانات PubMed للأدب العلمي. [1] استخدام آخر للأنطولوجيات هو ضمن قواعد البيانات مثل SwissProt و Ensembl و TrEMBL ، والتي تستخدم هذه التكنولوجيا للبحث من خلال مخازن البيانات المتعلقة بالبروتين البشري عن العلامات ذات الصلة بمصطلح البحث. [4]
ركزت بعض الأبحاث في هذا المجال على إنشاء أنطولوجيا جديدة ومحددة. [5] عمل باحثون آخرون على التحقق من نتائج الأنطولوجيا الموجودة. [2] في مثال محدد، هدف Verschelde ، وآخرون. تم دمج العديد من مكتبات الأنطولوجيا المختلفة في مكتبة أكبر تحتوي على تعريفات أكثر للتخصصات الفرعية المختلفة (الطبية، الجزيئية البيولوجية، إلخ) وتمكنت من التمييز بين العلامات الغامضة؛ كانت النتيجة مثل مستودع البيانات مثل التأثير، مع سهولة الوصول إلى قواعد بيانات متعددة من خلال استخدام الأنطولوجيا. [4] في مشروع منفصل، Bertens ، وآخرون. شيدت عمل شعرية لثلاثة أنطولوجيات (لتشريح وتطوير الكائنات الحية النموذجية) على إطار جديد لعلم أنثولوجيا الأعضاء العامة. على سبيل المثال، نتائج البحث عن «القلب» في هذا علم الوجود من شأنه أن يعيد خطط القلب لكل نوع من أنواع الفقاريات التي أدرجت الأنطولوجيا الخاصة بها. الهدف المعلن للمشروع هو تسهيل الدراسات المقارنة والتطورية. [6]
نهج تخزين البيانات في إستراتيجية تخزين البيانات، يتم استخراج البيانات من مصادر مختلفة ودمجها في قاعدة بيانات واحدة. على سبيل المثال، يمكن دمج مجموعات بيانات "omics" المختلفة لتوفير رؤى بيولوجية في النظم البيولوجية. ومن الأمثلة على ذلك البيانات المستقاة من الجينوميات والنصوص والبروتينات والتفاعلات والتمثيل الغذائي. من الناحية المثالية، تتم مزامنة التغييرات في هذه المصادر بانتظام مع قاعدة البيانات المتكاملة. يتم تقديم البيانات للمستخدمين بتنسيق مشترك. تم تصميم العديد من البرامج التي تهدف إلى المساعدة في إنشاء هذه المستودعات لتكون متعددة الاستخدامات بشكل كبير للسماح بتنفيذها في مشاريع بحثية متنوعة. [7] ميزة واحدة من هذا النهج هو أن البيانات متاحة للتحليل في موقع واحد، باستخدام مخطط موحد. بعض العيوب هي أن مجموعات البيانات غالبًا ما تكون ضخمة ويصعب تحديثها. مشكلة أخرى في هذه الطريقة هي أن تجميع مثل هذا المستودع مكلف. [8]
تظهر الآن تنسيقات موحدة لأنواع مختلفة من البيانات (على سبيل المثال: بيانات البروتين) بسبب تأثير مجموعات مثل مبادرة معايير البروتيوم (PSI). تتطلب بعض مشاريع تخزين البيانات تقديم البيانات بأحد هذه التنسيقات الجديدة. [9]
طرق أخرى يستخدم استخراج البيانات طرقًا إحصائية للبحث عن أنماط في البيانات الحالية. تقوم هذه الطريقة عمومًا بإرجاع العديد من الأنماط، بعضها زائف وبعضها مهم، ولكن يجب تقييم كل الأنماط التي يجدها البرنامج بشكل فردي. في الوقت الحالي، تركز بعض الأبحاث على دمج تقنيات التنقيب عن البيانات الحالية مع أساليب تحليل الأنماط الجديدة التي تقلل من الحاجة لقضاء بعض الوقت في الانتقال إلى كل نمط وجده البرنامج الأولي، ولكن بدلاً من ذلك، تُرجع نتائج قليلة ذات احتمال كبير من حيث الأهمية. [10 ] عيب واحد من هذا النهج هو أنه لا يدمج قواعد بيانات متعددة، مما يعني أن المقارنات عبر قواعد البيانات غير ممكنة. الميزة الرئيسية لهذا النهج هو أنه يسمح بتوليد فرضيات جديدة لاختبارها.