مستخدم:Abuowda Issa/ملعب

الإحصاء الحيوي

عدل

الإحصاء الحيوي هو تطوير وتطبيق الأساليب الإحصائية على مجموعة واسعة من المواضيع في علم الأحياء. ويشمل تصميم التجارب البيولوجية ، وجمع وتحليل البيانات من تلك التجارب وتفسير النتائج.

التاريخ

عدل

الإحصاء الحيوي وعلم الوراثة

عدل

تشكل النماذج الإحصائية الحيوية جزءًا مهمًا من العديد من النظريات البيولوجية الحديثة. استخدمت الدراسات الوراثية ، منذ بدايتها ، المفاهيم الإحصائية لفهم النتائج التجريبية المرصودة. حتى أن بعض علماء الوراثة ساهموا في التقدم الإحصائي في تطوير الأساليب والأدوات. بدأ جريجور مندل دراسات الوراثة التي تبحث في أنماط الفصل الوراثي في أسر البازلاء واستخدمت الإحصاءات لشرح البيانات التي تم جمعها. في أوائل القرن العشرين ، بعد إعادة اكتشاف ميراث مندل Mendelian ، كانت هناك فجوات في الفهم بين علم الوراثة والداروينية التطورية. حاول فرانسيس غالتون توسيع اكتشافات مندل بالبيانات البشرية ، واقترح نموذجًا مختلفًا به كسور من الوراثة قادمة من كل أجداد يتكون من سلسلة لا حصر لها. ودعا هذه نظرية "قانون الوراثة السلفي". عارض ويليام بيتسون أفكاره بشدة ، والذي اتبع استنتاجات مندل ، أن الوراثة الوراثية كانت حصرية من الوالدين ، نصفهم من كل واحد منهم. وأدى ذلك إلى نقاش حاد بين علماء القياس الحيوي ، الذين أيدوا أفكار جالتون ، مثل والتر ويلدون ، وآرثر دوكينفيلد داربيشير وكارل بيرسون ، ومندليانز ، الذين دعموا أفكار بيتسون (ومندل) ، مثل تشارلز دافنبورت وويلهيلم يوهانسن. في وقت لاحق ، لم يستطع علماء القياس البيولوجي إنتاج استنتاجات جالتون في تجارب مختلفة ، وسادت أفكار مندل. بحلول الثلاثينيات ، ساعدت النماذج المبنية على التفكير الإحصائي في حل هذه الاختلافات وإنتاج التوليف التطوري الحديث الدارويني.

سمح حل هذه الاختلافات أيضًا بتحديد مفهوم علم الوراثة السكانية وجمع الوراثة والتطور. اعتمدت الشخصيات الرئيسية الثلاثة في علم الوراثة السكانية وهذه التوليفة جميعها على الإحصائيات وطورت استخدامها في علم الأحياء.

طور رونالد فيشر عدة طرق إحصائية أساسية لدعم عمله في دراسة تجارب المحاصيل في أبحاث روتهامستيد ، بما في ذلك في كتبه "الأساليب الإحصائية للعاملين في مجال البحث" (1925) نهاية النظرية الوراثية للاختيار الطبيعي (1930). وقدم العديد من المساهمات في علم الوراثة والإحصاء. بعضها يشمل أنوفا ، مفاهيم القيمة p ، اختبار فيشر الدقيق ومعادلة فيشر للديناميات السكانية. يُنسب إليه الجملة "الانتقاء الطبيعي هو آلية لتوليد درجة عالية من عدم الاحتمال". [1]

طورت سيوال جي رايت إحصائيات وطرق حسابية لها وحددت معامل زواج الأقارب.

أعاد كتاب J. B. S. Haldane ، "أسباب التطور" ، الانتقاء الطبيعي باعتباره الآلية الأولى للتطور من خلال شرحه من حيث النتائج الرياضية لعلم الوراثة المندلية. كما وضعت نظرية الحساء البدائي.

ساعد هؤلاء وغيرهم من علماء الإحصاء الحيوي ، وعلماء الأحياء الرياضيين ، وعلماء الوراثة المائلين إحصائياً ، في الجمع بين البيولوجيا التطورية وعلم الوراثة في كيان متسق ومتسق يمكن أن يبدأ في وضع نماذج كميّة. بالتوازي مع هذا التطور الشامل ، ساعد العمل الرائد لـ D'Arcy Thompson in On Growth and Form في إضافة الانضباط الكمي للدراسة البيولوجية.

على الرغم من الأهمية الأساسية والضرورة المتكررة للتفكير الإحصائي ، فقد يكون هناك ميل بين علماء الأحياء إلى عدم الثقة أو استنكار النتائج غير الواضحة من الناحية النوعية. يصف أحد الحكايات توماس هانت مورغان الذي يحظر آلة حاسبة فريدين من وزارته في معهد كاليفورنيا للتكنولوجيا ، قائلاً: "حسنًا ، أنا مثل رجل يبحث عن الذهب على طول ضفاف نهر ساكرامنتو في عام 1849. مع القليل من الذكاء ، يمكنني الوصول إلى أسفل و التقط قطعًا كبيرة من الذهب ، وطالما يمكنني القيام بذلك ، لن أسمح لأي شخص في وزارتي بإهدار الموارد النادرة في عمليات التعدين الغرينية. "[2]

تخطيط البحوث

عدل

يقترح أي بحث في علوم الحياة للإجابة على سؤال علمي قد يكون لدينا. للإجابة على هذا السؤال بثقة عالية ، نحتاج إلى نتائج دقيقة. التعريف الصحيح للفرضية الرئيسية وخطة البحث سوف يقلل من الأخطاء أثناء اتخاذ قرار في فهم هذه الظاهرة. قد تتضمن خطة البحث سؤال البحث ، والفرضية المراد اختبارها ، والتصميم التجريبي ، وطرق جمع البيانات ، ووجهات نظر تحليل البيانات والتكاليف المتطورة. من الضروري إجراء الدراسة بناءً على المبادئ الأساسية الثلاثة للإحصاءات التجريبية: التوزيع العشوائي ، والتكرار ، والسيطرة المحلية.

سؤال البحث

عدل

سيحدد سؤال البحث الهدف من الدراسة. سيرأس البحث السؤال ، لذلك يجب أن يكون موجزا ، وفي الوقت نفسه يركز على موضوعات مثيرة للاهتمام وجديدة قد تحسن العلم والمعرفة وهذا المجال. لتحديد طريقة طرح السؤال العلمي ، قد يكون من الضروري مراجعة شاملة للأدبيات. لذلك ، يمكن أن يكون البحث مفيدًا لإضافة قيمة إلى المجتمع العلمي. [3]

تعريف الفرضية

عدل

بمجرد تحديد الهدف من الدراسة ، يمكن اقتراح الإجابات المحتملة على سؤال البحث ، وتحويل هذا السؤال إلى فرضية. يُطلق على الاقتراح الرئيسي الفرضية الصفرية (H0) ويستند عادةً إلى معرفة دائمة بالموضوع أو بحدوث ظاهرة واضحة للظواهر ، تدعمها مراجعة أدبية عميقة. يمكننا أن نقول أنها الإجابة القياسية المتوقعة للبيانات الموجودة تحت الوضع قيد الاختبار. بشكل عام ، لا يفترض HO أي ارتباط بين العلاجات. من ناحية أخرى ، فإن الفرضية البديلة هي إنكار HO. يفترض درجة من الارتباط بين العلاج والنتيجة. على الرغم من أن الفرضية تدعمها أبحاث الأسئلة وإجاباتها المتوقعة وغير المتوقعة. [3] على سبيل المثال ، فكر في مجموعات من الحيوانات المماثلة (الفئران ، على سبيل المثال) ضمن نظامين مختلفين للحمية. سيكون سؤال البحث: ما هو أفضل نظام غذائي؟ في هذه الحالة ، قد يكون H0 أنه لا يوجد فرق بين النظامين الغذائيين في استقلاب الفئران (H0: μ1 = μ2) والفرضية البديلة هي أن الوجبات الغذائية لها تأثيرات مختلفة على استقلاب الحيوانات (H1: μ1 μ2). يتم تعريف الفرضية من قبل الباحث ، حسب اهتماماته في الإجابة على السؤال الرئيسي. إلى جانب ذلك ، يمكن أن تكون الفرضية البديلة أكثر من فرضية واحدة. يمكن أن تفترض ليس فقط الاختلافات عبر المعلمات الملاحظة ، ولكن درجة الاختلافات الخاصة بهم (أي أعلى أو أقصر).

أخذ العينات

عدل

عادةً ما تهدف الدراسة إلى فهم تأثير هذه الظاهرة على السكان. في علم الأحياء ، يتم تعريف السكان على أنهم جميع أفراد نوع معين ، في منطقة معينة في وقت معين. في الإحصاء الحيوي ، يمتد هذا المفهوم إلى مجموعة متنوعة من المجموعات الممكنة للدراسة. على الرغم من أنه في الإحصاء الحيوي ، فإن السكان ليسوا الأفراد فقط ، ولكن إجمالي عنصر واحد محدد من الكائنات الحية ، مثل الجينوم بأكمله ، أو جميع خلايا الحيوانات المنوية ، للحيوانات ، أو مساحة الورقة الكلية ، للنبات ، على سبيل المثال . لا يمكن اتخاذ التدابير من جميع عناصر السكان. ولهذا السبب ، فإن عملية أخذ العينات مهمة للغاية للاستدلال الإحصائي. يتم تعريف أخذ العينات على أنه الحصول العشوائي على جزء تمثيلي من إجمالي السكان ، لإجراء استدلالات لاحقة حول السكان. لذلك ، قد تصطاد العينة أكبر قدر من التباين بين السكان. [4] يتم تحديد حجم العينة من خلال عدة أشياء ، لأن نطاق البحث على الموارد المتاحة. في البحث السريري ، يعد نوع التجربة ، مثل الدونية والتكافؤ والتفوق ، مفتاحًا في تحديد حجم العينة. [3]

تصميم تجريبي

عدل

تدعم التصميمات التجريبية تلك المبادئ الأساسية للإحصاءات التجريبية. هناك ثلاثة تصميمات تجريبية أساسية لتخصيص العلاجات بشكل عشوائي في جميع مخططات التجربة. إنها تصميم عشوائي تمامًا ، وتصميم كتل عشوائية ، وتصميمات فئوية. يمكن ترتيب العلاجات بعدة طرق داخل التجربة. في الزراعة ، التصميم التجريبي الصحيح هو أصل دراسة جيدة وترتيب العلاجات داخل الدراسة أمر ضروري لأن البيئة تؤثر بشكل كبير على المؤامرات (النباتات والماشية والكائنات الحية الدقيقة). يمكن العثور على هذه الترتيبات الرئيسية في الأدب تحت أسماء "المشابك" ، "الكتل غير المكتملة" ، "الحبكة المجزأة" ، "الكتل المعززة" ، وغيرها الكثير. قد تتضمن جميع التصميمات مخططات تحكم ، يحددها الباحث ، لتوفير تقدير للخطأ أثناء الاستدلال. في الدراسات السريرية ، تكون العينات أصغر عادة من الدراسات البيولوجية الأخرى ، وفي معظم الحالات ، يمكن التحكم في تأثير البيئة أو قياسه. من الشائع استخدام تجارب سريرية معشاة ذات شواهد ، حيث تقارن النتائج عادةً بتصاميم دراسة قائمة على الملاحظة مثل مراقبة الحالات أو الفوج. [5]

جمع البيانات

عدل

يجب النظر في أساليب جمع البيانات في تخطيط البحث ، لأنه يؤثر بشكل كبير على حجم العينة والتصميم التجريبي. يختلف جمع البيانات وفقًا لنوع البيانات. بالنسبة للبيانات النوعية ، يمكن أن يتم التجميع باستخدام استبيانات منظمة أو عن طريق الملاحظة ، والنظر في وجود أو شدة المرض ، باستخدام معيار الدرجات لتصنيف مستويات الحدوث. [6] بالنسبة للبيانات الكمية ، يتم الجمع عن طريق قياس المعلومات العددية باستخدام الأدوات. في دراسات الزراعة والبيولوجيا ، يمكن الحصول على بيانات الإنتاج ومكوناته عن طريق التدابير المترية. ومع ذلك ، يتم الحصول على إصابات الآفات والأمراض في الصفائح عن طريق الملاحظة ، مع الأخذ في الاعتبار جداول الدرجات لمستويات الضرر. على وجه الخصوص ، في الدراسات الجينية ، ينبغي النظر في الأساليب الحديثة لجمع البيانات في الحقل والمختبر ، على أنها منصات إنتاجية عالية للنمذجة الوراثية والتنميط الجيني. تسمح هذه الأدوات بتجارب أكبر ، بينما تقوم بدورها بتقييم العديد من المؤامرات في وقت أقل من الطريقة البشرية فقط لجمع البيانات. أخيرًا ، يجب تخزين جميع البيانات التي تم جمعها محل الاهتمام في إطار بيانات منظم لمزيد من التحليل.

تحليل وتفسير البيانات

عدل

أدوات وصفية

عدل

يمكن تمثيل البيانات من خلال جداول أو تمثيل رسومي ، مثل المخططات الخطية ، المخططات الشريطية ، الرسوم البيانية ، الرسم المبعثر. أيضًا ، يمكن أن تكون مقاييس الميل والتغير المركزي مفيدة جدًا لوصف نظرة عامة على البيانات. اتبع بعض الأمثلة:

  • جداول التردد (Frequency tables)

أحد أنواع الجداول هو جدول التردد ، والذي يتكون من بيانات مرتبة في صفوف وأعمدة ، حيث يكون التردد هو عدد مرات تكرار البيانات أو تكرارها. يمكن أن يكون التردد: [7]

مطلق: يمثل عدد مرات ظهور قيمة محددة ؛

نسبي: تم الحصول عليه بتقسيم التردد المطلق على العدد الكلي ؛

في المثال التالي ، لدينا عدد الجينات في عشرة أوبونات لنفس الكائن الحي.

الجينات: 2،3،3،4،5،3،3،3،3،4 .


عدد الجينات التكرار المطلق التكرار النسبي
1 0 0
2 1 0.1
3 6 0.6
4 2 0.2
5 1 0.1


  • خط الرسم البياني (Line graph)

تمثل الرسوم البيانية الخطية تباين القيمة على مقياس آخر ، مثل الوقت. بشكل عام ، يتم تمثيل القيم في المحور الرأسي ، في حين يتم تمثيل تباين الوقت في المحور الأفقي. [9]

  • شريط الرسم البياني (Bar chart)

المخطط الشريطي عبارة عن رسم بياني يُظهر البيانات الفئوية كأشرطة تقدم الارتفاع (شريط عمودي) أو عروض (شريط أفقي) متناسبة لتمثيل القيم. توفر المخططات الشريطية صورة يمكن تمثيلها أيضًا بتنسيق جدولي.

  • الرسم البياني (Histograms)

الرسم البياني (أو توزيع التردد) هو تمثيل رسومي لمجموعة بيانات مجدولة ومقسمة إلى فئات موحدة أو غير موحدة. تم تقديمه لأول مرة بواسطة كارل بيرسون. [10]

  • المخطط البياني المبعثر (Scatter Plot)

المخطط البياني المبعثر هو مخطط رياضي يستخدم الإحداثيات الديكارتية لعرض قيم مجموعة البيانات. تعرض الحبكة المبعثرة البيانات كمجموعة من النقاط ، كل منها يعرض قيمة متغير واحد يحدد الموضع على المحور الأفقي ومتغير آخر على المحور العمودي.

  • المخطط البياني الصندوق (Box Plot)

المخطط البياني الصندوق هي طريقة لتصوير مجموعات البيانات الرقمية بيانيا. يتم تمثيل الحد الأقصى والحد الأدنى للقيم بواسطة الخطوط ، ويمثل النطاق الشرائحي (IQR) 25%-75% من البيانات. قد يتم رسم القيم المتطرفة كدوائر.

  • الوسط الحسابي (Mean)

المتوسط الحسابي هو مجموع مجموعة من القيم مقسومًا على عدد العناصر في هذه المجموعة n.

  • الوسيط (Median)

الوسيط هي القيمة في منتصف مجموعة البيانات.

  • المنوال (Mode)

المنوال هي القيمة التي تظهر أكثر من غيرها داخل مجموعة البيانات.
مثال

لدينا مجموعة البيانات { 2,3,4,3,3,11,4,3,3}

نوع مثال نتيجة
الوسط ( 2 + 3 + 3 + 3 + 3 + 3 + 4 + 4 + 11 ) / 9 4
الوسيط 2, 3, 3, 3, 3, 3, 4, 4, 11 3
المنوال 2, 3, 3, 3, 3, 3, 4, 4, 11 3


أدوات

عدل

هناك الكثير من الأدوات التي يمكن استخدامها لإجراء التحليل الإحصائي في البيانات البيولوجية. معظمها مفيد في مجالات المعرفة الأخرى ، التي تغطي عددًا كبيرًا من التطبيقات (الأبجدية). فيما يلي وصف موجز لبعضهم: ASReml: برنامج آخر تم تطويره بواسطة VSNi ويمكن استخدامه أيضًا في بيئة R كحزمة. تم تطويره لتقدير مكونات التباين تحت نموذج مختلط خطي عام باستخدام أقصى احتمال مقيد (REML). يُسمح بالنماذج ذات التأثيرات الثابتة والتأثيرات العشوائية والمتداخلة أو المتقاطعة. يعطي إمكانية للتحقيق مختلف هياكل مصفوفة التباين التباين. CycDesigN: حزمة كمبيوتر تم تطويرها بواسطة VSNi والتي تساعد الباحثين على إنشاء تصميمات تجريبية وتحليل البيانات الواردة من تصميم موجود في واحدة من ثلاث فئات يتم التعامل معها بواسطة CycDesigN. هذه الفئات قابلة للحل وغير قابلة للحل وتصميمات جزئية ومتكررة. ويشمل تصاميم أقل استخداما تصاميم لاتينية ، كتصميم تي لاتيني. Orange: واجهة برمجة لمعالجة البيانات عالية المستوى واستخراج البيانات وتصور البيانات. تشمل أدوات للتعبير الجيني والجينوميات. R: بيئة مفتوحة المصدر ولغة برمجة مخصصة للحوسبة والرسومات الإحصائية. إنه تطبيق اللغة S التي تحتفظ بها CRAN. بالإضافة إلى وظائفه لقراءة جداول البيانات ، أخذ الإحصاءات الوصفية ، تطوير وتقييم النماذج ، يحتوي مستودعه على حزم تم تطويرها بواسطة باحثين حول العالم. هذا يسمح بتطوير الوظائف المكتوبة للتعامل مع التحليل الإحصائي للبيانات التي تأتي من تطبيقات محددة. في حالة المعلوماتية الحيوية ، على سبيل المثال ، توجد حزم موجودة في المستودع الرئيسي (CRAN) وفي غيرها ، كموصل حيوي. من الممكن أيضًا استخدام الحزم قيد التطوير التي يتم مشاركتها في خدمات الاستضافة مثل GitHub. SAS: برنامج لتحليل البيانات يستخدم على نطاق واسع ، يمر عبر الجامعات والخدمات والصناعة. تم تطويره بواسطة شركة تحمل الاسم نفسه (SAS Institute) ، ويستخدم لغة SAS للبرمجة. PLA 3.0: هو برنامج تحليل الإحصاء الحيوي للبيئات الخاضعة للتنظيم (مثل اختبار المخدرات) الذي يدعم فحوصات الاستجابة الكمية (الموازي ، الخط الموازي للوجستيات ، المنحدر نسبة) والمقايسة ثنائية التفرع (الاستجابة الكمية ، المقايسات الثنائية). كما أنه يدعم أساليب الترجيح لحسابات المجموعات وتجميع البيانات التلقائي لبيانات الفحص المستقلة. Weka: برنامج Java للتعلم الآلي واستخراج البيانات ، بما في ذلك أدوات وطرق التصور والتجميع والانحدار وحكم الارتباط والتصنيف. هناك أدوات للتحقق من صحة التبادلية ، و bootstrapping ووحدة مقارنة الخوارزمية. يمكن أيضًا تشغيل Weka بلغات برمجة أخرى مثل Perl أو R.

مجلات متخصصة

عدل

•Biostatistics

•International Journal of Biostatistics

Journal of Epidemiology and Biostatistics

• Biostatistics and Public Health

• Biometrics

• Biometrika

• Biometrical Journal

• Communications in Biometry and Crop Science

• Statistical Applications in Genetics and Molecular Biology

• Statistical Methods in Medical Research

• Pharmaceutical Statistics

• Statistics in Medicine

• Annals of biometrics and biostatistics

• Current research in biostatistics

• American Journal of Biostatistics

المراجع

عدل

1. Gunter, Chris (10 December 2008). "Quantitative Genetics". Nature. 456 (7223): 719. Bibcode: 2008Natur.456..719G . doi: 10.1038/456719a . PMID 19079046

2. Charles T. Munger (2003-10-03). " Academic Economics: Strengths and Faults After Considering Interdisciplinary Needs " (PDF).

3. Nizamuddin, Sarah L.; Nizamuddin, Junaid; Mueller, Ariel; Ramakrishna, Harish; Shahul, Sajid S. (October 2017). "Developing a Hypothesis and Statistical Planning". Journal of Cardiothoracic and Vascular Anesthesia. 31 (5): 1878–1882. doi: 10.1053/j.jvca.2017.04.020 . PMID 28778775 .

4- Overholser, Brian R; Sowinski, Kevin M (2017). "Biostatistics Primer: Part I". Nutrition in Clinical Practice. 22 (6): 629–35 doi:10.1177/0115426507022006629. PMID 18042950.

5- Szczech, Lynda Anne; Coladonato, Joseph A.; Owen, William F. (4 October 2002). "Key Concepts in Biostatistics: Using Statistics to Answer the Question "Is There a Difference?"". Seminars in Dialysis. 15 (5): 347–351. doi:10.1046/j.1525-139X.2002.00085.x.

6. Sandelowski, Margarete (2000). "Combining Qualitative and Quantitative Sampling, Data Collection, and Analysis Techniques in Mixed-Method Studies". Research in Nursing & Health. 23 (3): 246–255. CiteSeerX 10.1.1.472.7825 . doi: 10.1002/1098-240X(200006)23:3<246::AID-NUR9>3.0.CO;2-H

7. المرجع الرئيسي : https://en.wikipedia.org/wiki/Biostatistics