إرباك

الإرباك في نظرية المعلومات هو قياس لمدى نجاح التوزيع الاحتمالي أو لنجاح نموذج احصائي معين يقوم بتوقع عينة. ويمكن استخدامه لمقارنة نماذج الاحتمالات. يشير الإرباك المنخفض إلى توزيع احتمالي جيد في تنبؤ العينة.

الإرباك في توزيع الاحتمال

يتم تعريف الإرباك للتوزيع الاحتمالي المنفصل p كما يلي:

2^{H(p)}=2^{-\sum _{x}p(x)\log _{2}p(x)}

حيث أن قيمة الاحتمال لـ H يمثل قيمة الاعتلاج (بالبت) للتوزيع ونطاقات س على الأحداث. يعرف هذا المقياس أيضًا في بعض المجالات بالتنوع (order-1 true) .

يمكن تعريف قيمة الإرباك للمتغير العشوائي X بأنها قيمة الإرباك للتوزيع على قيمه المحتملة x .

يستخدم الإرباك في بعض الأحيان كمقياس لمدى صعوبة معضلة التنبؤ. رغم أن هذا ليس دقيقاً بشكل دائم. إذا كان لديك خياران، أحدهما باحتمال 0.9، فستكون فرصك في التخمين الصحيح 90 في المائة باستخدام الاستراتيجية المثلى. والإرباك سيكون اثنان مرفوعة للأس المساوي لحاصل طرح (لوغارتم 0.1 مضروبة في -0.1 من لوغارتم 0.9 مضروبة في -0.9)

إرباك نموذج الاحتمال

قد يتم اقتراح نموذج معين لتوزيع احتمالي غير معروف p ، بناءً على عينة تدريب تم الحصول عليها من p . بالاستناد إلى نموذج الاحتمال المقترح q ، هنا يمكن تقييم q من خلال السؤال عن مدى توقعه لعينة اختبار منفصلة تمتد كما يلي: ₁ ، x ₂ ... x _N والعينة مأخوذة من p . يتم تعريف حيرة النموذج q :

b^{-{\frac {1}{N}}\sum _{i=1}^{N}\log _{b}q(x_{i})}

حيث تكون b عادة بمقدار 2. تميل النماذج الأفضل q للتوزيع غير المعروف p إلى تعيين احتمالات أعلى (قيم q لـ Xi) للأحداث في بيانات الاختبار. وبالتالي، تكون قيمة الإرباك أقل (تقل الدهشة برؤية التطبيق على بيانات الاختبار).

يمكن اعتبار الأس أعلاه هو متوسط عدد البتات اللازمة لتمثيل حدث اختبار x _i إذا كان المرء يستخدم الكود الأمثل القائم على q . تؤدي النماذج ذات الإرباك المنخفض أداءً أفضل لضغط عينة الاختبار، حيث تتطلب وحدات بت أقل لكل عنصر اختبار في المتوسط لأن قيمة q لـ x _i تكون مرتفعة.

الإرباك للكلمات

في معالجة اللغة الطبيعية، يعد الإرباك وسيلة لتقييم قوالب اللغة. نموذج اللغة هو توزيع احتمالي للكلمات على جمل أو نصوص بأكملها.

باستخدام تعريف الإرباك لنموذج الاحتمال، قد نجد أن الجملة x _i مثلاً في عينة الاختبار يمكن أن تكون مشفرة في 190 بت (أي أن جمل الاختبار كان لها متوسط احتمال لوغارتمي يبلغ -190). هذا من شأنه أن يعطي الإرباك نموذجاً كبيراً يعادل 2 ¹⁹⁰ لكل جملة. ومع ذلك، من الشائع أكثر أن يتم إجراء التطبيع لطول الجملة والنظر في عدد البتات لكل كلمة فقط. وبالتالي، إذا تضمنت جمل عينة الاختبار ما مجموعه 1000 كلمة، ويمكن ترميزها باستخدام إجمالي 7.95 بت لكل كلمة، فيمكن الحصول على قيمة إرباك نموذجية تبلغ ^7.9 = 247 لكل كلمة. بمعنى آخر، فإن النموذج مرتبك في بيانات الاختبار كما لو كان عليه أن يختار بشكل موحد ومستقل بين 247 الاحتمالات لكل كلمة.

أدنى قيمة إرباك تم نشرها في متن براون (Brown Corpus) (مليون كلمة من اللغة الإنجليزية الأمريكية ذات مواضيع وأنواع مختلفة) اعتبارًا من عام 1992 هي في الواقع حوالي 247 لكل كلمة، وهي تقابل إنتروبيا لوغارتمية 247 = 7.95 بت لكل كلمة أو 1.75 بت لكل حرف ^[1] باستخدام نموذج ثلاثي الكلمات (trigram). غالبًا ما يكون من الممكن تحقيق إرباك أقل على الأصول النصية المتخصصة، لأنها أسهل في التنبؤ.

المراجع

^ Brown، Peter F.؛ وآخرون (مارس 1992). "An Estimate of an Upper Bound for the Entropy of English" (PDF). Computational Linguistics. ج. 18 ع. 1. مؤرشف من الأصل (PDF) في 2018-02-19. اطلع عليه بتاريخ 2007-02-07.

[1] Brown، Peter F.؛ وآخرون (مارس 1992). "An Estimate of an Upper Bound for the Entropy of English" (PDF). Computational Linguistics. ج. 18 ع. 1. مؤرشف من الأصل (PDF) في 2018-02-19. اطلع عليه بتاريخ 2007-02-07.

[1]