شبكة عصبونية اصطناعية

الشبكات العصبونية الاصطناعية (بالإنجليزية: Artificial Neural Network ANN)‏ أو ما يدعى أيضا بالشبكات العصبونية المحاكية simulated neural network أو SNN : مجموعة مترابطة من عصبونات افتراضية تنشئها برامجٌ حاسوبيَّةُ لتشابه عمل العصبون البيولوجي أو بنى إلكترونية (شيبات إلكترونية مصممة لمحاكاة عمل العصبونات) تستخدم النموذج الرياضي لمعالجة المعلومات بناء على الطريقة الاتصالية في الحوسبة.[2][3][4] تتألف الشبكات العصبونية بشكل عام عناصر معالجة بسيطة تقوم بعمل بسيط لكن السلوك الكلي للشبكة يتحدد من خلال الاتصالات بين مختلف هذه العناصر التي تدعى هنا بالعصبونات ومؤشرات هذه العناصر element parameters. الإيحاء الأول بفكرة الشبكات العصبونية أتى من آلية عمل العصبونات الدماغية التي يمكن تشبيهها بشبكات بيولوجية كهربائية لمعالجة المعلومات الواردة إلى الدماغ. في هذه الشبكات اقترح دونالد هب أن المشبك العصبي يلعب دورا أساسيا في توجيه عملية المعالجة وهذا ما دفع للتفكير في فكرة الاتصالية والشبكات العصبونية الاصطناعية. تتالف الشبكات العصبونية الاصطناعية من عقد أو ما قد ذكرنا مسبقا انه عصبونات neurons أو وحدات معالجة processing elements، متصلة معا لتشكل شبكة من العقد، وكل اتصال بين هذه العقد يملك مجموعة من القيم تدعى الأوزان تسهم في تحديد القيم الناتجة عن كل عنصر معالجة بناء على القيم الداخلة لهذا العنصر.

شبكة عصبونية اصطناعية
معلومات عامة
صنف فرعي من
جانب من جوانب
ممثلة بـ
مظهر لـ
الشبكة العصبونية شبكة مترابطة من عقد تعمل بأسلوب مشابه لعصبونات الدماغ البشري.

مقدمة

عدل

يمكننا تعريف الشبكات العصبية بأنها محاولة رياضية برمجية لمحاكاة طريقة عمل المخ البشري. حيث أن العلماء قد اكتشفوا تقريبا طريقة عمل المخ البشري من حيث قابلية التعلم وقابلية التذكر والقدرة على تمييز الأشياء والقدرة على اتخاذ القرارات. والمخ كما تعلمون يتكون من مليارات الخلايا العصبية المتشابكة فيما بينها بطريقة معقدة جدا عن طريق الزوائد العصبية لكل خلية، مما يشكل شبكة هائلة من الخلايا العصبية المرتبطة فيما بينها عن طريق هذه الزوائد.

هذه الترابط فيما بين الخلايا العصبية يتيح لها القدرة على تخزين المعلومات والصور والصوت وخلافه من الإشارات التي تصلها عبر الحواس الخمسة، ومن ثم تتيح لها أيضا التعلم عن طريق التكرار والخطأ.

فمثلا لو أتينا بطفل صغير وعرضنا عليه مجموعة من صور الحيوانات المختلفة فيها مثلا فيل وزرافة وببغاء؛ تعلم الآن الطفل الصغير هذه الحيوانات وأسمائها. لو عرضنا عليه الآن صورة لطير لم يره من قبل ولنفرض أنه الكناري وقلنا له ما هذا الحيوان فإنه بناء على تعلمه سابقا فإنه سيقول أنه ليس فيلا وليس زرافة ولكنه يشبه إلى حد كبير الببغاء. سنقول له صحيح، هذا يشبه الببغاء ولكنه ليس ببغاء وإنما هو كناري.

الآن ما الذي حصل؟

لقد استطاع هذا الطفل الصغير التعلم بناء على النماذج الثلاثة الأولية التي تدرب عليها، استطاع أيضا اتخاذ قرار صحيح مع الطير الجديد.

أخيرا تدرب على الكناري بحيث أنه في المرات القادمة سوف يستطيع أن يفرق بين الببغاء والكناري مع التشابه بينهما. كل ما سبق حصل مع هذا الطفل الصغير لأن الدماغ البشري يعمل بطريقة تؤهله للتعلم والتذكر واتخاذ القرارات عندما يحتاج لذلك، وذلك بسبب تركيبة الدماغ التي تكلمنا عليها سابقا. عندما اكتشف العلماء طريقة عمل الدماغ حاول العلماء الرياضيون أن يحاكوا طريقة عمل الدماغ بواسطة نماذج رياضية. نشأ عن هذا العلم الجديد ما يسمى بالذكاء الصناعي وأحد أنواع هذا الذكاء الصناعي هو الشبكات العصبية والذي هو أساس موضوعنا الآن. رأينا سابقا أن الطفل الصغير خصص جزءا من خلايا دماغه لتكوين شبكة عصبية تعلم بها التمييز بين الصور التي عرضت عليه. وأن هذه الشبكة يمكن أن تتطور وتتعلم وتنمو أكثر فأكثر وتصبح قادرة أكثر على اتخاذ القرارات الصحيحة.

وهكذا فإن أي شيء يتعلمه الطفل يتم تخصيص شبكة عصبية خاصة بهذا العلم؛ ولكن بكثير من التعقيد والربط المعقد بين هذه الشبكات المختلفة.الآن نأتي لأبسط شكل لهذه الشبكات العصبية والذي قام علماء الرياضيات بمحاكاته برمجيا وصنع نموذج رياضي له.

يتكون هذا النموذج الرياضي من خلايا عصبية اصطناعية.

تتكون كل خلية عصبية اصطناعية من ثلاثة أقسام رئيسية هي:

- الوزن: وهو وزن أو عامل تثقيل لكل خلية عصبية اصطناعية وهو عبارة عن رقم مجرد.

- الجامع: وهو عبارة عن حاصل جمع وزن كل خلية مضروبة بالدخل.

- تابع التفعيل: وهو عبارة عن علاقة أسية لمعالجة إشارة الخرج بحيث تمر هذه الإشارة من خلال هذا التابع ومنه تنتج القيمة النهائية المطلوبة.

يكمن أحد أسباب تفوق الدماغ البشري في قدرته على معالجة المعطيات في شكل هيكلي بمعني ان كل جزء من المخ له وظيفه ويشرف علي عمله جزء آخر يدير عمله ويستطيع أن يغير عمل الأجزاء ويسمي ذلك Plasticity كما أن كل جزء من المخ يعمل بصفه منفصله عن الآخر كما لو كان جهازاً حاسوبياً به عدد كبير جدا من المعالجات (Processors)، أجهزة الحاسوبِ اليوم تقوم بمحاكاة هذه العملية في ما يسمى حوسبة متوازية، Parallel Computing، وبالرغم من السرعة العالية الناتجة عن هذه التقنية إلا أنها تفتقر إلى القدرة على الاستقلال بحل المشكلة، وذلك لان الحاسب الإلكتروني يقوم بارسال بيانات كثيرة جدا في صورة رقمية بين كل من أجزائه أما المخ فيقوم بعمل ذلك في صورة رقميه في بعض الأماكن وفي أماكن أخرى في صورة أنالوج كما أن الحَاسُوبَ يرسل عددًا كبيرًا من البيانات المتكررة ولكن المخ لايرسل بيانات متكررة ومثال علي ذلك الكاميرا فهي ترسل حالة كل نقطة تصورها وإذا لم تتغير الحالة ترسلها كما هي أيضا أما العقل فيرسل التغيير فقط وذلك على شكل Spikes أو إشارات عصبية.

دونالد هيب،Hebb في كتابه منظمة السلوك 1949م، أشار إلى أنّ المشابك العصبية الروابط (العصبونات) بين الخلايا العصبية تقوى كلما تم استعمالها أكثر بمعني أنه لو وجد عدد من الخلايا بجانب بعضها ولكن اثنان منهم يقومان بنقل بينات بصورة كثيفة فتقوى الوصلة بينهما وتصبح عملية معالجتها للعمليات أسرع مع تكرار إثارتها بنفس المعطيات.

كانت هذه بداية التفكير لما يسمى بالمعالجات العصبية أو الشبكات العصبية والتي كانت مطروحة في وقتها على صورة خلايا وليس شبكات مترابطة. في الخمسينات من القرن العشرين قامت شركة أي بي إم بأول محاولة لمحاكاة الخلية العصبية، ونجح ذلك بعد عدة محاولات فاشلة، ولكن كان علم الحَاسُوبِ في ذلك الوقت يتجه ناحية الحساب المتسلسل مما أدى إلى إهمال موضوع الخلايا العصبية ووضعه في الأدراج.

في نهاية الخمسينيات، بدأ فرانك روزنبلات بالعمل على ما يدعى اليوم بالبيرسيبترون، Perceptron، حيث كان قادرًا على فصل النقاط القابلة للفصل خطيّا دون النقاط غير القابلة للفصل خطيًّا. وهذا ما اعتبر عيبًا ضخمًا في البيرسبترون. في عام 1959م قام برنارد فيدرو وماركيان هووف ببناء نموذجي عنصر تكيفي خطي آدالاين ADAptive LINear Element ومجموعة عناصر تكيفية خطية مادالاين Many ADALINE. كان هذا هو أول ظهور للشبكات العصبية بشكلها الحالي. كانت تستخدم كفلاتر أو مرشحات قابلة للتكيف (Adaptive Filter) لإلغاء الصدى من خطوط الهاتف. وما تزال تستعمل تجاريًّا حتى هذا الوقت.

تاريخ

عدل

الأعمال المبكرة

عدل

تستند الشبكات العصبية العميقة المعاصرة إلى أسس إحصائية عريقة تعود إلى ما يزيد على قرنين من الزمان.[5] أبسط نماذج الشبكات العصبية ذات التغذية الأمامية هي الشبكات الخطية التي تتألف من طبقة واحدة من العُقد العصبية ذات دوال تنشيط خطية.[6] وفيها تتدفق المدخلات مباشرة إلى المخرجات عبر مجموعة من الأوزان.[7] يُحسب مجموع حاصل ضرب الأوزان بالمدخلات في كل عقدة. ويتم تقليل متوسط مربعات الأخطاء بين هذه المخرجات المحسوبة والقيم المستهدفة المعطاة من خلال إجراء تعديلات على الأوزان.[8] تُعرف هذه التقنية منذ أكثر من قرنين باسم طريقة المربعات الدنيا أو الانحدار الخطي. وقد استُخدمت كأداة لإيجاد أفضل ملاءمة خطية لمجموعة من النقاط من قبل ليجاندر (1805) وغاوس (1795) للتنبؤ بحركة الكواكب.[9]

تاريخيًا، تعمل الحواسيب الرقمية، على غرار معمارية فون نيومان، على تنفيذ سلسلة متعاقبة من الأوامر الصريحة مع الوصول إلى الذاكرة عبر مجموعة من المعالجات. وفي المقابل، نشأت بعض الشبكات العصبونية من محاولات محاكاة معالجة المعلومات في الأنظمة الحيوية عبر إطار الاتصال. وخلافًا لنموذج فون نيومان، لا تفصل الحوسبة الاتصالية بين الذاكرة والمعالجة.

درس وارن مكولوخ ووالتر بيتس نموذجًا حاسوبيًا للشبكات العصبية لا يعتمد على التعلم.[10][11] وقد مهد هذا النموذج السبيل لانقسام البحث في هذا المجال إلى اتجاهين رئيسيين: الأول يركز على العمليات البيولوجية، والثاني يركز على تطبيق الشبكات العصبية في مجال الذكاء الاصطناعي.

وفي أواخر الأربعينيات من القرن الماضي، اقترح الدكتور دونالد أولدينغ هيب فرضية تعليمية تستند إلى آلية اللدونة العصبية، عُرفت بنظرية هيب.[12] وقد استُخدم هذا المفهوم في العديد من الشبكات العصبية الأولى، مثل بيرسيبترون الذي ابتكره روزنبلات وشبكة هوبفيلد. واستخدم فارلي وكلارك الحواسيب لمحاكاة شبكة هيب.[13] كما أنشأ "روتشستر"، و"هولاند"، و"هابيت"، و"دودا" آلات حوسبة أخرى للشبكات العصبية.[14]

في 1958 وصف العالم النفسي فرانك روزنبلات البيرسيبترون، [15] كأحد أوائل الشبكات العصبية الاصطناعية التي طُبِّقت عمليًا، [16][17] بدعم من مكتب أبحاث البحرية الأمريكي.[18][19] وقد أشار "آر دي جوزيف" (1960) إلى جهاز سابق شبيه بالبيرسيبترون لفارلي وكلارك، قائلًا: "سبق فارلي وكلارك من مختبر لينكولن بمعهد ماساتشوستس للتكنولوجيا بالفعل روزنبلات في تطوير جهاز يشبه البيرسيبترون".[8][20] ومع ذلك، "تخلَّيا عن الموضوع". وقد أثار البيرسيبترون حماسًا عامًا بشأن البحث في الشبكات العصبية الاصطناعية، مما دفع الحكومة الأمريكية إلى زيادة تمويلها. وساهم ذلك في "العصر الذهبي للذكاء الاصطناعي" الذي تغذَّى بالادعاءات المتفائلة التي أطلقها علماء الحاسوب بشأن قدرة البيرسيبترون على محاكاة الذكاء البشري.[21]

لم تكن الشبكات العصبية الاصطناعية من نوع البيرسيبترونات في بداياتها مزودة بوحدات خفية قابلة للتكيّف. ومع ذلك، فقد أطلق جوزيف (1960) فكرة البيرسيبترونات متعددة الطبقات والتي تضم طبقة خفية قابلة للتكيّف.[20] وقد استشهد روزنبلات (1962) بهذه الأفكار واعتمد عليها، [22] كما أثنى على إسهامات "إتش دي بلوك"، و"بي دبليو نايت". غير أن هذه المساعي المبكرة لم تسفر عن تطوير خوارزمية تعليم فاعلة للوحدات الخفية، وهو ما يُعرف اليوم بالتعليم العميق.

الانفراجات الكبرى في التعلم العميق خلال الستينيات والسبعينيات

عدل

أُجريت خلال الستينيات والسبعينيات من القرن العشرين أبحاث أساسية في مجال الشبكات العصبية الاصطناعية. وكانت أول خوارزمية فعالة للتعلم العميق هي طريقة المجموعة لمعالجة البيانات، وهي طريقة لتدريب الشبكات العصبية العميقة بشكل عشوائي، وقد نشرها أليكسي إيفاخنكو ولابا في أوكرانيا عام 1965. اعتبرها الباحثان نوعًا من الانحدار متعدد الحدود،[23] أو تعميمًا لبيرسيبترون روزنب لات.[24] وقد وصفت ورقة بحثية عام 1971 شبكة عميقة مكونة من ثماني طبقات، تم تدريبها باستخدام هذه الطريقة، [25] والتي تستند إلى التدريب طبقة تلو طبقة من خلال تحليل الانحدار. ويتم تقليم الوحدات الخفية الزائدة باستخدام مجموعة تحقق منفصلة. وبما أن دوال التنشيط للعُقد هي كثيرات حدود كولموغوروف-جابور، فإن هذه كانت أيضًا أول الشبكات العميقة بوحدات ضربية أو "بوابات".[8]

نُشر أول بيرسيبترون متعدد الطبقات للتعلم العميق مدرب بتقنية التدرج العشوائي عام 1967 على يد العالم شونييتشي أماري.[26][27] وفي تجارب حاسوبية أجراها طالب أماري، وهو سايتو، تمكنت الشبكة العصبية ذو المستقبلات متعددة الطبقات (MLP) والتي تتكون من خمس طبقات، اثنتان منها قابلتان للتعديل، من تعلم تمثيلات داخلية لتصنيف فئات أنماط غير خطية قابلة للفصل.[8] وقد أدت التطورات المتلاحقة في الأجهزة وضبط المعلمات الفائقة إلى جعل تقنية النزول التدرجي العشوائي الشامل هي التقنية السائدة حاليًا في تدريب هذه الشبكات.

في عام 1969، قدم كوني هيكو فوكوشما دالة التنشيط الخطي المصحح.[8][28][29] أصبح المُصحح دالة التنشيط الأكثر شيوعًا للتعلم العميق.[30] ومع ذلك، توقف البحث في الولايات المتحدة بعد عمل مينسكي وبايبرت في العام ذاته، [31] اللذان أكدا أن البيرسيبترونات الأساسية غير قادرة على معالجة بوابة الفصل الإقصائي. وقد كانت هذه الرؤية غير ذات صلة بالشبكات العميقة لإيفاخنكو (1965) وأماري (1967).

في عام 1976 قُدم التعلم الانتقالي في تعلم الشبكات العصبونية.[32][33]

قدِمَتْ الأسس الأولى لِبناء الشبكات العصبونية الالتفافية (CNNs) في مجال التعلم العميق عبر إدراج طبقات الالتفاف وتقليص الحجم ونسخ الأوزان، وذلك بفضل النموذج النيوكونييترون الذي طرحه كوني هيكو فوكوشيما عام 1979، رغم عدم تدريبه باستخدام خوارزمية الانتشار العكسي.[34][35][36]

الانتشار العكسي

عدل

يُعد الانتشار العكسي تطبيقًا عمليًا لقاعدة السلسلة التفاضلية التي وضعها غوتفريد لايبنتس عام 1673، [37] وذلك في سياق الشبكات العصبية الاصطناعية. ورغم ظهور مصطلح مصطلح "أخطاء الانتشار العكسي" عام 1962 على يد "روزنب لات"، [22] إلا أنه لم يتمكن من تحديد آلية تنفيذه. بيد أن "هنري جي كيلي" كان قد توصل إلى فكرة مشابهة للانتشار العكسي عام 1960 في سياق نظرية التحكم.[38]

في عام 1970 قدم "سيبو ليناينما" الشكل الحديث للانتشار العكسي في أطروحته للماجستير، [8][39][40] وأعاد "جي إم أستروفسكي" وآخرون نشره عام 1971.[41][42] وفي عام 1982 طبق "بول ويربوس" الانتشار العكسي على الشبكات العصبية، [43][44] رغم أن أطروحته للدكتوراه عام 1974، التي أعيد نشرها كتابًا عام 1994، [45] لم تتضمن وصفًا تفصيليًا للخوارزمية.[42] وفي عام 1986 عمم "ديفيد إي روميلهارت" وآخرون الانتشار العكسي دون الإشارة إلى الأعمال السابقة.[46]

الشبكات العصبية التلافيفية

عدل

قدَّمَتْ شبكة كونييهيكو فوكوشيما العصبية التلافيفية (CNN) في عام 1979 مفهوم التجميع الأعظمي، وهو إجراء تقليص شائع في بنية هذه الشبكات.[34] وقد أصبحت هذه الشبكات فيما بعد أداةً أساسيةً في مجال الرؤية الحاسوبية.[47]

وفي سياقٍ آخر، استخدمت الشبكة العصبية للتأخير الزمني (TDNN) التي طرحها ألكسندر وايبل عام 1987 التلافيف ومشاركة الأوزان والانتشار العكسي لتطبيق مبادئ الشبكات التلافيفية على التعرف على الأصوات اللغوية.[48][49] كما طبق "وي زانغ" في العام نفسه شبكة تلافيفية مُدرَّبة بالانتشار العكسي للتعرف على الأبجدية.[50] وفي عام 1989 طوَّر يان ليكون وزملاؤه شبكة عصبية التفافية تُعرف باسم "لي نت" خصيصًا للتعرف على رموز البريد البريدي المكتوبة بخط اليد.[51] وتلا ذلك في العام التالي تطبيق "وي زانغ" لشبكة عصبية التفافية على أجهزة الحوسبة البصرية.[52]

وشهد عام 1991 تطبيقًا واسعًا للشبكات العصبية التلافيفية في مجال الطب، حيث استخدمت في تجزئة الأجسام في الصور الطبية، [53] وكشف سرطان الثدي في صور الثدي الشعاعية.[54] وفي عام 1998 قدم يان ليكون وزملاؤه شبكة "لي نت 5" ذات السبعة مستويات، والتي حققت نجاحًا كبيرًا في تصنيف الأرقام المكتوبة بخط اليد، مما أدى إلى اعتمادها من قبل العديد من البنوك للتعرف على الأرقام على الشيكات الرقمية.[55]

منذ عام 1988 فصاعدًا، شهد مجال توقع بنية البروتين تطورات ملحوظة بفضل استخدام الشبكات العصبية.[56][57] ولا سيما عندما دُربت أولى الشبكات المتسلسلة على الملفات الشخصية (المصفوفات) الناتجة عن محاذاة تسلسلات متعددة.[58]

الشبكات العصبية المتكررة

عدل

كانت الميكانيكا الإحصائية من أصول الشبكات العصبية الدورية الأساسية. ففي عام 1972 اقترح شونييتشي أماري تعديل أوزان نموذج إيزينج بقاعدة التعلم العصبونية ليصبح نموذجًا للذاكرة الترابطية، مُضيفًا بذلك عنصر التعلم.[59] وقد اشتهر هذا النموذج باسم شبكة هوبفيلد بعد أن تطرق إليه جون هوبفيلد عام 1982.[60] كما كان لعلم الأعصاب دور أساسي في نشأة الشبكات العصبية الدورية. فكلمة "دورية" هنا تستمد معناها من الهياكل الحلقية الموجودة في التشريح العصبي. فقد لاحظ كاخال عام 1901 وجود "دوائر نصف دائرية دورية" في قشرة المخيخ.[61] واعتبر هيب أن "الدائرة المرتدة" هي تفسير محتمل للذاكرة قصيرة المدى.[62] كذلك، فقد أشار مقال ماكولوخ وبيتس (1943) إلى أن الشبكات العصبية التي تحتوي على دورات يمكن أن تتأثر أنشطتها الحالية بأنشطتها السابقة إلى أجل غير مسمى.[10]

برزت "المصفوفة التكيفية المتقاطعة" في 1982 وهي عبارة عن شبكة عصبية تكرارية، ذات بنية مصفوفة بدلًا من البنية المتعددة الطبقات.[63][64] اعتمدت هذه الشبكة على اتصالات تكرارية مباشرة من المخرجات إلى مدخلات المراقب (التدريب). ولم تقتصر مهمتها على حساب الأفعال (القرارات) فحسب، بل امتدت لتقدير حالات داخلية (عواطف) للمواقف الناتجة. وبإلغاء المراقب الخارجي، أضفت هذه الشبكة خاصية التعلم الذاتي إلى عالم الشبكات العصبية.

شهد مجال علم النفس الإدراكي في مطلع الثمانينات نقاشًا علميًا عميقًا حول العلاقة التفاعلية بين الإدراك والعاطفة. وقد برز هذا النقاش جليًا في مجلة "العالم النفسي الأمريكي"، حيث طرح زاجونت عام 1980 فرضية أن العاطفة تسبق الإدراك وتحدث بشكل مستقل عنها. وفي المقابل، ذهب لازاروس في نفس العام إلى أن الإدراك هو المحرك الأول للعاطفة ولا يمكن فصله عنها.[65][66] وقد قدم الباحثون في ذلك العام نموذجًا جديدًا أسموه "المصفوفة التكيفية المتقاطعة"، وهو نموذج شبكي يهدف إلى توضيح هذه العلاقة المعقدة بين المتغيرين. يُعد هذا النموذج مثالًا حيًا على التكامل بين العلوم المعرفية والذكاء الاصطناعي، حيث استخدمت الشبكات العصبية التكرارية كأداة لتحاكي هذه العلاقة.[63][67]

كان من أوائل الأعمال المؤثرة في هذا المجال شبكة جوردن (1986) وشبكة إلمان (1990)، اللتان طبقتا الشبكات العصبونية المتكررة لدراسة علم النفس المعرفي.

في الثمانينيات لم تكن خوارزمية الانتشار العكسي تؤتي ثمارها على النحو الأمثل مع الشبكات العصبونية المتكررة العميقة. ولتجاوز هذه المعضلة، اقترح يورغن شميدهوبر عام 1991 ما يُسمى "المجزئ التسلسلي العصبي" أو "ضاغط التاريخ العصبي"، [68][69] والذي قدم مفاهيم أساسية مثل التدريب الذاتي المسبق (الـ "P" في نموذج ChatGPT) وتقطير المعرفة العصبية.[8] وفي عام 1993 تمكن نظام ضاغط التاريخ العصبي من حل مسألة "التعلم العميق جدًّا" التي تتطلب أكثر من ألف طبقة متتالية في شبكة عصبونية متكررة ذات بنية زمنية.[70]

في 1991 حدد "سيب هوخريتر" في رسالته للدراسات العليا مشكلة التدرج المتلاشية وحللها، [71] واقترح اتصالات متبقية متكررة كحلٍ لها.[71][72] وقدّم هو و"شميدهوبر" الذاكرة قصيرة المدى المطولة (LSTM)، والتي سجلت أرقامًا قياسية في دقة العديد من مجالات التطبيقات.[73][74] غير أن هذه لم تكن بعد النسخة الحديثة من الذاكرة القصيرة المدى المطولة، والتي تطلبت بوابة النسيان، التي تم تقديمها في 1999.[75] وأصبحت فيما بعد الخيار الافتراضي لهندسة الشبكات العصبية المتكررة.

خلال الفترة الممتدة من 1985 إلى 1995، مستوحاة من الميكانيكا الإحصائية، طُورَت العديد من الهياكل والأساليب على يد تيري سيجنوفسكي، وبيتر داين، وجيفري هينتون، وغيرهم، ومنها آلة بولتزمان، [76] وآلة بولتزمان المقيدة، [77] وآلة هلمهولتز، [78] وخوارزمية اليقظة والنوم.[79] وقد صُممت هذه النماذج للتعلم غير الخاضع للإشراف للنماذج التوليدية العميقة.

التعلم العميق

عدل

بين عامي 2009 و2012 بدأت الشبكات العصبية الاصطناعية تتفوق في مسابقات التعرف على الصور، واقتربت من مستوى الأداء البشري في مختلف المهام، لاسيما في مجالي التعرف على الأنماط والكتابة اليدوية.[80][81] وفي عام 2011 حققت شبكة عصبية تُدعى "دان نت"، [82][83] صمّمها "دان سيريسان" و"أولي ماير" و"جوناثان ماسكي" و"لوكا ماريا جامبارديلا" و"يورغن شميدهوبر"، إنجازًا بارزًا بتجاوزها الأداء البشري في مسابقة التعرف على الأنماط البصرية، متفوقة على الأساليب التقليدية بنسبة تصل إلى ثلاثة أضعاف.[36] وبعد ذلك حصدت هذه الشبكة انتصارات أخرى في مسابقات مماثلة.[84][85] كما أظهر الباحثون أن تقنية التجميع العظمى في الشبكات العصبية التلافيفية، عند تنفيذها على وحدات معالجة الرسوميات، أدت إلى تحسين الأداء بشكل ملحوظ.[86]

في شهر أكتوبر من عام 2012 حققت شبكة ألكسنت، التي صممها كلٌ من أليكس كريجفسكي، وإيليا سوتسكيفر وجيفري هينتون، [87] فوزًا ساحقًا في مسابقة "إيمج نت" واسعة النطاق، متفوقة بشكل كبير على أساليب التعلم الآلي التقليدية. وشملت التطورات اللاحقة تحسينات تدريجية على الشبكة، مثل شبكة VGG-16 التي صممها كارين سيمونيان وأندرو زيسرمان، [88] وشبكة "إنسبشن 3" التي طورتها شركة جوجل.[89]

في 2012 طور كلٌ من أندرو نج وجيف دين شبكة عصبية صناعية استطاعت التعرف على مفاهيم معقدة، كالأشجار والقطط، وذلك بمجرد عرض كميات هائلة من الصور عليها دون الحاجة إلى تدريبها بشكل مباشر على هذه المفاهيم.[90] وقد أدى هذا التقدم، إلى جانب التطور الكبير في قوة الحواسيب، وخاصة وحدات معالجة الرسوميات، والحوسبة الموزعة، إلى استخدام شبكات عصبية أكبر وأعقد، لاسيما في مجال معالجة الصور والرؤية الحاسوبية. وقد أُطلق على هذا المجال الجديد اسم "التعلم العميق".[91]

قُدمت "دالة الأساس الشعاعي"، و"شبكات التموج" عام 2013 وسرعان ما ثبت تفوق هذه الشبكات على غيرها في قدرتها على التقريب، مما أدى إلى تطبيقها في مجالات التعرف غير الخطي والتصنيف.[92]

برزت الشبكات الخصومية التوليدية (GANs) كأداة قوية في مجال النمذجة التوليدية خلال العقد الماضي، حيث حققت قفزات نوعية في مجال توليد الصور والفيديوهات وغيرها من البيانات. يعود الفضل في طرح هذه الفكرة إلى يورغن شميدهوبر عام 1991 تحت مسمى "الفضول الاصطناعي"، إلا أن إيان جودفيلو وزملاؤه هما من صاغوها بشكلها الحالي وتطويراها بشكل كبير عام 2014.[93]

تعتمد آلية عمل الشبكات الخصومية التوليدية على تنافس مستمر بين شبكتين عصبيتين: شبكة توليدية وشبكة تمييزية. تعمل الشبكة التوليدية على إنشاء بيانات جديدة تحاكي البيانات الحقيقية، بينما تسعى الشبكة التمييزية إلى التمييز بين البيانات الحقيقية والوهمية التي أنشأتها الشبكة التوليدية. هذا التنافس المستمر يدفع كلا الشبكتين إلى التحسن المستمر، مما يؤدي إلى توليد نماذج أكثر واقعية.[94][95]

شهدت الشبكات الخصومية التوليدية تطورات ملحوظة خلال السنوات الأخيرة، حيث حققت جودة صور ممتازة بفضل نماذج مثل "ستايل جان" التي طورتها شركة إنفيديا عام 2018، [96] والتي استندت في تصميمها على "Progressive GAN" الذي طرحه :ترو كاراس" وزملاؤه.[97] تتميز هذه النماذج بقدرتها على توليد صور عالية الدقة والواقعية، حيث تبدأ بإنشاء صور بدقة منخفضة ثم تعمل على تطويرها تدريجيًا حتى تصل إلى الدقة المطلوبة.

حققت الشبكات الخصومية التوليدية شهرة واسعة واستخدامات متنوعة، لا سيما في مجال توليد الصور، مما أثار نقاشات حول الأخلاقيات المرتبطة بصور الفوتوغرافية المزيفة.[98] ومع ذلك، فقد شهدت السنوات الأخيرة بروز نماذج جديدة مثل نماذج الانتشار التي ظهرت عام 2015، [99] والتي تفوقت على الشبكات الخصومية التوليدية في بعض المجالات. ومن الأمثلة البارزة على هذه النماذج نموذجي دال-إي وستيبل ديفيوجن.

في 2014 كان أحدث ما انتهت إليه الأبحاث العلمية في حقل التدريب هو ما يُعرف بـ "الشبكات العصبية العميقة جدًا"، والتي تتألف من عشرين إلى ثلاثين طبقة.[100] وقد أدى تراكم هذه الطبقات العديدة إلى تدهور حاد في دقة التدريب، [101] وهي ظاهرة عُرفت بـ "مشكلة التدهور".[102] وفي العام التالي طُورت تقنيتان لتدريب هذه الشبكات العميقة جدًا: الشبكة السريعة التي نُشرت في مايو من ذلك العام، [103] والشبكة العصبية المتبقية (ResNet) في ديسمبر من العام نفسه.[104][105] وتتصرف شبكة ResNet كشبكة سريعة ذات بوابة مفتوحة.

في العقد الثاني من القرن الحادي والعشرين، شهد نموذج التسلسل تطورًا ملحوظًا بإضافة آليات الانتباه إليه، الأمر الذي أسفر عن ظهور البنية المحولية الحديثة عام 2017، كما ورد في الورقة البحثية المعنونة "الانتباه كل ما تحتاج إليه".[106] تتطلب هذه البنية وقتًا حسابيًا يتناسب طرديًا مع مربع حجم نافذة السياق. وقد أظهر وسيط الوزن السريع ليورغن شميدهوبر (1992) أن الوقت الحسابي يتناسب طرديًا مع الحجم،[107] كما ثبت لاحقًا أنه يعادل المحول الخطي غير المعياري.[8][108][109]

باتت المحولات، بفضل هذه المزايا، النموذج المفضل في مجال معالجة اللغة الطبيعية.[110] وتعتمد عليها العديد من النماذج اللغوية الكبيرة الحديثة مثل شات جي بي تي، وجي بي تي-4، وبيرت.

وصف عام لآلية عمل العصبون الاصطناعي

عدل
 
نموذج لعصبون اصطناعي.

بشكل عام يمكننا أن نقول أن كل شبكة عصبية ترتب بشكل طبقات من الخلايا الاصطناعية: طبقة داخلية وطبقة خارجية وطبقات بينهم أو مخفية تتواجد بين طبقتي الدخل وطبقة الخارج. كل خلية في إحدى هذه الطبقات يتصل بكافة العصبونات الموجودة في الطبقة التي تليه وكافة العصبونات في الطبقة التي تسبقه.

حينما فكروا في البداية وجدوا أن الخلايا العصبية تقوم بعملية جمع الإشارات بمعني أنه توجد وصلتين لخلية عصبية مثلا وكل وصلة عليها إشارة تكون النتيجة هي محصلة الإشارات بالجمع العادي ومن ثم وجدوا أن كل عصبون يستطيع أن يقوم بعمل تكبير أو تصغير فتم إضافة عامل اسمه (Weighting Factor) بمعني أنه إذا كان هناك خلية مثلا ولها مدخلان فيتم ضرب الإشارة الأولى في المعامل الخاص بالعصبون هذا وكذا للمدخل الثاني ومن ثم يتم جمعهم وعلي ذلك تم بناء النظام الهندسي للخلايا الصناعية مع الأخذ في الاعتبار أنه ليس صحيحًا 100% بالنسبة للخلايا العصبية البيولوجية كما سيوضح لاحقا.

طريقة معالجة المعلومات

عدل

كل اتصال بين عصبون وآخر يتميز بارتباطه بقيمة تدعى الوزن (Weighting) وهي تشكل مدى أهمية الارتباط بين هذين العنصرين، يقوم العصبون بضرب كل قيمة دخل واردة من عصبونات الطبقة السابقة بأوزان الاتصالات مع هذه العصبونات، من ثم جمع نواتج الضرب جميعًا، ثم إخضاع النتيجة لتابع تحويل يختلف حسب نوع العصبون، ناتج تابع التحويل يعتبر خرج العصبون الذي ينقل إلى عصبونات الطبقة اللاحقة.

اختلاف مع الخلايا العصبية البيولوجية

عدل

الخلايا العصبية البيولوجية هي أعقد كثيرًا فيوجد مثلا ثلاثة أنواع للخلايا إما خلايا متواجدة داخل مكان واحد (Local Network Cell) وفي الغالب تكون مستقبلة excitatory أو محدثة inhibitory للإشارة Spike أو خلايا اتصال المدى الطويل (long Range connection) وهي خلايا تربط بين أماكن مختلفة من المخ وفي الغالب تكون مستقبلة أو خلايا حساب المجموع.

يوجد شيء اسمه Dendrite أو العصبون وهذا في النموذج الهندسي عبارة عن سلكة ليس لها تأثير على الإشارة الداخلة للخلية لكن في الحقيقة فإن ذلك الجزء تعتبر مجموعة من الدوائر الإلكترونية القادرة علي إحداث الإشارة ذاتيًّا وهي تعامل معاملة المكثفات والملفات Active Component كما أنه وجد أن هذة العصبونات لها تأثير علي بعض فمثلا إذا تواجدت العصبونات بجانب بعض فتجمع الإشارة بجمع غير خطي nonlinear أما إذا كان العصبونات بعيدة عن بعض فتجمع جمع خطي عادي.

الخلايا العصبية البيولوجية قادرة علي تغيير معاملات العصبونات Plasticity وهذا معناه أنها قادرة علي تغيير تشكيلها لمناسبة أقصي مجهود مطلوب بأقل الوصلات.

وتقوم بعملية التغيير هذه بطريقتين إما طريقة اسمها Long Term Plasticity وهذا معناه تغيير معاملات العصبونات وذلك أيضًا معناه تغيير وظيفة الخلايا الصناعية وهذا معروف فمثلا خلايا النظر في الكفيف تغير وظيفتها بعد زمن معين من عدم العمل إلى وظيفة خلايا سمعية وذلك يتم عن طريق تغيير المعاملات والطريقة الأخرى هي Short Term Plasticity وهذا معناه أن الخلايا العصبية قادرة علي تغيير حجم الإشارة الخارجه منها حسب الوقت والظروف بمعني أنه في بعض الأحيان يكون الخارج منها مكبرًا بصورة كبيرة وبعض الأحيان الأخرى يكون الخارج مصغرً ولا زالت الأسباب غير معروفه حتي الآن.

البنية

عدل

تعتبر الشبكات العصبونية الاصطناعية، أو اختصارًا الشبكات العصبونية، مجموعة متوازية من وحدات المعالجة الصغيرة والبسيطة التي تدعى بالعقد أو العصبونات، في حين تكتسب الاتصالات البينية بين مختلف هذه الوحدات أهمية خاصة وتقوم بدور كبير في خلق ذكاء الشبكة، لكن على العموم ورغم أن الفكرة أساسًا مستوحاة من آلية عمل العصبونات الدماغية فلا يجب أن نخلط كثيرًا أو نشابه بين الدماغ والشبكات العصبونية فالشبكات العصبونية أصغر وأبسط من العصبونات البيولوجية وقد تكون مجرد وحدات افتراضية تنشؤها برامج الحاسب، كما أن آلية عمل العصبونات الاصطناعية تقتبس بعض ميزات العصبون البيولوجي ولا تشابهه تمامًا، بالمقابل أضيفت العديد من الميزات وتقنيات المعالجة إلى العصبونات الاصطناعية بناء على أفكار رياضية أو هندسية، وهذه الإضافات أو أساليب العمل الجديدة (بعضها مقتبس من الإحصاء أو من نظرية المعلومات) لا ترتبط بالعصبونات البيولوجية أبدًا. بالمقابل تبدي الشبكات العصبونية ميزة مهمة كان الدماغ يتفرد بها ألا وهي التعلم وهذا ما يمنح هذه الشبكات أهمية خاصة في الذكاء الصناعي.

اقرأ أيضا: عصبون اصطناعي، بيرسيبترون

نماذج الشبكات العصبونية

عدل

تم استيحاء آلية عمل العصبون الاصطناعي من عصبونات الدماغ: ففي العصبونات الحيوية، يمكن أن ننسب لكل مشبك اتصالًا قادمًا incoming synapse (أي مشابك التفرعات العصبية dendrite) قيمة تدعى وزن المشبك weight تساعد هذه القيمة في نمذجة المشبك (عن طريق تحديد قيمته وأهميته) فالوزن يحدد قوة هذا المشبك وأثره في العصبون. يضرب وزن كل مشبك بالدخل القادم، ومن ثم تجمع نواتج الضرب لكل المشابك القادمة. عادة ما تكون العصبونات البيولوجية تابعة لقاعدة قيمة العتبة 'threshold value' فإذا كان المجموع الموزون weighted Sum لقيم الدخل أكبر من قيمة معينة تدعى العتبة threshold، يضطرم العصبون أو لِنَقُل أنه يتفعّل مرسلا إشارة كهربائية تدعى كمون الفعل على طول المحور العصبي axon ومن ثم تصل هذه الإشارة عن طريق تفرعات المحور إلى كل المشابك الخارجة outgoing synapses التي تتصل بعصبونات أخرى في الدماغ

الشبكات العصبونية النموذجية تحاول أن تقلد هذا السلوك، فكل عقدة عصبونية تتلقى مجموعة من المدخلات عن طريق اتصالاتها بالعصبونات القبلية وكل عقدة لها تابع تفعيل activation function أو تابع تحويل transfer function، يحدد للعقدة متى وكيف تعمل أي لحظة وقيمة الخرج التي يجب أن تعطيها تمامًا كما العصبون البيولوجي.

أبسط توابع التحويل هو تابع قيمة العتبة الذي يعمل العصبون على أساسه: معطيا قيمة 1 إذا كان المجموع الموزون لقيم الداخلي أكبر من قيمة معينة تدعى العتبة و 0 إذا كان المجموع الموزون أقل من العتبة. لكن توابع التحويل يمكن لها أن تأخذ أشكالا أخرى أكثر تعقيدًا أهمها تابع السيغمويد (التابع الأسي), ولا تخلو شبكة من بعض عقد عصبية تملك تابع تحويل أسي، بشكل عام معظم توابع التحويل تحول قيمة المجموع الموزون لقيم الدخل إلى قيمة وحيدة محصورة في المجال [0-1].

واحدة من أهم أنواع الشبكات العصبونية: الشبكة العصبونية أمامية التغذية وهي مجموعة عقد عصبونية مرتبة بشكل طبقات. ترتبط هذه العصبونات مع بعضها عادة بحيث يرتبط كل عصبون في طبقة ما بجميع العصبونات في الطبقة التالية (لا ترتبط عصبونات نفس الطبقة مع بعضها).

الشكل النموذجي لهذه الشبكات هو ثلاث طبقات عصبونية على الأقل تدعى (طبقة دخل input layer، طبقة مخفية hidden layer، طبقة خرج output layer) طبقة الدخل لا تقوم بأي عملية معالجة فهي ببساطة مكان تغذية الشبكة بشعاع البيانات، تقوم طبقة الدخل بعد ذلك بتغذية (نقل المعلومات) الطبقة المخفية ومن ثم تقوم الطبقة المخفية بتغذية طبقة الخرج. المعالجة الفعلية للبيانات Data تتم في الطبقة المخفية وطبقة الخرج أساسًا.

عندما يكون هناك عدد كاف من العصبونات، تكون الشبكة قادرة على التدرب training للقيام بأشياء مفيدة بالاستعانة بخوارزميات التدريب training algorithm، تعتبر الشبكات أمامية التغذية مهمة جدًا خاصة في استخدامات التصنيف الذكي والتمييز الذكي لبيانات غير مألوفة مسبقًا.

الاستعمالات

عدل

الأسس البيولوجية

عدل

تعتمد الشبكات العصبية على تقليد عمل أعصاب الدماغ.

أنواع الشبكات العصبونية

عدل
شبكات عصبونية أمامية التغذية خلفية النقل Backpropagation Feedforward Neuralnetworks.

تعليم الشبكات العصبية

عدل

الشباكات العصبونية لا تبرمج بل إنها تقوم بالتعلم وهنالك العديد من خوارزميات التعلم منها Back Propagation algorithm (وهي خوارزمية تعتمد انتشار الأخطاء من الخلف إلى الأمام لضبط أوزان الشبكة) وطريقة هيب Hebb Rule.

الآفاق

عدل
  • إن محاولة بناء شبكات عصبونية عن طريق البرمجة (أي أن الشبكة العصبونية هي عبارة عن برنامجٍ حَاسُوبيٍّ) تضع حدًّا لعدد النورونات التي نريد استعمالها لحل مشكلة معينة فاليوم يمكن بهذه الطريقة استعمال بضعة مئات من العصبونات فحسب وذلك لصعوبة تعليم الشبكات العصبونية.
  • أما الشبكات العصبونية المبنية على أسس عتادية (أي أن الشبكة النورونية هي عبارة عن وصلات كهربائية أو شيب) فإن عدد العصبونات المستعملة يصل إلى 30.000 وللمقارنة فإن الحلزون يمتلك 20.000 خلية مخية أو ما يسمى عصبونا.
  • كما أنه قد نجح بعض العلماء في تصنيع بعض الخلايا المخية انطلاقًا من بعض خلايا دماغ الفئران ثم استعمال هذه العصبونات البيولوجية في تسيير برنامج لمحاكات الطيران وهذه خطوة قد تتيح استعمال العصبونات البيولوجية لحل المسائل.

مراجع

عدل
  1. ^ مذكور في: Comprehensive Biomedical Physics. لغة العمل أو لغة الاسم: الإنجليزية. تاريخ النشر: 2014.
  2. ^ "معلومات عن شبكة عصبونية اصطناعية على موقع d-nb.info". d-nb.info. مؤرشف من الأصل في 2019-12-09.
  3. ^ "معلومات عن شبكة عصبونية اصطناعية على موقع vocab.getty.edu". vocab.getty.edu. مؤرشف من الأصل في 2020-03-25.
  4. ^ "معلومات عن شبكة عصبونية اصطناعية على موقع aleph.nkp.cz". aleph.nkp.cz. مؤرشف من الأصل في 2019-12-09.
  5. ^ Mansfield Merriman, "A List of Writings Relating to the Method of Least Squares"
  6. ^ Stigler، Stephen M. (1981). "Gauss and the Invention of Least Squares". Ann. Stat. ج. 9 ع. 3: 465–474. DOI:10.1214/aos/1176345451. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-11-26.
  7. ^ Bretscher، Otto (1995). Linear Algebra With Applications (ط. 3rd). Upper Saddle River, NJ: Prentice Hall.
  8. ^ ا ب ج د ه و ز ح Schmidhuber، Jürgen (2022). "Annotated History of Modern AI and Deep Learning". arXiv:2212.11279 [cs.NE]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  9. ^ Stigler، Stephen M. (1986). The History of Statistics: The Measurement of Uncertainty before 1900. Cambridge: Harvard. ISBN:0-674-40340-1. اطلع عليه بتاريخ 2024-11-26.
  10. ^ ا ب McCulloch، Warren S.؛ Pitts، Walter (ديسمبر 1943). "A logical calculus of the ideas immanent in nervous activity". The Bulletin of Mathematical Biophysics. ج. 5 ع. 4: 115–133. DOI:10.1007/BF02478259. ISSN:0007-4985. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-11-26.
  11. ^ Kleene، S.C. (1956). "Representation of Events in Nerve Nets and Finite Automata". Annals of Mathematics Studies. Princeton University Press. ع. 34. ص. 3–41. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2017-06-17.
  12. ^ Hebb، Donald (1949). The Organization of Behavior. New York: Wiley. ISBN:978-1-135-63190-1. مؤرشف من الأصل في 2024-04-23. اطلع عليه بتاريخ 2024-11-26.
  13. ^ Farley، B.G.؛ W.A. Clark (1954). "Simulation of Self-Organizing Systems by Digital Computer". IRE Transactions on Information Theory. ج. 4 ع. 4: 76–84. DOI:10.1109/TIT.1954.1057468. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-11-26.
  14. ^ Rochester، N.؛ J.H. Holland؛ L.H. Habit؛ W.L. Duda (1956). "Tests on a cell assembly theory of the action of the brain, using a large digital computer". IRE Transactions on Information Theory. ج. 2 ع. 3: 80–93. DOI:10.1109/TIT.1956.1056810. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-11-26.
  15. ^ Haykin (2008) Neural Networks and Learning Machines, 3rd edition
  16. ^ Rosenblatt، F. (1958). "The Perceptron: A Probabilistic Model For Information Storage And Organization in the Brain". Psychological Review. ج. 65 ع. 6: 386–408. CiteSeerX:10.1.1.588.3775. DOI:10.1037/h0042519. PMID:13602029. S2CID:12781225. مؤرشف من الأصل في 2024-10-08. اطلع عليه بتاريخ 2024-11-26.
  17. ^ Werbos، P.J. (1975). Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences. مؤرشف من الأصل في 2023-06-14. اطلع عليه بتاريخ 2024-11-26.
  18. ^ Rosenblatt، Frank (1957). "The Perceptron—a perceiving and recognizing automaton". Report 85-460-1. Cornell Aeronautical Laboratory.
  19. ^ Olazaran، Mikel (1996). "A Sociological Study of the Official History of the Perceptrons Controversy". Social Studies of Science. ج. 26 ع. 3: 611–659. DOI:10.1177/030631296026003005. JSTOR:285702. S2CID:16786738. مؤرشف من الأصل في 2023-02-23. اطلع عليه بتاريخ 2024-11-26.
  20. ^ ا ب Joseph، R. D. (1960). Contributions to Perceptron Theory, Cornell Aeronautical Laboratory Report No. VG-11 96--G-7, Buffalo.
  21. ^ Russel, Stuart; Norvig, Peter (2010). Artificial Intelligence A Modern Approach (PDF) (بالإنجليزية) (3rd ed.). United States of America: Pearson Education. pp. 16–28. ISBN:978-0-13-604259-4. Archived from the original (pdf) on 2023-01-17. Retrieved 2024-11-26.
  22. ^ ا ب Rosenblatt، Frank (1962). Principles of Neurodynamics. Spartan, New York.
  23. ^ Ivakhnenko، A. G.؛ Lapa، V. G. (1967). Cybernetics and Forecasting Techniques. American Elsevier Publishing Co. ISBN:978-0-444-00020-0. مؤرشف من الأصل في 2024-04-23. اطلع عليه بتاريخ 2024-11-26.
  24. ^ Ivakhnenko, A.G. (Mar 1970). "Heuristic self-organization in problems of engineering cybernetics". Automatica (بالإنجليزية). 6 (2): 207–219. DOI:10.1016/0005-1098(70)90092-0. Archived from the original on 2024-08-12. Retrieved 2024-11-26.
  25. ^ Ivakhnenko، Alexey (1971). "Polynomial theory of complex systems" (pdf). IEEE Transactions on Systems, Man, and Cybernetics. SMC-1 ع. 4: 364–378. DOI:10.1109/TSMC.1971.4308320. مؤرشف (PDF) من الأصل في 2017-08-29. اطلع عليه بتاريخ 2019-11-05.
  26. ^ Robbins، H.؛ Monro، S. (1951). "A Stochastic Approximation Method". The Annals of Mathematical Statistics. ج. 22 ع. 3: 400. DOI:10.1214/aoms/1177729586. مؤرشف من الأصل في 2024-09-27. اطلع عليه بتاريخ 2024-11-26.
  27. ^ Amari، Shun'ichi (1967). "A theory of adaptive pattern classifier". IEEE Transactions. ج. EC ع. 16: 279–307.
  28. ^ Fukushima، K. (1969). "Visual feature extraction by a multilayered network of analog threshold elements". IEEE Transactions on Systems Science and Cybernetics. ج. 5 ع. 4: 322–333. DOI:10.1109/TSSC.1969.300225. مؤرشف من الأصل في 2024-09-03. اطلع عليه بتاريخ 2024-11-26.
  29. ^ Sonoda، Sho؛ Murata، Noboru (2017). "Neural network with unbounded activation functions is universal approximator". Applied and Computational Harmonic Analysis. ج. 43 ع. 2: 233–268. arXiv:1505.03654. DOI:10.1016/j.acha.2015.12.005. S2CID:12149203. مؤرشف من الأصل في 2024-06-11. اطلع عليه بتاريخ 2024-11-26.
  30. ^ Ramachandran، Prajit؛ Barret، Zoph؛ Quoc، V. Le (16 أكتوبر 2017). "Searching for Activation Functions". arXiv:1710.05941 [cs.NE]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  31. ^ Minsky، Marvin؛ Papert، Seymour (1969). Perceptrons: An Introduction to Computational Geometry. MIT Press. ISBN:978-0-262-63022-1. مؤرشف من الأصل في 2024-04-27. اطلع عليه بتاريخ 2024-11-26.
  32. ^ Bozinovski S. and Fulgosi A. (1976). "The influence of pattern similarity and transfer learning on the base perceptron training" (original in Croatian) Proceedings of Symposium Informatica 3-121-5, Bled.
  33. ^ Bozinovski S.(2020) "Reminder of the first paper on transfer learning in neural networks, 1976". Informatica 44: 291–302.
  34. ^ ا ب Fukushima، K. (1979). "Neural network model for a mechanism of pattern recognition unaffected by shift in position—Neocognitron". Trans. IECE (In Japanese). J62-A ع. 10: 658–665. DOI:10.1007/bf00344251. PMID:7370364. S2CID:206775608. مؤرشف من الأصل في 2024-10-03. اطلع عليه بتاريخ 2024-11-26.
  35. ^ Fukushima، K. (1980). "Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position". Biol. Cybern. ج. 36 ع. 4: 193–202. DOI:10.1007/bf00344251. PMID:7370364. S2CID:206775608. مؤرشف من الأصل في 2024-10-03. اطلع عليه بتاريخ 2024-11-26.
  36. ^ ا ب Schmidhuber، J. (2015). "Deep Learning in Neural Networks: An Overview". Neural Networks. ج. 61: 85–117. arXiv:1404.7828. DOI:10.1016/j.neunet.2014.09.003. PMID:25462637. S2CID:11715509. مؤرشف من الأصل في 2024-09-27. اطلع عليه بتاريخ 2024-11-26.
  37. ^ Leibniz, Gottfried Wilhelm Freiherr von (1920). The Early Mathematical Manuscripts of Leibniz: Translated from the Latin Texts Published by Carl Immanuel Gerhardt with Critical and Historical Notes (Leibniz published the chain rule in a 1676 memoir) (بالإنجليزية). Open court publishing Company. ISBN:9780598818461. Archived from the original on 2024-06-24. Retrieved 2024-11-26.
  38. ^ Kelley، Henry J. (1960). "Gradient theory of optimal flight paths". ARS Journal. ج. 30 ع. 10: 947–954. DOI:10.2514/8.5282. مؤرشف من الأصل في 2024-10-01. اطلع عليه بتاريخ 2024-11-26.
  39. ^ Linnainmaa, Seppo (1970). The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors (Masters) (بالفنلندية). University of Helsinki. p. 6–7.
  40. ^ Linnainmaa، Seppo (1976). "Taylor expansion of the accumulated rounding error". BIT Numerical Mathematics. ج. 16 ع. 2: 146–160. DOI:10.1007/bf01931367. S2CID:122357351. مؤرشف من الأصل في 2024-08-15. اطلع عليه بتاريخ 2024-11-26.
  41. ^ Ostrovski, G.M., Volin,Y.M., and Boris, W.W. (1971). On the computation of derivatives. Wiss. Z. Tech. Hochschule for Chemistry, 13:382–384.
  42. ^ ا ب Schmidhuber، Juergen (25 أكتوبر 2014). "Who Invented Backpropagation?". IDSIA, Switzerland. مؤرشف من الأصل في 2024-07-30. اطلع عليه بتاريخ 2024-09-14.
  43. ^ Werbos، Paul (1982). "Applications of advances in nonlinear sensitivity analysis" (PDF). System modeling and optimization. Springer. ص. 762–770. مؤرشف (PDF) من الأصل في 2016-04-14.
  44. ^ Anderson, James A.; Rosenfeld, Edward, eds. (2000). Talking Nets: An Oral History of Neural Networks (بالإنجليزية). The MIT Press. DOI:10.7551/mitpress/6626.003.0016. ISBN:978-0-262-26715-1. Archived from the original on 2024-10-12. Retrieved 2024-11-26.
  45. ^ Werbos، Paul J. (1994). The Roots of Backpropagation : From Ordered Derivatives to Neural Networks and Political Forecasting. New York: John Wiley & Sons. ISBN:0-471-59897-6.
  46. ^ Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (Oct 1986). "Learning representations by back-propagating errors". Nature (بالإنجليزية). 323 (6088): 533–536. Bibcode:1986Natur.323..533R. DOI:10.1038/323533a0. ISSN:1476-4687. Archived from the original on 2023-10-17. Retrieved 2024-11-26.
  47. ^ Fukushima، Kunihiko؛ Miyake، Sei (01 يناير 1982). "Neocognitron: A new algorithm for pattern recognition tolerant of deformations and shifts in position". Pattern Recognition. ج. 15 ع. 6: 455–469. Bibcode:1982PatRe..15..455F. DOI:10.1016/0031-3203(82)90024-3. ISSN:0031-3203. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-11-26.
  48. ^ Waibel، Alex (ديسمبر 1987). "Phoneme Recognition Using Time-Delay Neural Networks" (PDF). Meeting of the Institute of Electrical, Information and Communication Engineers (IEICE). Tokyo, Japan. مؤرشف من الأصل (pdf) في 2024-09-17. اطلع عليه بتاريخ 2024-11-26.
  49. ^ Alexander Waibel et al., Phoneme Recognition Using Time-Delay Neural Networks IEEE Transactions on Acoustics, Speech, and Signal Processing, Volume 37, No. 3, pp. 328. – 339 March 1989. نسخة محفوظة 2024-12-11 على موقع واي باك مشين.
  50. ^ Zhang، Wei (1988). "Shift-invariant pattern recognition neural network and its optical architecture". Proceedings of Annual Conference of the Japan Society of Applied Physics. مؤرشف من الأصل في 2024-06-19. اطلع عليه بتاريخ 2024-11-26.
  51. ^ LeCun et al., "Backpropagation Applied to Handwritten Zip Code Recognition", Neural Computation, 1, pp. 541–551, 1989.
  52. ^ Zhang، Wei (1990). "Parallel distributed processing model with local space-invariant interconnections and its optical architecture". Applied Optics. ج. 29 ع. 32: 4790–7. Bibcode:1990ApOpt..29.4790Z. DOI:10.1364/AO.29.004790. PMID:20577468. مؤرشف من الأصل في 2024-04-16. اطلع عليه بتاريخ 2024-11-26.
  53. ^ Zhang، Wei (1991). "Image processing of human corneal endothelium based on a learning network". Applied Optics. ج. 30 ع. 29: 4211–7. Bibcode:1991ApOpt..30.4211Z. DOI:10.1364/AO.30.004211. PMID:20706526. مؤرشف من الأصل في 2024-06-19. اطلع عليه بتاريخ 2024-11-26.
  54. ^ Zhang، Wei (1994). "Computerized detection of clustered microcalcifications in digital mammograms using a shift-invariant artificial neural network". Medical Physics. ج. 21 ع. 4: 517–24. Bibcode:1994MedPh..21..517Z. DOI:10.1118/1.597177. PMID:8058017. مؤرشف من الأصل في 2024-06-20. اطلع عليه بتاريخ 2024-11-26.
  55. ^ LeCun، Yann؛ Léon Bottou؛ Yoshua Bengio؛ Patrick Haffner (1998). "Gradient-based learning applied to document recognition" (PDF). Proceedings of the IEEE. ج. 86 ع. 11: 2278–2324. CiteSeerX:10.1.1.32.9552. DOI:10.1109/5.726791. S2CID:14542261. مؤرشف من الأصل (pdf) في 2024-10-02. اطلع عليه بتاريخ 2016-10-07.
  56. ^ Qian, Ning, and Terrence J. Sejnowski. "Predicting the secondary structure of globular proteins using neural network models." Journal of molecular biology 202, no. 4 (1988): 865–884.
  57. ^ Bohr, Henrik, Jakob Bohr, Søren Brunak, Rodney MJ Cotterill, Benny Lautrup, Leif Nørskov, Ole H. Olsen, and Steffen B. Petersen. "Protein secondary structure and homology by neural networks The α-helices in rhodopsin." FEBS letters 241, (1988): 223–228
  58. ^ Rost, Burkhard, and Chris Sander. "Prediction of protein secondary structure at better than 70% accuracy." Journal of molecular biology 232, no. 2 (1993): 584–599.
  59. ^ Amari، S.-I. (نوفمبر 1972). "Learning Patterns and Pattern Sequences by Self-Organizing Nets of Threshold Elements". IEEE Transactions on Computers. ج. C-21 ع. 11: 1197–1206. DOI:10.1109/T-C.1972.223477. ISSN:0018-9340. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-11-26.
  60. ^ Hopfield، J. J. (1982). "Neural networks and physical systems with emergent collective computational abilities". Proceedings of the National Academy of Sciences. ج. 79 ع. 8: 2554–2558. Bibcode:1982PNAS...79.2554H. DOI:10.1073/pnas.79.8.2554. PMC:346238. PMID:6953413. مؤرشف من الأصل في 2024-10-03. اطلع عليه بتاريخ 2024-11-26.
  61. ^ Espinosa-Sanchez, Juan Manuel; Gomez-Marin, Alex; de Castro, Fernando (05 Jul 2023). "The Importance of Cajal's and Lorente de Nó's Neuroscience to the Birth of Cybernetics". The Neuroscientist (بالإنجليزية). DOI:10.1177/10738584231179932. hdl:10261/348372. ISSN:1073-8584. PMID:37403768. Archived from the original on 2024-10-12. Retrieved 2024-11-26.
  62. ^ "reverberating circuit". Oxford Reference. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-07-27.
  63. ^ ا ب Bozinovski, S. (1982). "A self-learning system using secondary reinforcement". In Trappl, Robert (ed.). Cybernetics and Systems Research: Proceedings of the Sixth European Meeting on Cybernetics and Systems Research. North-Holland. pp. 397–402. ISBN 978-0-444-86488-8
  64. ^ Bozinovski S. (1995) "Neuro genetic agents and structural theory of self-reinforcement learning systems". CMPSCI Technical Report 95-107, University of Massachusetts at Amherst [1] نسخة محفوظة 2024-10-08 على موقع واي باك مشين.
  65. ^ R. Zajonc (1980) "Feeling and thinking: Preferences need no inferences". American Psychologist 35 (2): 151-175
  66. ^ Lazarus R. (1982) "Thoughts on the relations between emotion and cognition" American Psychologist 37 (9): 1019-1024
  67. ^ Bozinovski, S. (2014) "Modeling mechanisms of cognition-emotion interaction in artificial neural networks, since 1981" Procedia Computer Science p. 255-263 (https://core.ac.uk/download/pdf/81973924.pdf) نسخة محفوظة 2024-09-19 على موقع واي باك مشين.
  68. ^ Schmidhuber، Jürgen (أبريل 1991). "Neural Sequence Chunkers" (PDF). TR FKI-148, TU Munich. مؤرشف من الأصل (pdf) في 2024-09-14. اطلع عليه بتاريخ 2024-11-26.
  69. ^ Schmidhuber، Jürgen (1992). "Learning complex, extended sequences using the principle of history compression (based on TR FKI-148, 1991)" (PDF). Neural Computation. ج. 4 ع. 2: 234–242. DOI:10.1162/neco.1992.4.2.234. S2CID:18271205. مؤرشف من الأصل (pdf) في 2024-09-14. اطلع عليه بتاريخ 2024-11-26.
  70. ^ Schmidhuber، Jürgen (1993). Habilitation thesis: System modeling and optimization (PDF). مؤرشف من الأصل (pdf) في 2024-08-07. اطلع عليه بتاريخ 2024-11-26. Page 150 ff demonstrates credit assignment across the equivalent of 1,200 layers in an unfolded RNN.
  71. ^ ا ب "Untersuchungen zu dynamischen neuronalen Netzen" (PDF). TR FKI-148, TU Munich. مؤرشف من الأصل (pdf) في 2015-03-06. اطلع عليه بتاريخ 2024-11-26.
  72. ^ Hochreiter، S.؛ وآخرون (15 يناير 2001). "Gradient flow in recurrent nets: the difficulty of learning long-term dependencies". في Kolen، John F.؛ Kremer، Stefan C. (المحررون). A Field Guide to Dynamical Recurrent Networks. John Wiley & Sons. ISBN:978-0-7803-5369-5. مؤرشف من الأصل في 2024-05-19.
  73. ^ Sepp Hochreiter; Jürgen Schmidhuber (21 Aug 1995), Long Short Term Memory (بالإنجليزية), QID:Q98967430
  74. ^ Hochreiter، Sepp؛ Schmidhuber، Jürgen (01 نوفمبر 1997). "Long Short-Term Memory". Neural Computation. ج. 9 ع. 8: 1735–1780. DOI:10.1162/neco.1997.9.8.1735. PMID:9377276. S2CID:1915014. مؤرشف من الأصل في 2024-09-27. اطلع عليه بتاريخ 2024-11-26.
  75. ^ Gers، Felix؛ Schmidhuber، Jürgen؛ Cummins، Fred (1999). "Learning to forget: Continual prediction with LSTM". 9th International Conference on Artificial Neural Networks: ICANN '99. ج. 1999. ص. 850–855. DOI:10.1049/cp:19991218. ISBN:0-85296-721-7. مؤرشف من الأصل في 2024-09-07. اطلع عليه بتاريخ 2024-11-26.
  76. ^ Ackley، David H.؛ Hinton، Geoffrey E.؛ Sejnowski، Terrence J. (01 يناير 1985). "A learning algorithm for boltzmann machines". Cognitive Science. ج. 9 ع. 1: 147–169. DOI:10.1016/S0364-0213(85)80012-4. ISSN:0364-0213. مؤرشف من الأصل في 2024-09-17. اطلع عليه بتاريخ 2024-11-26.
  77. ^ Smolensky، Paul (1986). "Chapter 6: Information Processing in Dynamical Systems: Foundations of Harmony Theory" (PDF). في Rumelhart، David E.؛ McLelland، James L. (المحررون). Parallel Distributed Processing: Explorations in the Microstructure of Cognition, Volume 1: Foundations. MIT Press. ص. 194–281. ISBN:0-262-68053-X.
  78. ^ Peter، Dayan؛ Hinton، Geoffrey E.؛ Neal، Radford M.؛ Zemel، Richard S. (1995). "The Helmholtz machine". Neural Computation. ج. 7 ع. 5: 889–904. DOI:10.1162/neco.1995.7.5.889. hdl:21.11116/0000-0002-D6D3-E. PMID:7584891. S2CID:1890561. مؤرشف من الأصل في 2024-09-28. اطلع عليه بتاريخ 2024-11-26.  
  79. ^ Hinton، Geoffrey E.؛ Dayan، Peter؛ Frey، Brendan J.؛ Neal، Radford (26 مايو 1995). "The wake-sleep algorithm for unsupervised neural networks". Science. ج. 268 ع. 5214: 1158–1161. Bibcode:1995Sci...268.1158H. DOI:10.1126/science.7761831. PMID:7761831. S2CID:871473. مؤرشف من الأصل في 2024-10-03. اطلع عليه بتاريخ 2024-11-26.
  80. ^ "2012 Kurzweil AI Interview". مؤرشف من الأصل في 2018-08-31. اطلع عليه بتاريخ 2024-11-26.
  81. ^ "How bio-inspired deep learning keeps winning competitions | KurzweilAI". kurzweilai.net. مؤرشف من الأصل في 2018-08-31. اطلع عليه بتاريخ 2017-06-16.
  82. ^ Cireşan، Dan Claudiu؛ Meier، Ueli؛ Gambardella، Luca Maria؛ Schmidhuber، Jürgen (21 سبتمبر 2010). "Deep, Big, Simple Neural Nets for Handwritten Digit Recognition". Neural Computation. ج. 22 ع. 12: 3207–3220. arXiv:1003.0358. DOI:10.1162/neco_a_00052. ISSN:0899-7667. PMID:20858131. S2CID:1918673. مؤرشف من الأصل في 2024-05-21. اطلع عليه بتاريخ 2024-11-26.
  83. ^ Ciresan، D. C.؛ Meier، U.؛ Masci، J.؛ Gambardella، L.M.؛ Schmidhuber، J. (2011). "Flexible, High Performance Convolutional Neural Networks for Image Classification" (pdf). International Joint Conference on Artificial Intelligence. DOI:10.5591/978-1-57735-516-8/ijcai11-210. مؤرشف (PDF) من الأصل في 2014-09-29. اطلع عليه بتاريخ 2017-06-13.
  84. ^ Ciresan، Dan؛ Giusti، Alessandro؛ Gambardella، Luca M.؛ Schmidhuber، Jürgen (2012). Pereira، F.؛ Burges، C. J. C.؛ Bottou، L.؛ Weinberger، K. Q. (المحررون). Advances in Neural Information Processing Systems 25 (pdf). Curran Associates, Inc. ص. 2843–2851. مؤرشف (PDF) من الأصل في 2017-08-09. اطلع عليه بتاريخ 2017-06-13.
  85. ^ Ciresan، D.؛ Giusti، A.؛ Gambardella، L.M.؛ Schmidhuber، J. (2013). "Mitosis Detection in Breast Cancer Histology Images with Deep Neural Networks". Medical Image Computing and Computer-Assisted Intervention – MICCAI 2013. Lecture Notes in Computer Science. ج. 7908. ص. 411–418. DOI:10.1007/978-3-642-40763-5_51. ISBN:978-3-642-38708-1. PMID:24579167. مؤرشف من الأصل في 2024-04-21. اطلع عليه بتاريخ 2024-11-26.
  86. ^ Ciresan، D.؛ Meier، U.؛ Schmidhuber، J. (2012). "Multi-column deep neural networks for image classification". 2012 IEEE Conference on Computer Vision and Pattern Recognition. ص. 3642–3649. arXiv:1202.2745. DOI:10.1109/cvpr.2012.6248110. ISBN:978-1-4673-1228-8. S2CID:2161592. مؤرشف من الأصل في 2024-09-14. اطلع عليه بتاريخ 2024-11-26.
  87. ^ Krizhevsky، Alex؛ Sutskever، Ilya؛ Hinton، Geoffrey (2012). "ImageNet Classification with Deep Convolutional Neural Networks" (pdf). NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada. مؤرشف (PDF) من الأصل في 2017-01-10. اطلع عليه بتاريخ 2017-05-24.
  88. ^ Simonyan، Karen؛ Andrew، Zisserman (2014). "Very Deep Convolution Networks for Large Scale Image Recognition". arXiv:1409.1556 [cs.CV]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  89. ^ Szegedy، Christian (2015). "Going deeper with convolutions" (PDF). Cvpr2015. arXiv:1409.4842. مؤرشف من الأصل (pdf) في 2024-09-30. اطلع عليه بتاريخ 2024-11-26.
  90. ^ Ng، Andrew؛ Dean، Jeff (2012). "Building High-level Features Using Large Scale Unsupervised Learning". arXiv:1112.6209 [cs.LG]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  91. ^ Ian Goodfellow and Yoshua Bengio and Aaron Courville (2016). Deep Learning. MIT Press. مؤرشف من الأصل في 2016-04-16. اطلع عليه بتاريخ 2016-06-01.
  92. ^ Billings، S. A. (2013). Nonlinear System Identification: NARMAX Methods in the Time, Frequency, and Spatio-Temporal Domains. Wiley. ISBN:978-1-119-94359-4.
  93. ^ Goodfellow، Ian؛ Pouget-Abadie، Jean؛ Mirza، Mehdi؛ Xu، Bing؛ Warde-Farley، David؛ Ozair، Sherjil؛ Courville، Aaron؛ Bengio، Yoshua (2014). "Generative Adversarial Networks" (pdf). Proceedings of the International Conference on Neural Information Processing Systems (NIPS 2014). Advances in Neural Information Processing Systems. ص. 2672–2680. مؤرشف (PDF) من الأصل في 2019-11-22. اطلع عليه بتاريخ 2019-08-20.
  94. ^ Schmidhuber، Jürgen (1991). "A possibility for implementing curiosity and boredom in model-building neural controllers". Proc. SAB'1991. MIT Press/Bradford Books. ص. 222–227.
  95. ^ Schmidhuber, Jürgen (2020). "Generative Adversarial Networks are Special Cases of Artificial Curiosity (1990) and also Closely Related to Predictability Minimization (1991)". Neural Networks (بالإنجليزية). 127: 58–66. arXiv:1906.04493. DOI:10.1016/j.neunet.2020.04.008. PMID:32334341. S2CID:216056336. Archived from the original on 2024-06-10. Retrieved 2024-11-26.
  96. ^ "GAN 2.0: NVIDIA's Hyperrealistic Face Generator". SyncedReview.com. 14 ديسمبر 2018. مؤرشف من الأصل في 2024-09-12. اطلع عليه بتاريخ 2019-10-03.
  97. ^ Karras، T.؛ Aila، T.؛ Laine، S.؛ Lehtinen، J. (26 فبراير 2018). "Progressive Growing of GANs for Improved Quality, Stability, and Variation". arXiv:1710.10196 [cs.NE]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  98. ^ "Prepare, Don't Panic: Synthetic Media and Deepfakes". witness.org. مؤرشف من الأصل في 2020-12-02. اطلع عليه بتاريخ 2020-11-25.
  99. ^ Sohl-Dickstein, Jascha; Weiss, Eric; Maheswaranathan, Niru; Ganguli, Surya (01 Jun 2015). "Deep Unsupervised Learning using Nonequilibrium Thermodynamics" (PDF). Proceedings of the 32nd International Conference on Machine Learning (بالإنجليزية). PMLR. 37: 2256–2265. arXiv:1503.03585. Archived from the original (pdf) on 2024-09-21. Retrieved 2024-11-26.
  100. ^ Simonyan، Karen؛ Zisserman، Andrew (10 أبريل 2015)، Very Deep Convolutional Networks for Large-Scale Image Recognition، arXiv:1409.1556
  101. ^ He، Kaiming؛ Zhang، Xiangyu؛ Ren، Shaoqing؛ Sun، Jian (2016). "Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification". arXiv:1502.01852 [cs.CV]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  102. ^ He، Kaiming؛ Zhang، Xiangyu؛ Ren، Shaoqing؛ Sun، Jian (10 ديسمبر 2015). Deep Residual Learning for Image Recognition. arXiv:1512.03385.
  103. ^ Srivastava، Rupesh Kumar؛ Greff، Klaus؛ Schmidhuber، Jürgen (2 مايو 2015). "Highway Networks". arXiv:1505.00387 [cs.LG]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  104. ^ He، Kaiming؛ Zhang، Xiangyu؛ Ren، Shaoqing؛ Sun، Jian (2016). Deep Residual Learning for Image Recognition. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE. ص. 770–778. arXiv:1512.03385. DOI:10.1109/CVPR.2016.90. ISBN:978-1-4673-8851-1. مؤرشف من الأصل في 2024-10-07. اطلع عليه بتاريخ 2024-11-26.
  105. ^ Linn, Allison (10 Dec 2015). "Microsoft researchers win ImageNet computer vision challenge". The AI Blog (بالإنجليزية). Archived from the original on 2023-05-21. Retrieved 2024-06-29.
  106. ^ Vaswani، Ashish؛ Shazeer، Noam؛ Parmar، Niki؛ Uszkoreit، Jakob؛ Jones، Llion؛ Gomez، Aidan N.؛ Kaiser، Lukasz؛ Polosukhin، Illia (12 يونيو 2017). "Attention Is All You Need". arXiv:1706.03762 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  107. ^ Schmidhuber، Jürgen (1992). "Learning to control fast-weight memories: an alternative to recurrent nets" (pdf). Neural Computation. ج. 4 ع. 1: 131–139. DOI:10.1162/neco.1992.4.1.131. S2CID:16683347. اطلع عليه بتاريخ 2024-11-26.
  108. ^ Katharopoulos، Angelos؛ Vyas، Apoorv؛ Pappas، Nikolaos؛ Fleuret، François (2020). "Transformers are RNNs: Fast autoregressive Transformers with linear attention". ICML 2020. PMLR. ص. 5156–5165. مؤرشف من الأصل في 2024-10-07. اطلع عليه بتاريخ 2024-11-26.
  109. ^ Schlag، Imanol؛ Irie، Kazuki؛ Schmidhuber، Jürgen (2021). "Linear Transformers Are Secretly Fast Weight Programmers". ICML 2021. Springer. ص. 9355–9366.
  110. ^ Wolf، Thomas؛ Debut، Lysandre؛ Sanh، Victor؛ Chaumond، Julien؛ Delangue، Clement؛ Moi، Anthony؛ Cistac، Pierric؛ Rault، Tim؛ Louf، Remi؛ Funtowicz، Morgan؛ Davison، Joe؛ Shleifer، Sam؛ von Platen، Patrick؛ Ma، Clara؛ Jernite، Yacine؛ Plu، Julien؛ Xu، Canwen؛ Le Scao، Teven؛ Gugger، Sylvain؛ Drame، Mariama؛ Lhoest، Quentin؛ Rush، Alexander (2020). "Transformers: State-of-the-Art Natural Language Processing". Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. ص. 38–45. DOI:10.18653/v1/2020.emnlp-demos.6. S2CID:208117506. مؤرشف من الأصل في 2021-06-14. اطلع عليه بتاريخ 2024-11-26.