ألفازيرو أو ألفا زيرو (بالإنجليزية: AlphaZero)‏ هو برنامج حاسوب طورته شركة ديب مايند المتخصصة في أبحاث الذكاء الاصطناعي من أجل إتقان ألعاب الشطرنج والشوغي وغو. وتستخدم خوارزميته منهجا مماثلا لمنهج ألفاغو زيرو [الإنجليزية].

أصدر فريق ديب مايند في 5 ديسمبر 2017 مطبوعة أولية عرّف فيها عن ألفازيرو، الذي حقق بعد 24 ساعة من التدريب مستوى لعب فاق مستوى البشر في هذه الألعاب الثلاثة وذلك بهزيمة البرامج أبطال العالم ستوكفيش وإلمو ونسخة 3 أيام من ألفاغو زيرو. استخدم ألفازيرو في كل حالة وحدات معالجة موتر [الإنجليزية] (TPUs) مخصصة كانت برامج غوغل قد أُمثِلت لاستخدامها.[1] تدرب ألفازيرو عبر «اللعب مع الذات» فقط باستخدام 5000 وحدة معالجة موتر من الجيل الأول لتوليد المباريات و64 وحدة معالجة موتر من الجيل الثاني لتدريب الشبكات العصبية، كل هذا بالتوازي مع عدم الوصول إلى كتب الافتتاحيات أو جداول نهاية اللعب. بعد أربع ساعات من التدريب، قدَّرت ديب مايند أن ألفازيرو كان يلعب الشطرنج بتصنييف إيلو أكبر من ستوكفيش 8، وبعد تسع ساعات من التدريب هزمت الخوارزميةُ ستوكفيش 8 في مقابلة موقتة من 100 مباراة (28 فوز، 0 خسارة و72 تعادل).[1][2][3] لعبت خوارزمية ألفازيرو المدربة على آلة وحيدة تملك أربع وحدات معالجة موتر.

نُشرت الورقة العلمية الخاصة بألفازيرو من قبل ديب مايند في دورية ساينس في 7 ديسمبر 2018.[4] وفي 2019 نشرت ديب مايند ورقة جديدة تعطي تفاصيلا حول ميوزيرو [الإنجليزية] وهي خوارزمية جديدة قادرة على تعميم عمل ألفازيرو، بحيث تلعب كلًّا من ألعاب آتاري وألعاب الرقعة من دون معرفة مسبقة باللعبة أو قوانينها.[5]

العلاقة بألفاغو زيرو

عدل

ألفازيرو هو نسخة أكثر عمومية من خوارزمية ألفاغو زيرو، ويمكنها فضلا عن لعب غو لعب الشوغي والشطرنج كذلك. من الاختلافات بين ألفازيرو وألفاغو زيرو:[1]

  • يملك ألفازيرو قواعد مبرمجة ضمنيا [الإنجليزية] لضبط وتحديد وسائط [الإنجليزية] البحث التشعبية.
  • الشبكة العصبية الآن تتحدث باستمرار.
  • غو (على خلاف الشطرنج) متناظرة تحت بعض الانعكاسات والاستدارات، وتمت برمجة ألفاغو زيرو ليستغل هذه التناظرات. أما ألفا زيرو فلا يستخدم ذلك.
  • يمكن أن تنتهي لعبة الشطرنج بالتعادل وذلك خلافا لغو، لذلك يمكن لألفازيرو أن يأخذ في الحسبان إمكانية انتهاء المباراة بالتعادل.

ستوكفيش وإلمو

عدل

بمقارنة الأبحاث في شجرة بحث مونتي كارلو [الإنجليزية]، يبحث ألفازيرو 80 ألف وضعية لكل ثانية فقط في الشطرنج و40 ألف وضعية في الشوغي مقارنة بـ 70 مليون وضعية في الثانية لستوكفيش و35 مليون وضعية لإلمو. يعوض ألفازيرو انخفاض عدد الوضعيات التي يقيِّمهاعبر استخدام شبكته العصبية العميقة للتركيز بشكل انتقائي أكثر على الوضعيات الواعدة التي لها حظوظ أكبر في الفوز.[1]

التدريب

عدل

دُرِّب ألفا زيرو عبر اللعب مع ذاته فقط، باستخدام 5000 وحدة معالجة موتر [الإنجليزية] (TPU) من الجيل الأول لتوليد المباريات و64 وحدة معالجة موتر من الجيل الثاني لتدريب الشبكات العصبية. بالتوازي، كان ألفا زيرو الذي يخضع للتدريب يتقابل بشكل دوري ضد البرامج المرجعية التي صُمِّم للتفوق عليها (ستوكفيش، إلمو، ألفاغو زيرو) في مباريات قصيرة بتوقيت ثانية لكل نقلة من أجل تحديد مدى تقدم وتحسن التدريب. قالت ديب مايند أن أداء ألفازيرو تجاوز ستكوفيش بعد أربع ساعات، وتجاوز إلمو بعد ساعتين وتجاوز ألفاغو زيرو بعد ثماني ساعات.[1]

النتائج الأولية

عدل

النتيجة

عدل

الشطرنج

عدل

في مقابلة ألفازيرو ضد ستوكفيش 8 (بطل العالم لبطولة أفضل محرك شطرنج [الإنجليزية] 2016) مُنح كل برنامج دقيقة واحدة لكل نقلة. وخُصِّص لستوكفيش 64 معالجا منطقيا [الإنجليزية] وحجم تجزئة مقداره 1 جيغابايت،[1] وهي ظروف انتقدها تورد رومستاد ووصفها بأنها أقل من مثالية.[6][ملاحظة 1] تم تدريب ألفازيرو لمدة تسع ساعات قبل المقابلة، واشتغل على آلة واحدة تملك أربع وحدات معالجة موتر ذات استخدام متخصص. في 100 مباراة من وضعية البداية العادية، فاز ألفازيرو بـ25 مباراة بالأبيض وثلاثة بالأسود وتعادل في 72 مباراة المتبقية.[8] في سلسلة 11 مقابلة كل مقابلة فيها 100 مباراة (دون تحديد الوقت أو قيود الموارد) ضد ستوكفيش ابتداء من أكثر 12 افتتاحية مفضلة لدى البشر، فاز ألفازيرو بـ290 مباراة وتعادل في 886 وخسر 24.[1]

الشوغي

عدل

دُرّب ألفازيرو على لعب الشوغي لمدة ساعتين قبل المقابلة. في 100 مباراة ضد إلمو (بطل العالم في الشوغي في النسخة الـ27 في صيف 2017، مع بحث يانيورا 4.73). فاز ألفازيرو 90 مرة وخسر 8 مرات وتعادل مرتين.[8] وكما هو الحال في مباريات الشطرنج مُنح لكل برنامج دقيقة لكل نقلة ومُنح لإلمو 64 معالجا منطقيا و1 جيغا حجم تجزئة.[1]

بعد 34 ساعة من التعلم الذاتي للعبة غو، فاز ألفازيرو ضد ألفاغو زيرو بـ 60 مباراة وخسر 40.[1][8]

التحليل

عدل

قالت ديب مايند في المطبوعة الأولية " تمثل لعبة الشطرنج قمة الأبحاث في الذكاء الاصطناعي لعدة عقود. أفضل وأحدث البرامج مبنية على محركات قوية تبحث عدة ملايين من الوضعيات، مستغلة خبرات شخصية في هذا المجال وتكيفات مجال [الإنجليزية] متطورة. ألفازيرو هو خوارزمية تعلمٍ بالتعزيز عامة -ابتُكرت في البداية من أجل غو- حققت نتائج متفوقة خلال عدة ساعات، عبر البحث في وضعيات أقل بآلاف المرات ولم يُعطى لها أي معلومات في المجال سوى قواعد اللعبة."[1] وصف الرئيس التنفيذي لديب مايند ديمس هاسابيس وهو لاعب شطرنج كذلك أسلوب لعب ألفازيرو "بالفضائي": يفوز في بعض الأحيان عبر القيام بتضحيات غير متوقعة وغير بديهية، مثل التضحية بملكة وفيل من أجل استغلال أفضلية في الوضعية. الأمر كما لو أنه يلعب شطرنجا من بعد آخر".[9]

نظرا لصعوبة تحقيق فوز ضد خصم قوي تُعتبر نتيجة +28 –0 =72 هامش فوز معتبر. مع ذلك، قلل بعض الأساتذة الكبار مثل هيكارو ناكامورا ومطور محرك كومودو لاري كوفمان من فوز ألفازيرو محاججين بأن المقابلة كانت ستكون نتائجها متقاربة أكثر لو كان لستوكفيش وصولٌ لقواعد بيانات الافتتاحيات (لأن ستوكفيش قد أُمثِل لذلك الغرض).[10] وأشار رومستاد كذلك إلى أن ستوكفيش لم يُأَمثل للعب بنقلات ثابتة الوقت وأن النسخة المستخدمة قديمة بعام واحد.[11][12]

على نحو مماثل، حاجج بعض المختصين في الشوغي بأن إلمو خُصص له حجم تجزئة منخفض جدا لدرجة أن إعدادات الاستسلام وإعدادات «قاعدة دخول الملك» قد تكون غير مناسبة، وأن إلمو قد عفا عليه الزمن مقارنة ببرامج جديدة.[13][14]

ردود الفعل والانتقادات

عدل

عنونت الصحف أن التدريب على لعب الشطرنج استغرق أربع ساعات فقط:«دُرِّب في وقت يزيد قليلا عن الوقت بين الفطور والغداء».[2][15] مدحت وايرد ألفازيرو بحماسة ووصفته «بأول ذكاء اصطناعي متعدد المواهب بطل لألعاب الرقعة.»[16] أشارت الخبيرة في الذكاء الاصطناعي جوانا بريسون أن «موهبة جوجل في الدعاية الجيدة» وضعتها في موقف قوي ضد منافسيها. «الأمر لا يتعلق بتوظيف أفضل المبرمجين وحسب. بل هو سياسي جدا كذلك، فهو يساعد في جعل جوجل تملك أكبر قوة ممكنة عند التفاوض مع الحكومات والمشرعين فيما يخص قطاع الذكاء الاصطناعي».[8]

عموما، أبدى الأساتذة الكبار البشر تحمسهم تجاه ألفازيرو، حيث ربط الأستاذ الكبير الدنماركي بيتر هاين نيلسن لعب ألفازيرو بالكائنات الفضائية المتفوقة.[8] ووصف الأستاذ الكبير النرويجي جون لودفيغ همر لعب ألفازيرو بأنه «شطرنج هجومي جنوني» مع فهم عميق للوضعيات.[2] وقال بطل العالم السابق غاري كاسباروف «إنه إنجاز رائع، حتى ولو أننا توقعنا ذلك بعد ألفاغو.»[10][17]

الأستاذ الكبير هيكارو ناكامورا كان أقل إعجابا بألفازيرو وصرّح:«لا أضع بالضرورة الكثير من المصداقية في النتائج، ببساطة وحسب فهمي كان ألفازيرو يستخدم حاسوب جوجل فائق القدرة وستوكفيش لايفعل ذلك، ستوكفيش كان يشتغل على حاسوب قد تكون قدرته مثل حاسوبي المحمول. لو أردت مقابلة متماثلة عليك أن تشغل ستوكفيش على حاسوب فائق كذلك.»[7] أفضل لاعب في الشطرنج بالمراسلة وولف مورو لم يكن منبهرا كذلك، زاعما أن ألفازيرو ربما لن يصل إلى نصف النهائي في منافسة عادلة مثل بطولة أفضل محرك شطرنج (TCEC) أين تلعب كل المحركات على حواسيب متكافئة. وصرح كذلك رغم أنه لن يتمكن من هزيمة ألفازيرو إذا لعب هذا الأخير افتتاحيات ميالة للتعادل مثل دفاع بيتروف، إلا أن ألفازيرو لن يتمكن من هزيميته في مباراة شطرنج بالمراسلة كذلك.[18]

قال موتوهيرو إيسوزاكي -مطور يانيورا- رغم أن ألفازيرو هزم إلمو كليا، إلا أن تصنيف ألفازيرو في الشوغي توقف عن الزيادة في نقطة لا يتجاوز فيها إلمو سوى بـ 100 أو 200، وهذه الفجوة في التصنيف ليست كبيرة ويمكن لإلمو أو أي برنامج شوغي آخر أن يلحق هذا التصنيف خلال عام أو عامين.[19]

النتائج النهائية

عدل

ردت ديب مايند على العديد من الانتقادات في النسخة الأخيرة من الورقة العلمية المنشورة في ديسمبر 2018 في مجلة ساينس. ووضحت أن ألفازيرو لم يكن يشتغل على حاسوب فائق القدرة، وتم تدريبه باستخدام 5000 وحدة معالجة موتر واشتغل فقط على 4 وحدات معالجة موتر ووحدة معالجة مركزية (CPU) مكونة من 44 لب أثناء مقابلاته. حيث أن وحدة معالجة موتر (TPU) هي مماثلة تقريبا في سرعة الاستدلال لوحدة المعالجة الرسومية تيتان 5 (Titan V GPU)، رغم أن معماريتهما مختلفة.[20]

الشطرنج

عدل

في النتائج النهائية، اشتغلت النسخة 8 من ستوكفيش على نفس شروط نهائي بطولة أفضل محرك شطرنج (TCEC): وحدة معالجة مركزية بـ44 لب، الوصول إلى جداول نهاية اللعب سيزيجي، و32 جيغا حجم تجزئة (هاش)، وبدل الوقت الثابت دقيقة لكل نقلة مُنح كلا المحركين 3 ساعات زائد 15 ثانية لكل نقلة. في مقابلة من 1000 مباراة فاز ألفازيرو بنتيجة 155 فوز، 6 خسارات و839 تعادلا. لعبت ديب مايند سلسلة من المباريات باستخدام افتتاحيات بطولة محركات الشطنرج وفاز ألفازيرو بنتيجة مقنعة.

الشوغي

عدل

على نحو مماثل لستوكفيش، اشتغل إلمو تحت نفس الشروط كما هو الحال في بطولة CSA‏ 2017. كانت نسخة إلمو المستخدمة هي WCSC27 في توليفة مع YaneuraOu 2017. اشتغل إلمو على معالج ذو 44 لبا و32 جيغا حجم تجزئة. فاز ألفازويرو بـ98.2% من المباريات بالأسود (الذي يلعب النقلة الأولى في الشوغي) و91.2% من إجمالي المباريات.

ردود الفعل والانتقادات

عدل

كان الأساتذة الكبار البشر عموما منبهرين بمباريات ألفازيرو ضد ستوكفيش.[21] قال بطل العالم السابق غاري كاسباروف كان من دواعي سروري مشاهدة لعب ألفازيرو، خاصة وأن أسلوبه كان مفتوحا وحركيا مثل أسلوبي.[22][23] في مجتمع شطرنج الحاسوب، وصف مارك ليفلر مطور كومودو ما حدث أنه «إنجاز مذهل حقا» لكنه أشار كذلك إلى أن البيانات كانت قديمة وأن ستوكفيش كسب الكثير من القوة منذ يناير 2018 (عندما صدر ستوكفيش 8). أما زميله في التطوير لاري كوفمان فقال أن ألفازيرو ربما سيخسر مقابلة ضد النسخة الأخيرة من ستوكفيش (ستوكفيش 10) تحت شروط بطولة أفضل محركات الشطرنج (TCEC)، وحاجج كوفمان أن الأفضلية الوحيدة للمحركات المبنية على الشبكات العصبية هي استخدامها لوحدة معالجة الرسوميات (GPU)، لذلك لو لم يكن اعتبار لاستهلاك الطاقة (كمثال: في مسابقة متساوية في العتاد يشتغل فيها كلا المحركين على نفس المعالج CPU والمعالج الرسومي GPU) حينها أي شيء حققه المعالج الرسومي كان «مجانيا». بناء على هذا، صرح أن أقوى محرك كان سيكون على الأرجح هجينا بين الشبكات العصبية وبحث ألفا-بيتا القياسي.[24]

ألهم ألفازيرو مجتمع شطرنج الحاسوب لتطوير ليلا تشيس زيرو [الإنجليزية] باستخدام نفس تقنيات ألفازيرو، تنافست ليلا تشيس زيرو في عدة بطولات ضد ستوكفيش وأظهرت قوة مماثلة تقريبا لستوكفيش. وفي 2 سبتمبر 2020، بالنسخة 12 من ستوكفيش تم إدراج نو (NNUE) وهي شبكة عصبية قابلة للتحديث بكفاءة [الإنجليزية] في ستوكفيش لتقييم وضعيات البحث ليصبح هجينا بين التقنيتين.[25][26][27]

في 2019 نشرت ديب مايند ميوزيرو، وهو نظام موحد يلعب الشطرنج والشوغي وغو بامتياز، بالإضافة إلى ألعاب أتاري ذات البيئة التعلمية، من دون برمجة مسبقة لقواعدها.[28][29]

ملاحظات

عدل
  1. ^ أجاب مطور ستوكفيش تورد رومستاد بـ:

    نتائج المقابلة في حد ذاتها ليس لها معنى بسبب خيار ضبط الوقت وخصائص ستوكفيش: لُعبت المباريات في وقت ثابت 1 دقيقة/نقلة، وهذا يعني أن ستوكفيش لن يستفيد من تجريبيات (heuristics) تنظيم الوقت (بُذل الكثير من الجهد في جعل ستوكفيش يحدد الوضعيات المهمة والحاسمة في المباراة واتخاذ قرار متى ينفق وقتا أكبر على نقلة ما، لذلك حين يكون اللعب محددا بزمن لكل نقلة، ستتأثر قوته بشكل معتبر). نسخة ستوكفيش المستخدمة قديمة بعام واحد، وكانت تلعب بمعالجات بحث أكثر بكثير من العدد الذي تلقت اختبارات معتبرة عليه، وأعطي لها حجم جداول تجزئة صغير جدا بالنسبة لذلك العدد من المعالجات. أعتقد أن نسبة التعادلات كانت ستكون أكثر ارتفاعا في مقابلة بظروف عادية.[7]

المراجع

عدل
  1. ^ ا ب ج د ه و ز ح ط ي A bot will complete this citation soon. Click here to jump the queue أرخايف:1712.01815.
  2. ^ ا ب ج Knapton, Sarah; Watson, Leon (6 Dec 2017). "Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours" (بالإنجليزية البريطانية). ديلي تلغراف. Archived from the original on 2020-12-02. Retrieved 2017-12-06.
  3. ^ Vincent، James (6 ديسمبر 2017). "DeepMind's AI became a superhuman chess player in a few hours, just for fun". ذا فيرج. مؤرشف من الأصل في 2020-12-02. اطلع عليه بتاريخ 2017-12-06.
  4. ^ Silver، David؛ Hubert، Thomas؛ Schrittwieser، Julian؛ Antonoglou، Ioannis؛ Lai، Matthew؛ Guez، Arthur؛ Lanctot، Marc؛ Sifre، Laurent؛ Kumaran، Dharshan؛ Graepel، Thore؛ Lillicrap، Timothy؛ Simonyan، Karen؛ Hassabis، Demis (7 ديسمبر 2018). "A general reinforcement learning algorithm that masters chess, shogi, and go through self-play". Science. ج. 362 ع. 6419: 1140–1144. Bibcode:2018Sci...362.1140S. DOI:10.1126/science.aar6404. PMID:30523106.
  5. ^ Schrittwieser، Julian؛ Antonoglou، Ioannis؛ Hubert، Thomas؛ Simonyan، Karen؛ Sifre، Laurent؛ Schmitt، Simon؛ Guez، Arthur؛ Lockhart، Edward؛ Hassabis، Demis؛ Graepel، Thore؛ Lillicrap، Timothy (19 نوفمبر 2019). "Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model". arXiv:1911.08265 [cs.LG]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  6. ^ "AlphaZero: Reactions From Top GMs, Stockfish Author". شطرنج.كوم. 8 ديسمبر 2017. مؤرشف من الأصل في 2020-12-03. اطلع عليه بتاريخ 2017-12-09.
  7. ^ ا ب "AlphaZero: Reactions From Top GMs, Stockfish Author". شطرنج.كوم. 8 ديسمبر 2017. مؤرشف من الأصل في 2020-12-02. اطلع عليه بتاريخ 2017-12-13.
  8. ^ ا ب ج د ه "'Superhuman' Google AI claims chess crown". BBC News. 6 ديسمبر 2017. مؤرشف من الأصل في 2020-12-02. اطلع عليه بتاريخ 2017-12-07.
  9. ^ Knight, Will (8 Dec 2017). "Alpha Zero's "Alien" Chess Shows the Power, and the Peculiarity, of AI". إم آي تي تكنولوجي ريفيو (بالإنجليزية). Archived from the original on 2021-03-05. Retrieved 2017-12-11.
  10. ^ ا ب "Google's AlphaZero Destroys Stockfish In 100-Game Match". شطرنج.كوم. مؤرشف من الأصل في 2020-12-07. اطلع عليه بتاريخ 2017-12-07.
  11. ^ "AlphaZero: Reactions From Top GMs, Stockfish Author". شطرنج.كوم. 8 ديسمبر 2017. مؤرشف من الأصل في 2020-12-07. اطلع عليه بتاريخ 2017-12-09.
  12. ^ Katyanna Quach. "DeepMind's AlphaZero AI clobbered rival chess app on non-level playing...board". The Register (December 14, 2017). نسخة محفوظة 8 مارس 2020 على موقع واي باك مشين.
  13. ^ "Some concerns on the matching conditions between AlphaZero and Shogi engine". コンピュータ将棋 レーティング. "uuunuuun" (a blogger who rates free shogi engines). مؤرشف من الأصل في 2017-12-08. اطلع عليه بتاريخ 2017-12-09. (via "瀧澤 誠@elmo (@mktakizawa) | Twitter". mktakizawa (elmo developer) (بالإنجليزية). 9 Dec 2017. Archived from the original on 2021-03-08. Retrieved 2017-12-11.)
  14. ^ "DeepMind社がやねうら王に注目し始めたようです". The developer of YaneuraOu, a search component used by elmo. 7 ديسمبر 2017. مؤرشف من الأصل في 2020-12-07. اطلع عليه بتاريخ 2017-12-09.
  15. ^ Badshah، Nadeem (7 ديسمبر 2017). "Google's DeepMind robot becomes world-beating chess grandmaster in four hours". ذا تايمز. مؤرشف من الأصل في 2020-12-07. اطلع عليه بتاريخ 2017-12-07.
  16. ^ "Alphabet's Latest AI Show Pony Has More Than One Trick". WIRED. 6 ديسمبر 2017. مؤرشف من الأصل في 2020-12-07. اطلع عليه بتاريخ 2017-12-07.
  17. ^ Gibbs، Samuel (7 ديسمبر 2017). "AlphaZero AI beats champion chess program after teaching itself in four hours". The Guardian. مؤرشف من الأصل في 2020-12-07. اطلع عليه بتاريخ 2017-12-08.
  18. ^ "Talking modern correspondence chess". Chessbase. 26 يونيو 2018. مؤرشف من الأصل في 2020-12-07. اطلع عليه بتاريخ 2018-07-11.
  19. ^ DeepMind社がやねうら王に注目し始めたようです | やねうら王 公式サイト, 2017年12月7日 نسخة محفوظة 7 ديسمبر 2020 على موقع واي باك مشين.
  20. ^ See TCEC and Leela Chess Zero.
  21. ^ "AlphaZero Crushes Stockfish In New 1,000-Game Match". Chess.com. 6 ديسمبر 2018. مؤرشف من الأصل في 2020-11-12.
  22. ^ Sean Ingle (11 ديسمبر 2018). "'Creative' AlphaZero leads way for chess computers and, maybe, science". The Guardian. مؤرشف من الأصل في 2020-11-08.
  23. ^ Albert Silver (7 ديسمبر 2018). "Inside the (deep) mind of AlphaZero". Chessbase. مؤرشف من الأصل في 2020-11-11.
  24. ^ "Komodo MCTS (Monte Carlo Tree Search) is the new star of TCEC". Chessdom. 18 ديسمبر 2018. مؤرشف من الأصل في 2020-11-12.
  25. ^ blog announcement of version 12 نسخة محفوظة 26 نوفمبر 2020 على موقع واي باك مشين.
  26. ^ "Introducing NNUE Evaluation". 6 أغسطس 2020. مؤرشف من الأصل في 2020-10-05.
  27. ^ Joost VandeVondele (25 يوليو 2020). "official-stockfish / Stockfish, NNUE merge". مؤرشف من الأصل في 2020-09-20.
  28. ^ "Could Artificial Intelligence Save Us From Itself?". Fortune (بالإنجليزية). 2019. Archived from the original on 2020-10-24. Retrieved 2020-02-29.
  29. ^ "DeepMind's MuZero teaches itself how to win at Atari, chess, shogi, and Go". VentureBeat. 20 نوفمبر 2019. مؤرشف من الأصل في 2020-11-01. اطلع عليه بتاريخ 2020-02-29.