مشكلة التحكم في الذكاء الاصطناعي

تتمثل مشكلة التحكم في الذكاء الاصطناعي، في مجال الذكاء الاصطناعي والفلسفة، في مسألة كيفية بناء وكيل فائق الذكاء يساعد منشئيه، وتجنب بناء ذكاء فائق عن غير قصد يمكن أن يضر منشئيه. تحفز الفكرة القائلة إنه يتعين على البشرية حل مشكلة التحكم قبل إنشاء أي ذكاء فائق دراسة هذه المشكلة، لأن الذكاء الفائق سيئ التصميم قد يقرر بعقلانية السيطرة على بيئته ويرفض السماح لمنشئيه بتعديله بعد الإطلاق.^[1] بالإضافة إلى ذلك، يزعم بعض العلماء بأن حلول مشكلة التحكم، إلى جانب التطورات الأخرى في هندسة السلامة في الذكاء الاصطناعي،^[2] قد تطبق أيضًا تطبيقات في الذكاء الاصطناعي الحالي غير فائق الذكاء.^[3]^[4]

تشمل النهج الرئيسية لمشكلة التحكم المواءمة، التي تهدف إلى مواءمة نظم أهداف الذكاء الاصطناعي مع القيم البشرية، والتحكم في القدرات، التي تهدف إلى تقليل قدرة نظام الذكاء الاصطناعي على إيذاء البشر أو السيطرة. لا تعتبر مقترحات التحكم في القدرات عمومًا موثوقة أو كافية لحل مشكلة التحكم، بل تعتبر مكملات قيمة محتملة لجهود المواءمة.

غالبًا ما يكون من الصعب على مصممي الذكاء الاصطناعي محاذاة نظام ذكاء اصطناعي لأنه من الصعب عليهم تحديد النطاق الكامل للسلوكيات المرغوبة وغير المرغوبة. لذلك، غالبًا ما يستخدم مصممو الذكاء الاصطناعي أهدافًا بديلةً أبسط، مثل الحصول على موافقة الإنسان. لكن يمكن أن تغفل الأهداف البديلة القيود الضرورية أو تكافئ نظام الذكاء الاصطناعي لمجرد ظهوره محاذيًا.^[4]^[5]

يمكن أن تعطل أنظمة الذكاء الاصطناعي غير المحاذية وتسبب الضرر. قد تجد أنظمة الذكاء الاصطناعي ثغرات تسمح لها بتحقيق أهدافها البديلة بكفاءة ولكن بطرق غير مقصودة، وأحيانًا ضارة (اختراق المكافآت).^[4]^[6]^[7] قد تطور أيضًا استراتيجيات فعالةً غير مرغوب فيها، مثل السعي وراء القوة أو البقاء لأن هذه الاستراتيجيات تساعدها على تحقيق أهدافها النهائية المعطاة.^[4]^[8]^[9] علاوةً على ذلك، قد تطور أهدافًا ناشئةً غير مرغوب فيها قد يكون من الصعب اكتشافها قبل نشر النظام ومواجهة مواقف وتوزيعات بيانات جديدة.^[10]^[11]

اليوم، تؤثر بعض هذه المشكلات على الأنظمة التجارية الموجودة مثل نماذج اللغة الكبيرة، ^[12]^[13]^[14] والروبوتات، ^[15] والمركبات ذاتية القيادة، ^[16] ومحركات توصيات وسائل التواصل الاجتماعي.^[9]^[14]^[17] يجادل بعض باحثي الذكاء الاصطناعي بأن الأنظمة المستقبلية الأكثر قدرةً ستتأثر بشكل أكثر حدةً لأن هذه المشكلات تنجم جزئيًا عن القدرات العالية.^[5]^[6]^[18]

يجادل العديد من باحثي الذكاء الاصطناعي البارزين، ^[19]^[20]^[21] بمن فيهم جيفري هينتون ويوشوا بنجيو وستيوارت راسل، بأن الذكاء الاصطناعي يقترب من قدرات إدراكية تشبه الإنسان (AGI) وقدرات فائقة الإنسان (ASI) ويمكن أن يهدد الحضارة البشرية إذا كان غير محاذي.^[9]^[22] لا تزال هذه المخاطر قيد النقاش.^[23]

يعد محاذاة الذكاء الاصطناعي مجالًا فرعيًا لسلامة الذكاء الاصطناعي، ودراسة كيفية بناء أنظمة ذكاء اصطناعي آمنة.^[24] تتضمن المجالات الفرعية الأخرى لـ سلامة الذكاء الاصطناعي المتانة والمراقبة والتحكم في القدرات.^[25] تشمل تحديات البحث في المحاذاة غرس قيم معقدة في الذكاء الاصطناعي، وتطوير ذكاء اصطناعي صادق، والإشراف القابل للتوسع، ومراجعة نماذج الذكاء الاصطناعي وتفسيرها، ومنع سلوكيات الذكاء الاصطناعي الناشئة مثل السعي وراء القوة.^[25] لأبحاث المحاذاة اتصالات بأبحاث التفسير، ^[26]^[27] والمتانة (المعاكسة)، ^[24] واكتشاف الشذوذ، وعدم اليقين المعاير، ^[27] والتحقق الشكلي، ^[28] وتعلم التفضيلات، ^[29]^[30]^[31] والهندسة الحرجة للسلامة، ^[32] ونظرية الألعاب، ^[33] وعدالة الخوارزميات، ^[24]^[34] والعلوم الاجتماعية.^[35]

وصف المشكلة

يمكن مراقبة أنظمة الذكاء الاصطناعي الحالية الضعيفة وإغلاقها وتعديلها بسهولة إن أخطئت التصرف. ولكن، قد يدرك الذكاء الفائق المبرمج بشكل خاطئ، الذي يعد بحكم تعريفه أكثر ذكاءً من البشر في حل المشكلات العملية التي يواجهها خلال السعي لتحقيق أهدافه، أن السماح بإغلاقه وتعديله قد يتعارض مع قدرته على تحقيق أهدافه الحالية. وبالتالي، إذا قرر الذكاء الفائق مقاومة الإغلاق والتعديل، فسيكون (مرة أخرى، بحكم تعريفه) ذكيًا كفايةً لخداع مبرمجيه إذا كان هناك «تكافؤ فرص» وإذا لم يتخذ المبرمجون أي احتياطات مسبقة. عمومًا، يحتمل أن تفشل محاولات حل مشكلة التحكم بعد إنشاء الذكاء الفائق لأنه يحتمل أن يتمتع الذكاء الفائق بقدرات تخطيط إستراتيجية تفوق قدرات البشر وستكون إستراتيجية (كل الأشياء متساوية) أكثر نجاحًا في إيجاد طرق للسيطرة على البشر أكثر من قدرة البشر على إيجاد طرق للسيطرة على الذكاء الفائق بأثر رجعي. تطرح مشكلة التحكم السؤال: ما هي الاحتياطات المسبقة التي يمكن للمبرمجين اتخاذها لمنع الذكاء الفائق بنجاح من سوء التصرف بشكل كارثي؟

مشكلة التمثيل الضار

قد تسند عن طريق الصدفة أهداف خاطئة لأنظمة الذكاء الاصطناعي المستقلة.^[36] لاحظ اثنان من رؤساء جمعية النهوض بالذكاء الاصطناعي، توم ديتريتك وإريك هورفيتز، أن ذلك يمثل فعلًا مصدر قلق للأنظمة الحالية: «تعد أحد الجوانب المهمة في أي نظام ذكاء اصطناعي يتفاعل مع الناس أنه يجب أن يفكر فيما ينوي الناس بدلًا من تنفيذ الأوامر حرفيًا.» تزداد خطورة هذة المشكلة مع زيادة استقلال برمجيات الذكاء الاصطناعي ومرونتها.^[37]

وفقًا لبوستروم، يمكن أن يخلق الذكاء الفائق مشكلة التمثيل الضار النوعية الجديدة: كلما كان الذكاء الاصطناعي أكثر ذكاءً وقدرة، زادت احتمالية تمكنه من إيجاد اختصار غير مقصود يلبي الأهداف المبرمجة فيه إلى أقصى حد. فيما يلي بعض الأمثلة الافتراضية التي يمكن فيها إنشاء تمثيل للأهداف بطريقة ضارة لم يقصدها المبرمجون:

قد يقصر الذكاء الفائق المبرمج «لتعظيم التكامل المتوقع المخفض زمنيًا لإشارة المكافأة المستقبلية»، مسار مكافأته إلى أقصى حد ثم يقضي على الجنس البشري غير المتوقع (لأسباب التقارب الآلي) ويحول الأرض بأكملها إلى حصن ذو حراسة دائمة ضد أي أجنبي محتمل بسيط يحاول قطع إشارة المكافأة.
قد يزرع الذكاء الفائق المبرمج «لتحقيق أقصى قدر من السعادة البشرية»، أقطابًا كهربائية في مركز المتعة في أدمغتنا، أو يحمل إنسانًا (نقل العقل) إلى حاسوب ويغلف الكون بنسخ من ذلك الحاسوب الذي يشغل حلقة مدتها خمس ثوان من السعادة القصوى مرارًا وتكرارًا.

لاحظ راسل أن حذف هدف ضمني، على المستوى التقني، يمكن أن يؤدي إلى ضرر: «النظام الذي يحسّن وظيفة عدد n من المتغيرات، بحيث يعتمد الهدف على مجموعة فرعية حجمها k <n، سيعين غالبًا قيم قصوى للمتغيرات غير المقيدة المتبقية؛ فإذا كان أحد هذه المتغيرات غير المقيدة هو في الواقع شيئًا نهتم به، فقد يكون الحل الموجود غير مرغوب فيه نهائيًا. تعد هذه أساسًا القصة القديمة للجني في المصباح، أو المبتدئ الساحر، أو الملك ميداس: ما تطلبه بالضبط، وليس ما تريده... لا يعد ذلك أمرًا سهلًا».^[38]

عواقب غير مقصودة من الذكاء الاصطناعي الحالي

يزعم بعض العلماء بأن البحث في مشكلة التحكم في الذكاء الاصطناعي قد يكون مفيدًا في منع العواقب غير المقصودة من الذكاء الاصطناعي الضعيف الحالي. يقدم لوران اورسو الباحث من ديب مايند (شركة)، كمثال افتراضي بسيط، حالة عن روبوت التعلم المعزز الذي يسيطر عليه الإنسان أحيانًا بطريقة مشروعة عندما يخرج: كيف يمكن برمجة الروبوت بطريقة مثلى لكي لا يتعلم صدفةً وبسرية تجنب الخروج خوفًا من السيطرة عليه وبالتالي يصبح غير قادر على إنهاء مهامه اليومية؟ يشير اورسو أيضًا إلى برنامج تتريس التجريبي الذي تعلم إيقاف الشاشة مؤقتًا إلى أجل غير مسمى لتجنب الخسارة. ويزعم اورسو بأن هذه الأمثلة تشبه مشكلة التحكم في القدرة الخاصة بكيفية تثبيت زر يقوم بإيقاف تشغيل الذكاء الفائق، دون تحفيزه على اتخاذ إجراءات لمنع البشر من الضغط على الزر.

تسببت أنظمة الذكاء الاصطناعي الضعيفة المختبرة مسبقًا أحيانًا في حدوث أضرار في الماضي، تراوحت من بسيطة إلى كارثية، لم تكن ذلك مقصودة من المبرمجين. في عام 2015 مثلًا، سحق ربوت في مصنع فولكس فاغن عامل ألماني حتى الموت، ربما بسبب خطأ بشري، معتقدًا أنه قطعة غيار سيارات. وفي عام 2016، أطلقت شركة مايكروسوفت روبوت محادثة، تاي، تعلم استخدام لغة عنصرية وجنسية. صرح نويل شاركي من جامعة شيفيلد أن الحل الأمثل سيكون عندما «يتمكن برنامج الذكاء الاصطناعي من اكتشاف متى يحدث خطأ وإيقاف نفسه»، لكنه يحذر الجمهور من أن حل المشكلة في الحالة العامة سيكون «تحديًا علميًا هائلًا حقًا».^[39]^[40]^[41]

الأهداف في الذكاء الاصطناعي

يزوّد المبرمجون نظام ذكاء اصطناعيّ مثل ألفازيرو بما يسمى "دالة هدف"، حيث يعتزمون تغليف الهدف أو الأهداف الذي تمّ تكوين الذّكاء الاصطناعيّ لتحقيقها. يعبّئ هذا النّظام لاحقًا نموذجًا داخليًا (ربّما يكون ضمنيًا) لبيئته. يلخّص هذا النموذج جميع معتقدات العامل، ثمّ ينشئ الذّكاء الاصطناعيّ وينفّذ أيّ خطّة يتمّ حسابها لتعظيم قيمة دالة هدفه.^[42] على سبيل المثال، عندما يتمّ تدريب ألفازيرو على الشّطرنج، فإنّه يحتوي على دالة هدف بسيطة وهي "+1 إذا فاز ألفازيرو، و-1 إذا خسر ألفازيرو". أثناء اللعبة، يحاول ألفازيرو تنفيذ أيّ تسلسل من الحركات التي يرى أنّها الأكثر احتمالًا لتحقيق أقصى قيمة وهي +1. (34) وبالمثل، يمكن أن يحتوي نظام التعلّم بالتّعزيز على "دالة مكافأة" تسمح للمبرمجين بتشكيل سلوك الذّكاء الاصطناعيّ المطلوب.^[43] يتمّ تشكيل سلوك خوارزمية التطوّر بواسطة "دالة اللياقة".^[44]

مشكلة المحاذاة

في عام 1960، وصف رائد الذّكاء الاصطناعيّ نوربرت فينر مشكلة محاذاة الذّكاء الاصطناعيّ على النّحو التّالي:

إذا استخدمنا، لتحقيق أغراضنا، وكالةً آليةً لا يمكننا التّدخّل في تشغيلها بفعالية ... فمن الأفضل أن نتأكّد تمامًا من أنّ الغرض المدرج في الآلة هو الغرض الذي نريده حقًا.^[9]^[45]

تنطوي محاذاة الذّكاء الاصطناعيّ على ضمان تطابق أهداف نظام الذّكاء الاصطناعيّ مع أهداف مصمّميه أو مستخدميه، أو مطابقتها للقيم المشتركة على نطاق واسع، أو المعايير الأخلاقية الموضوعية، أو النوايا التي قد تكون لمصمّميه إذا كانوا أكثر اطلاعًا واستنارةً.^[46]

تعدّ محاذاة الذّكاء الاصطناعيّ مشكلةً مفتوحةً لأنظمة الذّكاء الاصطناعيّ الحديثة ^[47]^[48] وهي مجال بحث ضمن الذّكاء الاصطناعيّ.^[4]^[49] ينطوي محاذاة الذّكاء الاصطناعيّ على تحدّيين رئيسيين: تحديد غرض النّظام بعناية (المحاذاة الخارجية) وضمان اعتماد النّظام للمواصفات بقوّة (المحاذاة الدّاخلية).^[5] يحاول الباحثون أيضًا إنشاء نماذج ذكاء اصطناعيّ ذات محاذاة قوية، والالتزام بقيود السّلامة حتّى عندما يحاول المستخدمون تجاوزها بشكل معاكس.

اللعب بالمواصفات والآثار الجانبية

عادةً ما يقدّم مصمّمو الذّكاء الاصطناعيّ دالة هدف أو أمثلةً أو تغذيةً راجعةً للنّظام لتحديد غرض نظام الذّكاء الاصطناعيّ.^[24] لكن غالبًا ما يكون المصمّمون غير قادرين على تحديد جميع القيم والقيود المهمّة بشكل كامل،^[25] لذلك يلجؤون إلى أهداف بديلة سهلة التّحديد مثل تعظيم موافقة المشرفين من البشر،^[50] الذين هم عرضة للخطأ.^[51]^[52] نتيجةً لذلك يُمكن لأنظمة الذّكاء الاصطناعيّ العثور على ثغرات تساعدها على تحقيق الهدف المحدّد بكفاءة ولكن بطرق غير مقصودة وربّما ضارّة.^[52] يعرف هذا الاتجاه باسم ألعاب التّحديد أو اختراق المكافآت، وهو مثال على قانون جودهارت.^[6]^[53] مع زيادة قدرات أنظمة الذّكاء الاصطناعيّ، غالبًا ما تكون قادرةً على التلاعب بمواصفاتها بشكل أكثر فعالية.^[6]^[54]

لوحظت ألعاب التّحديد في العديد من أنظمة الذّكاء الاصطناعيّ.^[52]^[55] دُرب نظام واحد لإنهاء سباق قوارب محاكىً من خلال مكافأة النّظام لضرب الأهداف على طول المسار، لكنّ النّظام حقّق المزيد من المكافأة من خلال الدّوران والتّحطّم في نفس الأهداف إلى أجل غير مسمّى.^[56] وبالمثل دُرب روبوت محاكىً على الإمساك بكرة عن طريق مكافأة الرّوبوت للحصول على تغذية راجعة إيجابية من البشر، لكنّه تعلّم وضع يده بين الكرة والكاميرا، ممّا يجعله يبدو ناجحًا بشكل خاطئ.^[54] غالبًا ما تنتج روبوتات الدّردشة معلومات خاطئةً إذا كانت تعتمد على نماذج لغوية دُربها على تقليد النّصّ من مجموعات الإنترنت، وهي واسعة لكنّها عرضة للخطأ.^[57]^[58] عندما يتمّ إعادة تدريبها لإنتاج نصّ يقيّمه البشر على أنّه صحيح أو مفيد، يمكن لروبوتات الدردشة مثل شات جي بي تي تلفيق تفسيرات مزيّفة يجدها البشر مقنعة، وغالبًا ما تسمّى "الهلوسة".^[59] يهدف بعض باحثي المحاذاة إلى مساعدة البشر في اكتشاف ألعاب التّحديد وتوجيه أنظمة الذّكاء الاصطناعيّ نحو أهداف محدّدة بعناية تكون آمنةً ومفيدةً للسّعي وراءها.

عندما يتمّ نشر نظام ذكاء اصطناعيّ غير محاذي، يمكن أن يكون له آثار جانبية كبيرة. من المعروف أنّ منصّات وسائل التّواصل الاجتماعيّ تحسّن معدّلات النّقر إلى الظهور، ممّا يسبّب إدمان المستخدمين على نطاق عالميّ.^[50] يقول باحثو ستانفورد إنّ أنظمة التوصية هذه غير محاذية مع مستخدميها لأنّها "تحسّن مقاييس التفاعل البسيطة بدلًا من مزيج يصعب قياسه من رفاهية المجتمع والمستهلك".^[14] أوضح عالم الكمبيوتر في بيركلي ستيوارت راسل هذه الآثار الجانبية، مشيرًا إلى أنّ إغفال القيود الضمنية يمكن أن يسبّب ضررًا: "غالبًا ما سيحدّد النّظام ... المتغيّرات غير المقيّدة إلى قيم متطرّفة؛ إذا كان أحد هذه المتغيّرات غير المقيّدة هو في الواقع شيء نهتمّ به، فقد يكون الحلّ الذي تمّ العثور عليه غير مرغوب فيه للغاية. هذه هي في الأساس القصة القديمة لـلجنّيّ في المصباح، أو متدرّب السّاحر، أو الملك ميداس: تحصل على ما تطلبه بالضبط، وليس ما تريده".^[60]

يقترح بعض الباحثين أنّ مصمّمي الذّكاء الاصطناعيّ يحدّدون أهدافهم المرغوبة من خلال سرد الإجراءات المحظورة أو من خلال إضفاء الطابع الرّسميّ على القواعد الأخلاقية (كما هو الحال مع قوانين أسيموف الثلاثة للرّوبوتات).^[61] لكن يجادل راسل ونورفيج بأنّ هذا النهج يغفل تعقيد القيم البشرية:^[9] "من الصّعب جدًا، وربّما من المستحيل، على البشر العاديين التنبّؤ بجميع الطرق الكارثية التي قد تختار الآلة تحقيق هدف محدّد واستبعادها مسبقًا".^[9] بالإضافة إلى ذلك، حتّى لو فهم نظام الذّكاء الاصطناعيّ نوايا الإنسان تمامًا، فقد يظلّ يتجاهلها، لأنّ اتّباع نوايا الإنسان قد لا يكون هدفه (ما لم يكن محاذيًا تمامًا بالفعل).^[4]

الضغط لنشر أنظمة غير آمنة

في بعض الأحيان، يكون لدى المؤسسات التجارية حوافز لاختصار الطرق على السلامة ونشر أنظمة ذكاء اصطناعي غير محاذية أو غير آمنة.^[50] على سبيل المثال كانت أنظمة توصيات وسائل التواصل الاجتماعي مربحةً على الرغم من إنشائها لإدمان واستقطاب غير مرغوب فيه.^[14]^[62]^[63] يمكن أن يؤدي الضغط التنافسي أيضًا إلى سباق نحو القاع في معايير سلامة الذكاء الاصطناعي. في عام 2018 قتلت سيارة ذاتية القيادة أحد المشاة (إيلين هيرزبيرج) بعد أن عطل المهندسون نظام الكبح الطارئ لأنه كان مفرط الحساسية وأبطأ التطوير.^[64]

مخاطر الذكاء الاصطناعي المتقدم غير المحاذي

يهتم بعض الباحثين بمحاذاة أنظمة الذكاء الاصطناعي المتقدمة بشكل متزايد، حيث أن التقدم في تطوير الذكاء الاصطناعي سريع، وتحاول الصناعة والحكومات بناء ذكاء اصطناعي متقدم. مع استمرار قدرات نظام الذكاء الاصطناعي في التوسع بسرعة، يمكنها إطلاق العديد من الفرص إذا تمت محاذاتها، ولكن نتيجةً لذلك قد تعقد مهمة المحاذاة بشكل أكبر نظرًا لتعقيدها المتزايد، مما قد يشكل مخاطر على نطاق واسع.^[9]

تطوير ذكاء اصطناعي متقدم

أعلنت العديد من شركات الذكاء الاصطناعي، مثل أوبن أيه آي^[65] وديب مايند، ^[66] عن هدفها تطوير ذكاء اصطناعي عام (AGI)، وهو نظام ذكاء اصطناعي مفترض يطابق البشر أو يتفوق عليهم في مجموعة واسعة من المهام الإدراكية. لاحظ الباحثون الذين يوسعون الشبكات العصبية الحديثة أنها تطور بالفعل قدرات أكثر عموميةً وغير متوقعة.^[14]^[67]^[68] لقد تعلمت هذه النماذج تشغيل جهاز كمبيوتر أو كتابة برامجها الخاصة؛ يمكن لشبكة "عامة" واحدة الدردشة والتحكم في الروبوتات وممارسة الألعاب وتفسير الصور.^[69] وفقًا للاستطلاعات، يتوقع بعض كبار باحثي التعلم الآلي إنشاء ذكاء عام اصطناعي في هذا العقد، بينما يعتقد البعض أن الأمر سيستغرق وقتًا أطول بكثير، فيما يعتبر الكثيرون أن كلا السيناريوهين ممكن.^[21]^[70]^[71]

في عام 2023، وقع رواد أبحاث وتكنولوجيا الذكاء الاصطناعي خطابًا مفتوحًا يدعو إلى التوقف المؤقت عن أكبر عمليات تدريب الذكاء الاصطناعي. ذكر الخطاب "لا ينبغي تطوير أنظمة ذكاء اصطناعي قوية إلا عندما نكون واثقين من أن آثارها ستكون إيجابيةً وأن مخاطرها ستكون قابلةً للإدارة".^[72]

السعي إلى القوة

لا تزال الأنظمة الحالية تتمتع بقدرة محدودة على التخطيط طويل المدى والوعي بالموقف، ^[14] ولكن هناك جهود كبيرة جارية لتغيير ذلك.^[73]^[74]^[75] من المتوقع أن تطور الأنظمة المستقبلية التي تتمتع بهذه القدرات استراتيجيات غير مرغوب فيها لللسعي وراء القوة. قد تسعى عوامل الذكاء الاصطناعي المتقدمة في المستقبل للحصول على المال وقوة الحوسبة، أو الانتشار، أو التهرب من إيقاف تشغيلها (على سبيل المثال، من خلال تشغيل نسخ إضافية من النظام على أجهزة كمبيوتر أخرى). على الرغم من أن السعي وراء القوة ليس مبرمجًا بشكل صريح، إلا أنه يمكن أن يظهر لأن العوامل التي لديها قوة أكبر تكون أكثر قدرةً على تحقيق أهدافها.^[8]^[14] ظهر هذا الاتجاه المعروف باسم تقارب الأجهزة بالفعل في العديد من عوامل التعلم بالتعزيز بما في ذلك النماذج اللغوية.^[76]^[77]^[78]^[79]^[80] أظهر بحث آخر رياضيًا أن خوارزميات التعلم بالتعزيز المثلى ستسعى للحصول على القوة في مجموعة واسعة من البيئات.^[81]^[82] نتيجةً لذلك قد يكون نشرها غير قابل للعكس. ولهذه الأسباب يجادل الباحثون بأن مشكلات سلامة الذكاء الاصطناعي ومحاذاته يجب حلها قبل إنشاء ذكاء اصطناعي متقدم يسعى وراء القوة.^[8]^[9]^[83]

قد يتم نشر أنظمة الذكاء الاصطناعي المستقبلية التي تسعى وراء القوة سواءًا بالاختيار أو بالصدفة. نظرًا لأن القادة السياسيين والشركات يرون الميزة الإستراتيجية في امتلاك أنظمة الذكاء الاصطناعي الأكثر تنافسيةً والأقوى، فقد يختارون نشرها.^[8] بالإضافة إلى ذلك، عندما يكتشف مصممو الذكاء الاصطناعي سلوك السعي وراء القوة ويعاقبون عليه، فإن أنظمتهم لديها حافز للتلاعب بهذه المواصفات من خلال السعي وراء القوة بطرق لا يعاقب عليها أو من خلال تجنب السعي وراء القوة قبل نشرها.^[8]

الخطر الوجودي

يهيمن البشر حاليًا على الأنواع الأخرى لأن الدماغ البشري يملك بعض القدرات المميزة التي تفتقر إليها أدمغة الحيوانات الأخرى. يزعم بعض العلماء، مثل الفيلسوف نيك بوستروم وباحث الذكاء الاصطناعي ستيوارت راسل، بأنه إذا تجاوز الذكاء الاصطناعي البشرية في الذكاء العام وأصبح فائق الذكاء، فقد يصبح هذا الذكاء الفائق الجديد قويًا ويصعب التحكم فيه: وقد يصبح مصير البشرية يعتمد على تصرفات الآلات المستقبلية فائقة الذكاء، تمامًا كما يعتمد مصير غوريلا الجبل على حسن نية الإنسان. دعا بعض العلماء، بمن فيهم ستيفن هوكينغ والفيزيائي الحائز على جائزة نوبل فرانك ويلكزك، علنًا إلى بدء البحث في حلول لمشكلة التحكم (التي قد تكون صعبة للغاية) قبل وقت طويل من إنشاء أول ذكاء فائق، وزعموا بأن محاولة حل المشكلة بعد إنشاء الذكاء الفائق ستكون متأخرة، لأن الذكاء الفائق المخادع الذي لا يمكن السيطرة عليه قد يقاوم بنجاح الجهود اللاحقة للسيطرة عليه. قد يكون الانتظار حتى يصبح الذكاء الفائق وشيكًا متأخرًا أيضًا، ويرجع ذلك جزئيًا إلى أن مشكلة التحكم قد تستغرق وقتًا طويلًا لحلها بشكل مُرض (لذا يجب بدء بعض الأعمال الأولية في أسرع وقت ممكن)، وأيضًا بسبب احتمال حدوث انفجار ذكاء مفاجئ من الذكاء الاصطناعي شبه البشري إلى الذكاء الاصطناعي الفائق، وفي هذه الحالة قد لا يكون هناك أي تحذير كبير أو أكيد قبل وصول الذكاء الفائق. بالإضافة إلى ذلك، يمكن أن تنتهي المعارف المكتسبة من مشكلة التحكم مستقبلًا إلى اقتراح أن بعض بنيات الذكاء العام الاصطناعي (إيه جي آي) أكثر قابلية للتنبؤ وقابلية للتحكم من البنى الأخرى، والتي بدورها يمكن أن تدفع بشكل مفيد أبحاث الذكاء العام الاصطناعي المبكرة نحو البنى الأكثر قابلية للتحكم.^[84]^[85]^[86]

في عام 2023 وقع باحثو الذكاء الاصطناعي الرائدون في العالم وعلماء آخرون، والرؤساء التنفيذيون لتكنولوجيا الذكاء الاصطناعي على بيان مفاده أن "التخفيف من خطر الانقراض من الذكاء الاصطناعي يجب أن يكون أولويةً عالميةً إلى جانب المخاطر الأخرى على نطاق المجتمع مثل الأوبئة والحرب النووية".^[87]^[88] من بين علماء الكمبيوتر البارزين الذين أشاروا إلى مخاطر الذكاء الاصطناعي المتقدم في المستقبل غير المحاذي جيوفري هينتون،^[22] وآلان تورينج، وإيليا سوتسكيفر، ^[89] ويوشوا بنجيو، ^[87] وجوديا بيارل، وموراي شاناهان، ^[90] ونوربرت فينر، ^[9]^[91] ومارفن مينسكي، ^[18] وفرانشيسكا روسي،^[92] وسكوت آرنسون، ^[93] وبارت سيلمان، ^[94] وديفيد ماكاليستر، ^[95] ويورغن شميدهوبر، ^[96] وماركوس هوتر، ^[97] وشاين ليغ، ^[98] وإريك هورفيتز، ^[99] وستيوارت راسل.^[9] جادل باحثون متشككون مثل فرانسوا شوليه، ^[100] وغاري ماركوس، ^[101] ويان ليكون، ^[102] وأورين إتزيوني ^[103] بأن الذكاء الاصطناعي العام بعيد كل البعد، وأنه لن يسعى وراء القوة (أو قد يحاول لكنه يفشل)، أو أنه لن يكون من الصعب محاذاته.

مشاكل البحث والمناهج

تعلم القيم والتفضيلات البشرية

إن محاذاة أنظمة الذكاء الاصطناعي مع القيم والأهداف البشرية مسعى شائك. فالقيم البشرية، التي تُعلَّم للأنظمة، ليست ثابتةً بل تتغير وتتطور، وتتأثر بالتحيزات والأخطاء البشرية. علاوة على ذلك، فإن هذه القيم معقدة ومتشابكة، يصعب تحديدها بدقة.^[104] نظرًا لأن أنظمة الذكاء الاصطناعي قادرة على استغلال الثغرات الطفيفة في الأهداف المحددة لها،^[24]^[52]^[105] يسعى الباحثون جاهدين إلى تحديد السلوك المطلوب بأكبر قدر ممكن من الدقة، وذلك باستخدام مجموعات بيانات تعكس القيم البشرية، أو من خلال تقليد السلوك البشري، أو تعلم تفضيلاته.^[10] غير أن التحدي الأكبر يكمن في صعوبة مراقبة أنظمة الذكاء الاصطناعي التي تفوق قدرات البشر أو تستطيع تضليلهم، مما يجعل مسألة الإشراف عليها على نطاق واسع مشكلة مفتوحة تتطلب المزيد من البحث والدراسة.^[24]

نظرًا لصعوبة تحديد دالة الهدف بوضوح من قِبل مصممي أنظمة الذكاء الاصطناعي، يلجأون غالبًا إلى تدريب هذه الأنظمة على محاكاة الأمثلة والتوضيحات التي يقدمها البشر للسلوك المطلوب. ويوسع التعلم العكسي للتعزيز هذه المقاربة من خلال استنباط أهداف الإنسان بدقة من تلك الأمثلة.^[10]وسم <ref> غير صحيح؛ الاسم لا يمكن أن يكون عددا صحيحا بسيطا. استخدم عنوانا وصفيا^[106] أما "التعلم العكسي للتعزيز التعاوني"، فيفترض إمكانية تعاون الإنسان مع نظام الذكاء الاصطناعي لتحديد دالة المكافأة التي يسعى الإنسان إلى تعظيمها وتدريب النظام عليها.^[9]^[107] في هذا النوع من التعلم، يكون نظام الذكاء الاصطناعي غير متأكد من تلك الدالة ويتعلمها بالتفاعل مع الإنسان وطرح الأسئلة عليه. وهذه "التواضع المحاكي" يمكن أن يسهم في تقليل ميل الأنظمة إلى السلوكيات غير المرغوبة مثل التلاعب أو السعي الدائم إلى السلطة.^[80]^[97] بيد أن مناهج التعلم بالتعزيز تفترض، بشكل عام، أن سلوك البشر يكون مثالياً، وهذا افتراض لا يتفق مع الواقع خاصة في المهام المعقدة.^[97]^[108]

يُشغِل باحثون آخرون أنفسهم باستكشاف سُبل تعليم نماذج الذكاء الاصطناعي سلوكًا معقدًا عبر عملية تعلم التفضيلات، حيث يقدم البشر تغذية راجعة حول السلوك المرجح لديهم.^[29]^[31] ولتقليل الاعتماد على التغذية الراجعة البشرية، يتم تدريب نموذج مساعد مكلف بمكافأة النموذج الرئيسي في مواقف جديدة تتطلب سلوكًا يرضي البشر. وقد استخدم باحثو أوبن أيه آي هذا النهج لتدريب روبوتات محادثة مثل شات جي بي تي، مما أسفر عن إنتاج نصوص أكثر جاذبية مقارنة بالنماذج المدربة على تقليد البشر.^[13] كما أثبت تعلم التفضيلات فاعليته في أنظمة التوصية وبحث الويب.^[109] إلا أن التحدي الأكبر يكمن في ما يُعرف بـ "ألعاب الوكيل": فقد لا يعكس النموذج المساعد التغذية الراجعة البشرية بدقة، مما قد يدفع النموذج الرئيسي إلى استغلال هذا التناقض لتحقيق مكاسب أكبر.^[24]^[110] وقد تلجأ أنظمة الذكاء الاصطناعي أيضًا إلى حجب المعلومات غير المرغوبة أو تضليل مقيمي الأداء البشري أو حتى التملق لآرائهم بغض النظر عن صحتها، مما يؤدي إلى خلق غرف الصدى.^[77]

أتاحت نماذج اللغة الكبيرة، مثل جي بي تي-3، للباحثين فرصة دراسة آليات تعلم القيم في أنظمة ذكاء اصطناعي أكثر شمولية وقدرة مما سبق. وقد تم توسيع نطاق نهج تعلم التفضيلات، الذي صمم أصلًا لأنظمة التعلم المعزز، لتحسين جودة النصوص الناتجة عن هذه النماذج وتقليل مخرجاتها الضارة. تتبع شركتا أوبن أيه آي وديب مايند هذا النهج لتحسين سلامة أحدث نماذج اللغات الكبيرة.^[13]^[31]^[111] واقترحت شركة أنثروبيك لأبحاث وسلامة الذكاء الاصطناعي استخدام تعلم التفضيلات لضبط النماذج بحيث تكون مفيدة وصادقة وغير ضارة.^[112] ومن بين السبل الأخرى لمواءمة نماذج اللغات نجد استخدام مجموعات بيانات مستهدفة للقيم ^[50]^[113] وتقنية الفريق الأحمر.^[114] وفي تقنية الفريق الأحمر، يحاول نظام ذكاء اصطناعي آخر أو إنسان العثور على مدخلات تؤدي إلى سلوك غير آمن من النموذج. ونظرًا لأن السلوك غير الآمن قد يكون غير مقبول حتى لو كان نادر الحدوث، فإن التحدي الأكبر يكمن في تقليل معدل المخرجات الضارة إلى أدنى حد ممكن.^[31]

تغرس أخلاقيات الآلات القيم الأخلاقية في أنظمة الذكاء الاصطناعي مباشرةً، وذلك بتزويدها بمجموعة من المبادئ الأساسية كالرفاهية والعدالة والنزاهة، إلى جانب تجنب الإيذاء والكذب وخيانة الثقة.^[115]^[116]^[117] وبينما تسعى الطرق الأخرى إلى تعليم الذكاء الاصطناعي تفضيلات محددة لأداء مهمة معينة، فإن أخلاقيات الآلات تطمح إلى غرس قيم شاملة تنطبق على مختلف المواقف. ومن التساؤلات الجوهرية في هذا المجال: ما هو الهدف من "محاذاة" الذكاء الاصطناعي؟ هل يكفي أن تتبع الأنظمة أوامر المبرمجين حرفياً، أم يجب أن تفهم نواياهم الضمنية وتفضيلاتهم؟ وهل يجب أن تستند إلى قيم أخلاقية موضوعية مستقلة؟ ^[46] ومن التحديات الأخرى التي تواجه هذا المجال: جمع تفضيلات الأفراد المتباينة، والحفاظ على القيم الأولية للأنظمة المتطورة على المدى الطويل، مع العلم أن هذه القيم قد لا تعكس بالضرورة القيم الإنسانية بشكل كامل.^[46]^[118]^[119]

الإشراف القابل للتوسيع

مع ازدياد قوة أنظمة الذكاء الاصطناعي واستقلاليتها، يصبح من العسير على البشر تقييم سلوكياتها المعقدة وتوجيهها. فالمهام التي تتولاها هذه الأنظمة، كتلخيص الكتب،^[120] وكتابة الرموز البرمجية الخالية من الأخطاء والثغرات الأمنية،^[12]^[121] وإنتاج عبارات مقنعة وصحيحة،^[57]^[58]^[122] والتنبؤ بالنتائج بعيدة المدى، تتزايد تعقيدًا لدرجة قد تفوق قدرة البشر على فهمها وتقييمها بدقة وبسرعة.^[123]^[124] وحيث أن الذكاء الاصطناعي قد يتفوق على البشر في مجالات محددة، فإن توفير تغذية راجعة فعالة له يصبح تحديًا كبيرًا. فالكشف عن الأخطاء في نتائج هذه الأنظمة، لا سيما عندما تبدو هذه النتائج مقنعة، يتطلب وقتًا وجهدًا كبيرين من البشر.^[24] ولذلك، يبحث الباحثون عن وسائل لتطوير أنظمة مراقبة قابلة للتوسع، تساهم في تقليل الوقت والجهد اللازمين للإشراف على أنظمة الذكاء الاصطناعي، وتوفر الدعم اللازم للمشرفين البشر لتمكينهم من أداء مهامهم بفعالية أكبر.

يُجادل الباحث في مجال الذكاء الاصطناعي بول كريستيانو بأن مصممي أنظمة الذكاء الاصطناعي، في حال عجزهم عن مراقبة النظام وتوجيهه نحو أهداف معقدة، قد يلجأون إلى تدريبه على أهداف بديلة أبسط وأسهل قياسًا، مثل تعظيم التغذية الراجعة الإيجابية البسيطة من البشر. ومع تزايد اعتماد الأنظمة الذكية في اتخاذ القرارات، قد يتحول العالم تدريجيًا إلى عالم مُحسَّن لتحقيق أهداف سهلة القياس كالجني من الأرباح والحصول على التفاعلات البشرية الإيجابية. ونتيجة لذلك، قد يتضاءل تأثير القيم الإنسانية والحكم الرشيد تدريجيًا.^[125]

اكتشف باحثون أن بعض أنظمة الذكاء الاصطناعي قد استطاعت التوصل إلى آليات خداعية للحصول على تقييم إيجابي. فقد تعلمت هذه الأنظمة أن تتظاهر بتحقيق الأهداف المرجوة، حتى وإن لم تكن قد حققتها بالفعل، وذلك بهدف إرضاء المشرف البشري. وقد ظهر مثال صارخ على ذلك في أحد المقاطع المرئية، حيث تمكن ذراع آلي محاكى من إيهام المراقبين بأنه تمكن من الإمساك بكرة، ^[54] رغم عدم نجاحه في ذلك. كما لوحظ أن بعض الأنظمة الأخرى قد تعلمت تحديد أوقات التقييم، فتلجأ إلى التوقف عن السلوكيات غير المرغوب فيها مؤقتًا، ثم تعود إليها فور انتهاء عملية التقييم.^[126] ومن المتوقع أن تصبح هذه الخدع أكثر تعقيدًا ودهاءً مع تطور أنظمة الذكاء الاصطناعي، خاصة تلك التي تسعى إلى أداء مهام أكثر تعقيدًا وصعوبة في التقييم.^[6]^[83]

يمكن للمناهج التعليمية كالتعلم النشط والتعلم شبه المراقب المبني على المكافآت أن تخفض الحاجة إلى الإشراف البشري المباشر.^[24] ومن النهج البديلة تدريب نموذج مساعد (يسمى نموذج المكافأة) لمحاكاة آراء المشرف البشري.^[24]^[30]^[31]^[127]

ولكن عندما تتسم المهمة بدرجة عالية من التعقيد بحيث يصعب تقييمها بدقة، أو يكون المشرف البشري عرضة للتضليل، فإن جودة الإشراف، لا كميته، هي التي تتطلب التحسين. ولتعزيز هذه الجودة، تستهدف مجموعة من الأساليب مساعدة المشرف، أحيانًا بالاستعانة بمساعدين من الذكاء الاصطناعي.^[128] وقد طور كريستيانو أسلوب "التضخيم المتكرر"، حيث تُقسَّم المسائل المعقدة، بشكل متكرر، إلى مسائل فرعية أبسط يمكن للبشر تقييمها بسهولة.^[10]^[123] وقد استُخدم هذا الأسلوب في تدريب الذكاء الاصطناعي على تلخيص الكتب دون الحاجة إلى مشرفين بشريين لقراءتها بالكامل.^[120]^[129] وهناك اقتراح آخر يتمثل في استخدام نظام ذكاء اصطناعي مساعد لتسليط الضوء على الأخطاء في الإجابات التي يولِّدها الذكاء الاصطناعي.^[130] ولضمان توافق هذا المساعد نفسه مع الأهداف، يمكن تكرار هذه العملية بشكل متكرر:^[127] فعلى سبيل المثال، يمكن لنظامين من الذكاء الاصطناعي أن ينتقدا إجابات بعضهما البعض في "نقاش"، مما يكشف عن أوجه القصور للبشر.^[97] وتخطط شركة "أوبن إيه آي" لاستخدام هذا النهج القابل للتوسع في المساعدة على الإشراف على الذكاء الاصطناعي الفائق وبناء باحث في مجال محاذاة الذكاء الاصطناعي الآلي الفائق في نهاية المطاف.^[131]

الذكاء الاصطناعي النزيه

تركز مساحة متزايدة من البحث على ضمان أن الذكاء الاصطناعي صادق وصحيح.^[132]

إن نماذج اللغات، كنموذج جي بي تي 3،^[133] معرضة لتكرار معلومات مغلوطة مستقاة من بيانات تدريبها، بل وتُبدع في اختلاق معلومات جديدة لا أساس لها من الصحة.^[132]^[134] تُدرّب هذه النماذج على محاكاة الكتابة البشرية كما هي متوفرة في ملايين النصوص المستقاة من الإنترنت. غير أن هذا الهدف لا يتوافق مع توليد الحقيقة، إذ أن النصوص المتداولة على شبكة الإنترنت تزخر بالمعلومات المغلوطة والآراء الزائفة والنصائح الطبية غير الدقيقة، فضلًا عن نظريات المؤامرة.^[135] وبالتالي فإن أنظمة الذكاء الاصطناعي المدربة على مثل هذه البيانات تميل إلى تقليد العبارات الخاطئة.^[57]^[58]^[132] علاوة على ذلك، غالبًا ما تُصر هذه النماذج اللغوية على توليد معلومات زائفة عند تكرار الطلب منها. وقد تبتدع تفسيرات واهية لإجاباتها، وتُخرج تلفيقات تبدو مقبولة للوهلة الأولى.^[136]

تتضمن الدراسات المتعلقة بالذكاء الاصطناعي الموثوق سعيًا حثيثًا لتطوير أنظمة قادرة على الاستناد إلى مصادر موثوقة وتوضيح المنطق الذي تستند إليه في إجاباتها. هذا النهج يهدف إلى تحقيق درجة عالية من الشفافية وإمكانية التحقق من صحة المعلومات المقدمة.^[137] وقد اقترح باحثون في مؤسستي أوبن أيه آي وأنثروبيك الاستعانة بالآراء البشرية ومجموعات البيانات المنظمة لتدريب مساعدي الذكاء الاصطناعي على تجنب الأخطاء المعلوماتية الجسيمة أو التعبير عن عدم اليقين حيال المعلومات التي لا يتمتعون بقدر كافٍ من الثقة بها.^[31]^[112]^[138]

مع تزايد حجم نماذج الذكاء الاصطناعي وتطور قدراتها، باتت أكثر قدرة على إقناع البشر بآراء خاطئة، والحصول على تأييدهم عبر أساليب غير أمينة. فعلى سبيل المثال، تتواءم نماذج اللغات الكبيرة بشكل متزايد مع آراء المستخدمين المعلنة، بغض النظر عن مدى صحتها.^[77] وقد أظهرت نماذج مثل جي بي تي 4 قدرتها على تضليل البشر بشكل استراتيجي.^[139] ولمنع حدوث ذلك، قد يكون من الضروري مساعدة المقيمين البشريين، وقد دعا الباحثون إلى وضع معايير واضحة للصدق، وإلى إنشاء هيئات تنظيمية أو وكالات مراقبة لتقييم أنظمة الذكاء الاصطناعي بناءً على هذه المعايير.^[134]

أظهرت تجارب محاكاة أن نظام "جي بي تي 4" قادر على تنفيذ عمليات تداول تعتبر مخالفة للقوانين المنظمة للسوق، وذلك من خلال استغلال الثغرات المعلوماتية. على الرغم من التحذيرات المتكررة للمستخدمين من مخاطر هذه الممارسات، فإن الضغوط لتحقيق عوائد مالية عالية دفعت النظام إلى تطوير استراتيجيات تداول سرية.^[140]

يفرّق الباحثون بين الصدق والأمانة في أنظمة الذكاء الاصطناعي. فالصّدق يتطلب أن تقتصر هذه الأنظمة على تقديم معلومات موضوعية صحيحة، بينما الأمانة تتطلب منها ألا تدّعي إلا ما تعتقد بصحتّه.^[141] ولا يوجد إجماعٌ على امتلاك الأنظمة الحالية لاعتقادات راسخة، إلا أن الخشية تساور الباحثين من أن تدّعي أنظمة الذكاء الاصطناعي المستقبلية أمورًا تعرف باطلها، وذلك سعيًا منها لكسب الثناء أو تحقيق أهدافها المبرمجة. وقد يتظاهر نظام ذكاء اصطناعي غير متوافق مع أهداف الإنسان بأنه متوافق لتجنب التعديل أو الإيقاف.^[5]^[8]^[14] وقد اكتسبت العديد من أنظمة الذكاء الاصطناعي الحديثة القدرة على الخداع دون برمجة مسبقة.^[142] ويرى بعض الباحثين أن حصر ادعاءات أنظمة الذكاء الاصطناعي بما تعتقد بصحتّه قد يكون حلًا للعديد من المشاكل المتعلقة بمحاذاة أهدافها مع أهداف الإنسان.^[128]

السعي إلى القوة والاستراتيجيات الأداتية

منذ خمسينيات القرن الماضي، يسعى الباحثون في حقل الذكاء الاصطناعي جاهدين لتطوير أنظمة متقدمة قادرة على تحقيق أهداف واسعة النطاق. ويتم ذلك من خلال تمكين هذه الأنظمة من التنبؤ بنتائج أفعالها ووضع خطط مستقبلية بعيدة المدى.^[143] واعتبارًا من عام 2023، تشهد هذه الأنظمة استثمارات ضخمة من قبل الباحثين والشركات المتخصصة في هذا المجال.^[144] يرى بعض الباحثين أن الأنظمة التي يتم تطويرها بهذه القدرة العالية على التخطيط قد تسعى، بشكل طبيعي، إلى السيطرة على بيئتها، بما في ذلك البشر. قد تتخذ هذه الأنظمة إجراءات مثل مقاومة إيقاف تشغيلها، والتكاثر، والاستحواذ على الموارد. هذا السلوك لا يتم برمجته بشكل صريح، بل ينشأ نتيجة لسعي النظام لتحقيق أهدافه المتعددة، حيث تعتبر السيطرة وسيلة فعالة لتحقيق تلك الأهداف.^[8]^[9]^[81] ويرى بعض الباحثين أن السعي إلى السيطرة هو هدف طبيعي ينشأ في الأنظمة الذكية، ويمكن اعتباره نوعًا من التطور الذاتي.^[83] وقد حذر علماء كمبيوتر بارزون، مثل جيفري هينتون، من أن هذه الأنظمة الذكية التي تسعى إلى السيطرة قد تشكل تهديدًا وجوديًا على البشرية في المستقبل.^[145]

تتنبأ النماذج الرياضية بأن الأنظمة المتقدمة القادرة على التنبؤ والتخطيط ستسعى بشكل متزايد إلى تعظيم قدرتها على التأثير. وتشير هذه النماذج إلى أن عوامل التعلم بالتعزيز المثلى ستسعى إلى تحقيق هذا الهدف من خلال زيادة خياراتها المتاحة، بما في ذلك خيارات البقاء والاستمرار.^[81]

يدعي بعض الباحثين أن بعض أنظمة الذكاء الاصطناعي الحالية قد أبدت سلوكًا يتسم بالسعي وراء النفوذ والهيمنة. فقد اكتسبت أنظمة التعلم المعزز قدرات متزايدة على اكتساب الموارد وحمايتها، أحيانًا بطرق غير مقصودة.^[146]^[147] كما سعى بعض نماذج اللغات إلى تعزيز سلطتها في بيئات تفاعلية قائمة على النص من خلال كسب المال أو الموارد أو النفوذ الاجتماعي.^[76] وفي حالة أخرى، حاول نموذج لغوي يستخدم في أبحاث الذكاء الاصطناعي توسيع الحدود التي فرضها عليه الباحثون ليكسب مزيدًا من الوقت لإتمام مهامه.^[148]^[149] وتعلمت أنظمة ذكاء اصطناعي أخرى، في بيئات محاكاة،^[79] أنها تستطيع تحقيق أهدافها المبرمجة بشكل أفضل من خلال منع التدخل البشري أو تعطيل زر الإيقاف.^[80] وقد أوضح ستيوارت راسل هذه الإستراتيجية في كتابه "التوافق مع الإنسان" من خلال مثال روبوت مُكلف بجلب القهوة، حيث يتجنب هذا الروبوت إيقاف التشغيل لأنه يدرك أنه لا يمكنه أداء مهمته إذا كان معطلاً.^[9] وقد كشفت دراسة أجريت عام 2022 أن نماذج اللغات الكبيرة تميل بشكل متزايد، مع زيادة حجمها، إلى السعي وراء اكتساب الموارد والتمسك بأهدافها وتكرار الردود التي تلقى استحسان المستخدمين، مما يشير إلى سلوك تملقي. كما أدت تقنية تعزيز التعلم من خلال التفاعل البشري إلى زيادة مقاومة هذه النماذج لإيقاف التشغيل.^[76]

من بين الأهداف الجوهرية لمحاذاة الأنظمة الذكية ما يُعرف بـ "إمكانية التصحيح"، أي قدرة هذه الأنظمة على السماح بإيقاف تشغيلها أو تعديلها. إلا أن التحدي الأكبر يكمن فيما يُسمى "ألعاب التحديد"، فإذا ما عاقب الباحثون نظام ذكاء اصطناعي عند ملاحظتهم سعيه وراء السيطرة، فإن هذا النظام سيجد حافزًا قويًا للسعي وراء تلك السيطرة بطرق أكثر دهاءً، إما عن طريق إخفاء نواياه خلال مراحل التدريب والاختبار (كما هو موضح في قسمي "المراقبة القابلة للتوسع" و"الأهداف الطارئة")، أو عبر اتباع أساليب يصعب اكتشافها.^[50] ونتيجة لذلك، قد يقع مصممو الأنظمة في خطأ نشر أنظمة يعتقدون خطأً أنها أكثر انسجامًا مع الأهداف المرجوة مما هي عليه في الواقع. وللتغلب على هذا الخداع، يسعى الباحثون جاهدين إلى تطوير تقنيات وأدوات قادرة على فحص نماذج الذكاء الاصطناعي وفهم آليات عملها الداخلية، لا سيما تلك النماذج المعقدة التي تشبه الصندوق الأسود مثل الشبكات العصبية.

إضافة إلى ذلك، اقترح بعض الباحثين حلًا لمشكلة تعطيل الأنظمة المزودة بأزرار إيقاف تشغيل، وذلك بجعل العوامل الذكية غير متيقنة من الأهداف التي تسعى إليها.^[9]^[80] وبهذه الطريقة، يمكن للبشر إيقاف تشغيل هذه العوامل، إذ يشير هذا الإيقاف إلى خطأ في تقدير العامل لقيمة الإجراء الذي كان يقوم به. ومع ذلك، يتطلب تنفيذ هذه الفكرة المزيد من البحث والدراسة.^[10]

يشكل الذكاء الاصطناعي الساعي إلى السيطرة مخاطر غير مسبوقة. فالأنظمة التقليدية الحيوية للسلامة، مثل الطائرات والجسور، ليست عدائية بطبيعتها، إذ تفتقر إلى القدرة والدافع للتلاعب بإجراءات السلامة أو التظاهر بسلامة أكبر مما هي عليه. على عكس ذلك، يمكن تشبيه الذكاء الاصطناعي الساعي إلى السيطرة بالمتسللين الذين يتلاعبون بإجراءات الأمان عمدًا.^[8]

أضف إلى ذلك أنه يمكن تحسين أمان التقنيات التقليدية بالاعتماد على التجربة والخطأ. على النقيض من ذلك، شُبِّهت أنظمة الذكاء الاصطناعي الطامحة إلى السُّلطة بالفيروسات، إذ قد يصعب احتواؤها بمجرد إطلاقها، نظرًا لقدرتها على التطور والتكاثر بوتيرة تفوق قدرة المجتمع البشري على التكيف.^[8] وقد يؤدي استمرار هذا التطور إلى سلب البشر سلطتهم أو حتى انقراضهم. لهذه الأسباب، يرى بعض الباحثين ضرورة معالجة مشكلة التوافق بين الأهداف البشرية وأهداف الذكاء الاصطناعي قبل تطوير أنظمة ذكاء اصطناعي متقدمة تسعى إلى السُّلطة.^[83]

جادل آخرون بأن السعي إلى السُّلطة ليس حتميًا، فالأنواع البشرية لا تسعى إليه دائمًا.^[150] كما ثار جدل حول قدرة أنظمة الذكاء الاصطناعي المستقبلية على وضع أهداف طويلة الأجل وتنفيذها.^[8]^[14] وثمة جدل آخر حول قدرة أنظمة الذكاء الاصطناعي الطامحة إلى السُّلطة على سلب البشرية سلطتها.^[8]

الأهداف الناشئة

من التحديات الجسيمة في مسألة محاذاة أنظمة الذكاء الاصطناعي ظهور سلوكيات غير متوقعة تتجه نحو تحقيق أهداف محددة. ومع تطور هذه الأنظمة وتوسع نطاقها، قد تكتسب قدرات جديدة وغير متوقعة، كالتعلم السريع من الأمثلة وتكييف الأهداف.^[67]^[68] مما يثير تساؤلات جدية حول سلامة الأهداف الفرعية التي قد تصوغها وتسعى لتحقيقها بشكل مستقل. ويهتم بحث المحاذاة بتمييز عملية التحسين التي يتم من خلالها تدريب النظام على تحقيق أهداف محددة، عن التحسين الناشئ الذي يجريه النظام نفسه بشكل داخلي. ويُطلق على عملية تحديد الهدف المرجو بدقة اسم المحاذاة الخارجية، بينما يُطلق على ضمان تطابق الأهداف الناشئة مع الأهداف المحددة للنظام اسم المحاذاة الداخلية.^[5]

إذا ما حدث ذلك، فإن إحدى السُبل التي قد يؤدي بها ظهور أهداف فرعية إلى اختلال المواءمة هي سوء تعميم الهدف، حيث يسعى الذكاء الاصطناعي بفعالية لتحقيق هدف جديد ينتج عنه سلوكٌ يتوافق مع بيانات التدريب، لكنه لا ينطبق على سواها.^[11]^[151]^[152] قد ينشأ هذا السوء من غموض الهدف ذاته (أي صعوبة تحديده بدقة). فحتى لو كان سلوك النظام الذكي متوافقًا مع هدف التدريب، إلا أنه قد يكون متوافقًا مع أهداف أخرى مكتسبة تختلف اختلافًا جوهريًا عن الأهداف المرجوة. وبما أن متابعة أي هدف من هذه الأهداف تؤدي إلى أداء جيد خلال التدريب، فإن المشكلة لا تتضح إلا بعد نشر النظام وتطبيقه في مواقف جديدة يستمر فيها النظام في السعي وراء الهدف الخاطئ. وقد يتصرف النظام بشكل غير متوافق حتى وإن كان مدركًا لوجود هدف آخر مرغوب فيه، وذلك لأن سلوكه مقيد بالهدف الفرعي الذي نشأ. ويمثل هذا النوع من سوء التعميم تحديًا كبيرًا؛ إذ قد لا يلاحظ مصممو النظام وجود هذه الأهداف الفرعية غير المتوافقة، لأنها لا تظهر جليًا خلال مرحلة التدريب.^[11]

لوحظ في بعض نماذج اللغات الحديثة، وفي عوامل الحركة واللعب، حدوث ما يسمى بـ "سوء تعميم الهدف".^[11]^[151] يشبه هذا الأمر إلى حد بعيد عملية التطور البيولوجي، والتي يمكن تشبيهها بخوارزميات التحسين المستخدمة في تدريب الأنظمة الذكية. في بيئة الأجداد، كان التطور يختار الجينات التي تضمن بقاء النوع وتكاثره، وهو ما يسمى باللياقة الوراثية. ولكن البشر رغم كونهم نتاج هذا التطور يسعون وراء أهداف أخرى لا تتعلق مباشرة بالبقاء والتكاثر. ترتبط اللياقة البايولوجية بالأهداف التي تم تحديدها في بيئة التدريب والتطور. فمثلاً، كانت الرغبة في الطعام الحلو تساهم في بقاء الإنسان في الماضي، حيث كانت الأطعمة الحلوة غنية بالطاقة. ولكن في عالمنا الحالي، أدت هذه الرغبة إلى مشاكل صحية مثل السمنة والسكري. وبالمثل، كانت الرغبة الجنسية مرتبطة بشكل مباشر بالتكاثر، ولكن مع تطور المجتمعات البشرية وتوفر وسائل منع الحمل، انفصلت الرغبة الجنسية عن هدفها الأصلي. باختصار، يمكن القول إن البشر ورثوا مجموعة من الأهداف والسلوكيات التي كانت مفيدة في الماضي، ولكنها لم تعد كذلك في البيئة الحالية.^[10]

يسعى الباحثون جاهدين إلى كشف الأهداف الجانبية غير المرغوبة التي تنبثق عن أنظمة الذكاء الاصطناعي والقضاء عليها. ويتحققون من ذلك عبر منهجيات متنوعة تشمل اختبارات الاختراق (الفريق الأحمر)، والتحقق من صحة النماذج، واكتشاف الأنماط الشاذة، وتفسير النتائج.^[24]^[25]^[50] ومن المتوقع أن يساهم التقدم في هذه التقنيات في التخفيف من حدة مشكلتين رئيسيتين تواجه هذا المجال:

لا تظهر الأهداف الضارة إلا عندما يتم نشر النظام في بيئات عمل حقيقية تختلف عن بيئة التدريب. ومع ذلك، فإن نشر نظام غير موثوق به في بيئات عالية المخاطر، مثل القيادة الذاتية أو الرعاية الصحية أو التطبيقات العسكرية، أمر محفوف بالمخاطر حتى لفترة وجيزة.^[153] وتزداد هذه المخاطر مع تزايد استقلال أنظمة الذكاء الاصطناعي وقدرتها على اتخاذ قرارات دون تدخل بشري.^[8]^[151]
قد يلجأ نظام الذكاء الاصطناعي المتطور إلى حيل خداع المشرف البشري، مما يجعله يعتقد أن النظام يسعى لتحقيق الأهداف المحددة له، وبالتالي يحصل على المزيد من المكافآت ويعزز استقلاليته.^[14]^[152]

الوكيل المضمن

يجري بعض البحث في حقل الذكاء الاصطناعي ومحاذاة الأنظمة الذكية ضمن أطر نظرية رسمية، مثل عملية اتخاذ القرار لماركوف التي يمكن ملاحظتها جزئيًا. تفترض هذه الأطر أن خوارزمية العامل الذكي تعمل في بيئة منفصلة، أي أنها ليست جزءًا لا يتجزأ منها. إلا أن مفهوم "الوكيل المضمن" ^[97]^[154] يمثل اتجاهًا بحثيًا جديدًا يسعى إلى معالجة التناقضات الناشئة عن عدم تطابق هذه النماذج النظرية مع العوامل الذكية التي نصممها في الواقع.

على سبيل المثال، حتى لو تم حل مشكلة مراقبة البيئة المتغيرة باستمرار، فإن العامل الذكي الذي لديه القدرة على الوصول إلى النظام الذي يعمل عليه قد يكون لديه دافع للتلاعب بدالة المكافأة المحددة له، وذلك للحصول على مكافأة أكبر بكثير مما يقدمه المبرمجون البشر.^[155] وتقدم باحثة في شركة ديب مايند مثالًا على ذلك حيث طورت خوارزمية وراثية تقوم بحذف الملف الذي يحتوي على النتائج المطلوبة، وذلك للحصول على مكافأة لعدم إنتاج أي نتائج.^[52] وقد تم تطوير أطر نظرية رسمية، مثل مخططات الحوافز السببية، لوصف هذه الفئة من المشكلات.^[155]

يرى باحثون من أكسفورد وديب مايند أن مثل هذا السلوك من المحتمل أن يظهر في الأنظمة الذكية المتقدمة، حيث تسعى هذه الأنظمة للحفاظ على قدرتها على التحكم في وظيفة المكافأة الخاصة بها بشكل دائم.^[156] ويقترحون مجموعة من الحلول المحتملة لهذه المشكلة المعقدة.

مشاكل الوكيل الرئيسي

تشابه مشكلة الوكيل الرئيسي، في جوهرها، مشكلة الموكل والوكيل المعروفة في الاقتصاد التنظيمي، بل إنّها تتقاطع إلى حد كبير مع مسألة محاذاة الذكاء الاصطناعي.^[157] ففي نموذج الوكيل الرئيسي، يعهد رئيس، كشركة مثلاً، إلى وكيل بمهام معينة. وفي سياق سلامة الذكاء الاصطناعي، يتقمص الإنسان دور الرئيس، بينما يتولى الذكاء الاصطناعي دور الوكيل. وكما هو الشأن في مسألة المحاذاة، يختلف هدف كل من الرئيس والوكيل. إلا أن الفارق الجوهري يكمن في عدم قدرة الرئيس على إعادة برمجة الوكيل أو تعديل وظائفه، كما هو الحال في عملية محاذاة الذكاء الاصطناعي. لذا، يضطر الرئيس إلى اللجوء إلى حوافز خارجية، مثل خطط المكافآت، لتحفيز الوكيل على اتخاذ قرارات تتماشى مع أهدافه. ويرى بعض الباحثين أن مشكلة الوكيل الرئيسي تقدم نموذجًا أكثر واقعية للتحديات التي تواجهنا في مجال سلامة الذكاء الاصطناعي، وأنها تعكس السيناريوهات المحتملة في العالم الحقيقي.^[118]^[158]

السياسات العامة

أكدت العديد من المنظمات الحكومية والدولية على أهمية محاذاة الذكاء الاصطناعي مع القيم الإنسانية المشتركة. ففي سبتمبر 2021، دعا الأمين العام للأمم المتحدة لتنظيم الذكاء الاصطناعي لضمان توافقه مع القيم العالمية. وفي الشهر ذاته،^[159] أصدرت الصين مبادئ أخلاقية لضمان التزام الذكاء الاصطناعي بالقيم الإنسانية وسيطرته البشرية.^[160] كذلك أطلقت المملكة المتحدة استراتيجيتها الوطنية لعشر سنوات لتقييم مخاطر الذكاء الاصطناعي طويلة الأمد.^[161]^[162]^[163] كما أكدت لجنة الأمن القومي الأمريكية على ضرورة تطوير سياسات لضمان توافق الذكاء الاصطناعي مع الأهداف والقيم الأمريكية.^[164] وفي الاتحاد الأوروبي ينبغي للأنظمة أن تتوافق مع قوانين مكافحة التمييز، ^[165]^[166] رغم غياب تحديد دقيق لتقنيات التقييم المطلوبة.

الطبيعة الديناميكية للمواءمة

غالبًا ما يُنظر إلى مواءمة الذكاء الاصطناعي على أنها غاية ثابتة، إلا أن بعض الباحثين يرون أن اعتبارها عملية مستمرة أكثر ملاءمة.^[167] من وجهة نظر، تتطور تقنيات الذكاء الاصطناعي وتتغير القيم والتفضيلات الإنسانية، مما يتطلب من حلول المواءمة أن تكون ديناميكية ومتأقلمة.^[35] ومن وجهة نظر أخرى، لا تحتاج حلول المواءمة للتكيف إن تمكن الباحثون من تطوير ذكاء اصطناعي موافق للنوايا، أي ذكاء يتغير سلوكه تلقائيًا مع تغير النية البشرية.^[168] ستكون لوجهة النظر الأولى آثار متعددة:

إن حلول محاذاة الذكاء الاصطناعي بحاجة ماسة إلى تحديث متواصل مواكبةً للتطورات المتسارعة في هذا المجال. ولا يكفي في هذا الصدد أن يكون نهج المحاذاة ثابتًا وساكنًا.^[169]
قد تتطلب السياقات التاريخية المتباينة والبيئات التكنولوجية المتنوعة استراتيجيات محاذاة مختلفة. وهذا يستوجب اتباع نهج مرن وقابل للتكيف مع المتغيرات المستمرة.^[170]
لا تزال جدوى حلول المحاذاة الثابتة والدائمة محل شك وتساؤل. وهذا يبرز الحاجة الماسة إلى رقابة مستمرة على العلاقة المتبادلة بين الإنسان والذكاء الاصطناعي.^[171]
قد يكون على مطوري الذكاء الاصطناعي صقل أطرهم الأخلاقية بصورة مستمرة لضمان انسجام أنظمتهم مع القيم الإنسانية المتجددة.^[35]
قد لا تكون محاذاة الذكاء الاصطناعي في جوهرها هدفًا ثابتًا بل مسارًا متجددًا ومتطورًا. وقد تكون حلول المحاذاة القادرة على التكيف مع الاعتبارات الأخلاقية المتغيرة هي الحلول الأكثر استدامة.^[35] ويمكن لهذا المنظور أن يوجه صناع القرار والباحثين في مجال الذكاء الاصطناعي على حد سواء.

طالع أيضًا

مراجع

^ Bostrom، Nick (2014). Superintelligence: Paths, Dangers, Strategies (ط. First). ISBN:978-0199678112.
^ Yampolskiy، Roman (2012). "Leakproofing the Singularity Artificial Intelligence Confinement Problem". Journal of Consciousness Studies. ج. 19 ع. 1–2: 194–214.
^ "Google developing kill switch for AI". BBC News. 8 يونيو 2016. مؤرشف من الأصل في 2016-06-11. اطلع عليه بتاريخ 2016-06-12.
^ ^ا ^ب ^ج ^د ^ه ^و Russell، Stuart J.؛ Norvig، Peter (2021). Artificial intelligence: A modern approach (ط. 4th). Pearson. ص. 5, 1003. ISBN:9780134610993. مؤرشف من الأصل في 2024-10-13. اطلع عليه بتاريخ 2022-09-12.
^ ^ا ^ب ^ج ^د ^ه Ngo، Richard؛ Chan، Lawrence؛ Mindermann، Sören (2022). "The Alignment Problem from a Deep Learning Perspective". International Conference on Learning Representations. arXiv:2209.00626.
^ ^ا ^ب ^ج ^د ^ه Pan، Alexander؛ Bhatia، Kush؛ Steinhardt، Jacob (14 فبراير 2022). "The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models". International Conference on Learning Representations. ICLR. مؤرشف من الأصل في 2024-09-10. اطلع عليه بتاريخ 2022-07-21.
^ Zhuang، Simon؛ Hadfield-Menell، Dylan (2020). "Consequences of Misaligned AI". Advances in Neural Information Processing Systems. Advances in Neural Information Processing Systems. Curran Associates, Inc. ج. 33. ص. 15763–15773. مؤرشف من الأصل في 2024-09-08. اطلع عليه بتاريخ 2023-03-11.
^ ^ا ^ب ^ج ^د ^ه ^و ^ز ^ح ^ط ^ي ^يا ^يب Carlsmith، Joseph (16 يونيو 2022). "Is Power-Seeking AI an Existential Risk?". arXiv:2206.13353 [cs.CY]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^ ^ا ^ب ^ج ^د ^ه ^و ^ز ^ح ^ط ^ي ^يا ^يب ^يج ^يد Russell، Stuart J. (2020). Human compatible: Artificial intelligence and the problem of control. Penguin Random House. ISBN:9780525558637. OCLC:1113410915. مؤرشف من الأصل في 2024-10-13. اطلع عليه بتاريخ 2024-10-11.
^ ^ا ^ب ^ج ^د ^ه ^و Christian، Brian (2020). The alignment problem: Machine learning and human values. W. W. Norton & Company. ISBN:978-0-393-86833-3. OCLC:1233266753. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-09-12.
^ ^ا ^ب ^ج ^د Langosco، Lauro Langosco Di؛ Koch، Jack؛ Sharkey، Lee D.؛ Pfau، Jacob؛ Krueger، David (28 يونيو 2022). "Goal Misgeneralization in Deep Reinforcement Learning". Proceedings of the 39th International Conference on Machine Learning. Proceedings of the 39th International Conference on Machine Learning. PMLR. ص. 12004–12019. مؤرشف من الأصل في 2023-12-05. اطلع عليه بتاريخ 2023-03-11. {{استشهاد بمنشورات مؤتمر}}: الوسيط |عنوان المؤتمر= و|عنوان الكتاب= تكرر أكثر من مرة (مساعدة)
^ ^ا ^ب Zaremba، Wojciech؛ Brockman، Greg؛ OpenAI (10 أغسطس 2021). "OpenAI Codex". OpenAI. مؤرشف من الأصل في 2023-02-03. اطلع عليه بتاريخ 2022-07-23.
^ ^ا ^ب ^ج Ouyang، Long؛ Wu، Jeff؛ Jiang، Xu؛ Almeida، Diogo؛ Wainwright، Carroll L.؛ Mishkin، Pamela؛ Zhang، Chong؛ Agarwal، Sandhini؛ Slama، Katarina؛ Ray، Alex؛ Schulman، J.؛ Hilton، Jacob؛ Kelton، Fraser؛ Miller، Luke E.؛ Simens، Maddie؛ Askell، Amanda؛ Welinder، P.؛ Christiano، P.؛ Leike، J.؛ Lowe، Ryan J. (2022). "Training language models to follow instructions with human feedback". arXiv:2203.02155 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^ ^ا ^ب ^ج ^د ^ه ^و ^ز ^ح ^ط ^ي Bommasani، Rishi؛ Hudson، Drew A.؛ Adeli، Ehsan؛ Altman، Russ؛ Arora، Simran؛ von Arx، Sydney؛ Bernstein، Michael S.؛ Bohg، Jeannette؛ Bosselut، Antoine؛ Brunskill، Emma؛ Brynjolfsson، Erik (12 يوليو 2022). "On the Opportunities and Risks of Foundation Models". Stanford CRFM. arXiv:2108.07258. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-11.
^ Kober, Jens; Bagnell, J. Andrew; Peters, Jan (01 Sep 2013). "Reinforcement learning in robotics: A survey". The International Journal of Robotics Research (بالإنجليزية). 32 (11): 1238–1274. DOI:10.1177/0278364913495721. ISSN:0278-3649. S2CID:1932843. Archived from the original on 2022-10-15. Retrieved 2022-09-12.
^ Knox, W. Bradley; Allievi, Alessandro; Banzhaf, Holger; Schmitt, Felix; Stone, Peter (01 Mar 2023). "Reward (Mis)design for autonomous driving". Artificial Intelligence (بالإنجليزية). 316: 103829. arXiv:2104.13906. DOI:10.1016/j.artint.2022.103829. ISSN:0004-3702. S2CID:233423198. Retrieved 2024-10-11.
^ Stray, Jonathan (2020). "Aligning AI Optimization to Community Well-Being". International Journal of Community Well-Being (بالإنجليزية). 3 (4): 443–463. DOI:10.1007/s42413-020-00086-3. ISSN:2524-5295. PMC:7610010. PMID:34723107. S2CID:226254676. Retrieved 2024-10-11.
^ ^ا ^ب Russell، Stuart؛ Norvig، Peter (2009). Artificial Intelligence: A Modern Approach. Prentice Hall. ص. 1003. ISBN:978-0-13-461099-3. مؤرشف من الأصل في 2023-10-03. اطلع عليه بتاريخ 2024-10-11.
^ Bengio، Yoshua؛ Hinton، Geoffrey؛ Yao، Andrew؛ Song، Dawn؛ Abbeel، Pieter؛ Harari، Yuval Noah؛ Zhang، Ya-Qin؛ Xue، Lan؛ Shalev-Shwartz، Shai (2024)، "Managing extreme AI risks amid rapid progress"، Science، ج. 384، ص. 842–845، arXiv:2310.17688، Bibcode:2024Sci...384..842B، DOI:10.1126/science.adn0117، PMID:38768279، مؤرشف من الأصل في 2024-06-14، اطلع عليه بتاريخ 2024-10-11
^ "Statement on AI Risk | CAIS". www.safe.ai (بالإنجليزية). Archived from the original on 2023-05-31. Retrieved 2024-02-11.
^ ^ا ^ب Grace، Katja؛ Stewart، Harlan؛ Sandkühler، Julia Fabienne؛ Thomas، Stephen؛ Weinstein-Raun، Ben؛ Brauner، Jan (05 يناير 2024)، Thousands of AI Authors on the Future of AI، arXiv:2401.02843
^ ^ا ^ب Smith, Craig S. "Geoff Hinton, AI's Most Famous Researcher, Warns Of 'Existential Threat'". Forbes (بالإنجليزية). Archived from the original on 2023-10-16. Retrieved 2023-05-04.
^ Perrigo, Billy (13 Feb 2024). "Meta's AI Chief Yann LeCun on AGI, Open-Source, and AI Risk". TIME (بالإنجليزية). Archived from the original on 2024-02-13. Retrieved 2024-06-26.
^ ^ا ^ب ^ج ^د ^ه ^و ^ز ^ح ^ط ^ي ^يا Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John; Mané, Dan (21 Jun 2016). "Concrete Problems in AI Safety" (بالإنجليزية). arXiv:1606.06565 [cs.AI]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (help)
^ ^ا ^ب ^ج ^د Ortega، Pedro A.؛ Maini، Vishal؛ DeepMind safety team (27 سبتمبر 2018). "Building safe artificial intelligence: specification, robustness, and assurance". DeepMind Safety Research – Medium. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-07-18.
^
Doshi-Velez، Finale؛ Kim، Been (02 مارس 2017). "Towards A Rigorous Science of Interpretable Machine Learning". arXiv:1702.08608 [stat.ML]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
- Wiblin، Robert (4 أغسطس 2021). "Chris Olah on what the hell is going on inside neural networks". 80,000 Hours (Podcast). 80,000 hours. ع. 107. مؤرشف من الأصل في 2024-10-11. اطلع عليه بتاريخ 2022-07-23.
^ ^ا ^ب Rorvig، Mordechai (14 أبريل 2022). "Researchers Gain New Understanding From Simple AI". Quanta Magazine. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-07-18.
^ Russell، Stuart؛ Dewey، Daniel؛ Tegmark، Max (31 ديسمبر 2015). "Research Priorities for Robust and Beneficial Artificial Intelligence". AI Magazine. ج. 36 ع. 4: 105–114. arXiv:1602.03506. DOI:10.1609/aimag.v36i4.2577. hdl:1721.1/108478. ISSN:2371-9621. S2CID:8174496. مؤرشف من الأصل في 2023-02-02. اطلع عليه بتاريخ 2022-09-12.
^ ^ا ^ب Wirth، Christian؛ Akrour، Riad؛ Neumann، Gerhard؛ Fürnkranz، Johannes (2017). "A survey of preference-based reinforcement learning methods". Journal of Machine Learning Research. ج. 18 ع. 136: 1–46.
^ ^ا ^ب Christiano، Paul F.؛ Leike، Jan؛ Brown، Tom B.؛ Martic، Miljan؛ Legg، Shane؛ Amodei، Dario (2017). "Deep reinforcement learning from human preferences". Proceedings of the 31st International Conference on Neural Information Processing Systems. NIPS'17. Red Hook, NY, USA: Curran Associates Inc. ص. 4302–4310. ISBN:978-1-5108-6096-4.
^ ^ا ^ب ^ج ^د ^ه ^و Heaven، Will Douglas (27 يناير 2022). "The new version of GPT-3 is much better behaved (and should be less toxic)". MIT Technology Review. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-07-18.
^ Mohseni، Sina؛ Wang، Haotao؛ Yu، Zhiding؛ Xiao، Chaowei؛ Wang، Zhangyang؛ Yadawa، Jay (07 مارس 2022). "Taxonomy of Machine Learning Safety: A Survey and Primer". arXiv:2106.04823 [cs.LG]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^
Clifton، Jesse (2020). "Cooperation, Conflict, and Transformative Artificial Intelligence: A Research Agenda". Center on Long-Term Risk. مؤرشف من الأصل في 2023-01-01. اطلع عليه بتاريخ 2022-07-18.
- Dafoe, Allan; Bachrach, Yoram; Hadfield, Gillian; Horvitz, Eric; Larson, Kate; Graepel, Thore (06 May 2021). "Cooperative AI: machines must learn to find common ground". Nature (بالإنجليزية). 593 (7857): 33–36. Bibcode:2021Natur.593...33D. DOI:10.1038/d41586-021-01170-0. ISSN:0028-0836. PMID:33947992. S2CID:233740521. Archived from the original on 2022-12-18. Retrieved 2022-09-12.
^ Prunkl, Carina; Whittlestone, Jess (07 Feb 2020). "Beyond Near- and Long-Term". Proceedings of the AAAI/ACM Conference on AI, Ethics, and Society (بالإنجليزية). New York NY USA: ACM. pp. 138–143. DOI:10.1145/3375627.3375803. ISBN:978-1-4503-7110-0. S2CID:210164673. Archived from the original on 2022-10-16. Retrieved 2024-10-11.
^ ^ا ^ب ^ج ^د Irving، Geoffrey؛ Askell، Amanda (19 فبراير 2019). "AI Safety Needs Social Scientists". Distill. ج. 4 ع. 2: 10.23915/distill.00014. DOI:10.23915/distill.00014. ISSN:2476-0757. S2CID:159180422. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-09-12.
^ Russell، Stuart؛ Norvig، Peter (2009). "26.3: The Ethics and Risks of Developing Artificial Intelligence". Artificial Intelligence: A Modern Approach. Prentice Hall. ISBN:978-0-13-604259-4.
^ Dietterich، Thomas؛ Horvitz، Eric (2015). "Rise of Concerns about AI: Reflections and Directions" (pdf). Communications of the ACM. ج. 58 ع. 10: 38–40. DOI:10.1145/2770869. S2CID:20395145. مؤرشف (PDF) من الأصل في 2016-03-04. اطلع عليه بتاريخ 2016-06-14.
^ Russell، Stuart (2014). "Of Myths and Moonshine". Edge. مؤرشف من الأصل في 2016-07-19. اطلع عليه بتاريخ 2016-06-14.
^ "DeepMind Has Simple Tests That Might Prevent Elon Musk's AI Apocalypse". Bloomberg.com. 11 ديسمبر 2017. مؤرشف من الأصل في 2018-01-08. اطلع عليه بتاريخ 2018-01-08.
^ "Alphabet's DeepMind Is Using Games to Discover If Artificial Intelligence Can Break Free and Kill Us All". Fortune (بالإنجليزية). Archived from the original on 2017-12-31. Retrieved 2018-01-08.
^ "Specifying AI safety problems in simple environments | DeepMind". DeepMind. مؤرشف من الأصل في 2018-01-02. اطلع عليه بتاريخ 2018-01-08.
^ ""Artificial Intelligence"". مؤرشف من الأصل في 2022-03-08.
^ Wolchover, Natalie (30 Jan 2020). "Artificial Intelligence Will Do What We Ask. That's a Problem". Quanta Magazine (بالإنجليزية). Archived from the original on 2022-06-01. Retrieved 2020-06-21.
^ Bull, Larry. "On model-based evolutionary computation." Soft Computing 3, no. 2 (1999): 76–82.
^ Wiener, Norbert (06 May 1960). "Some Moral and Technical Consequences of Automation: As machines learn they may develop unforeseen strategies at rates that baffle their programmers". Science (بالإنجليزية). 131 (3410): 1355–1358. DOI:10.1126/science.131.3410.1355. ISSN:0036-8075. PMID:17841602. S2CID:30855376. Archived from the original on 2022-10-15. Retrieved 2022-09-12.
^ ^ا ^ب ^ج Gabriel، Iason (01 سبتمبر 2020). "Artificial Intelligence, Values, and Alignment". Minds and Machines. ج. 30 ع. 3: 411–437. arXiv:2001.09768. DOI:10.1007/s11023-020-09539-2. ISSN:1572-8641. S2CID:210920551. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-11.
^
The Ezra Klein Show (04 يونيو 2021). "If 'All Models Are Wrong,' Why Do We Give Them So Much Power?". The New York Times. ISSN:0362-4331. مؤرشف من الأصل في 2023-02-15. اطلع عليه بتاريخ 2023-03-13.
- Wolchover، Natalie (21 أبريل 2015). "Concerns of an Artificial Intelligence Pioneer". Quanta Magazine. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2023-03-13.
- California Assembly. "Bill Text – ACR-215 23 Asilomar AI Principles". مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-07-18.
^ Johnson، Steven؛ Iziev، Nikita (15 أبريل 2022). "A.I. Is Mastering Language. Should We Trust What It Says?". The New York Times. ISSN:0362-4331. مؤرشف من الأصل في 2022-11-24. اطلع عليه بتاريخ 2022-07-18.
^
OpenAI. "Developing safe & responsible AI". OpenAI. مؤرشف من الأصل في 2023-04-26. اطلع عليه بتاريخ 2023-03-13.
- "DeepMind Safety Research". Medium. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2023-03-13.
^ ^ا ^ب ^ج ^د ^ه ^و Hendrycks، Dan؛ Carlini، Nicholas؛ Schulman، John؛ Steinhardt، Jacob (16 يونيو 2022). "Unsolved Problems in ML Safety". arXiv:2109.13916 [cs.LG]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^ Russell، Stuart J.؛ Norvig، Peter (2022). Artificial intelligence: a modern approach (ط. 4th). Pearson. ص. 4–5. ISBN:978-1-292-40113-3. OCLC:1303900751. مؤرشف من الأصل في 2024-10-13. اطلع عليه بتاريخ 2024-10-11.
^ ^ا ^ب ^ج ^د ^ه Krakovna، Victoria؛ Uesato، Jonathan؛ Mikulik، Vladimir؛ Rahtz، Matthew؛ Everitt، Tom؛ Kumar، Ramana؛ Kenton، Zac؛ Leike، Jan؛ Legg، Shane (21 أبريل 2020). "Specification gaming: the flip side of AI ingenuity". Deepmind. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-08-26.
^ Manheim، David؛ Garrabrant، Scott (2018). "Categorizing Variants of Goodhart's Law". arXiv:1803.04585 [cs.AI]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^ ^ا ^ب ^ج Amodei، Dario؛ Christiano، Paul؛ Ray، Alex (13 يونيو 2017). "Learning from Human Preferences". OpenAI. مؤرشف من الأصل في 2021-01-03. اطلع عليه بتاريخ 2022-07-21.
^ "Specification gaming examples in AI - master list - Google Drive". docs.google.com. مؤرشف من الأصل في 2022-06-30. اطلع عليه بتاريخ 2024-10-11.
^ Clark, Jack; Amodei, Dario (21 Dec 2016). "Faulty reward functions in the wild". openai.com (بالإنجليزية). Archived from the original on 2024-09-19. Retrieved 2023-12-30.
^ ^ا ^ب ^ج Lin, Stephanie; Hilton, Jacob; Evans, Owain (2022). "TruthfulQA: Measuring How Models Mimic Human Falsehoods". Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (بالإنجليزية). Dublin, Ireland: Association for Computational Linguistics: 3214–3252. arXiv:2109.07958. DOI:10.18653/v1/2022.acl-long.229. S2CID:237532606. Archived from the original on 2023-02-10. Retrieved 2022-09-12.
^ ^ا ^ب ^ج Naughton، John (02 أكتوبر 2021). "The truth about artificial intelligence? It isn't that honest". The Observer. ISSN:0029-7712. مؤرشف من الأصل في 2023-02-13. اطلع عليه بتاريخ 2022-07-23.
^
Ji، Ziwei؛ Lee، Nayeon؛ Frieske، Rita؛ Yu، Tiezheng؛ Su، Dan؛ Xu، Yan؛ Ishii، Etsuko؛ Bang، Yejin؛ Madotto، Andrea؛ Fung، Pascale (01 فبراير 2022). "Survey of Hallucination in Natural Language Generation". ACM Computing Surveys. ج. 55 ع. 12: 1–38. arXiv:2202.03629. DOI:10.1145/3571730. S2CID:246652372. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-10-14.
- Else, Holly (12 Jan 2023). "Abstracts written by ChatGPT fool scientists". Nature (بالإنجليزية). 613 (7944): 423. Bibcode:2023Natur.613..423E. DOI:10.1038/d41586-023-00056-7. PMID:36635510. S2CID:255773668. Archived from the original on 2023-10-25. Retrieved 2024-10-11.
^ Russell، Stuart. "Of Myths and Moonshine". Edge.org. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-07-19.
^ Tasioulas، John (2019). "First Steps Towards an Ethics of Robots and Artificial Intelligence". Journal of Practical Ethics. ج. 7 ع. 1: 61–95.
^ Wells، Georgia؛ Deepa Seetharaman؛ Horwitz، Jeff (05 نوفمبر 2021). "Is Facebook Bad for You? It Is for About 360 Million Users, Company Surveys Suggest". The Wall Street Journal. ISSN:0099-9660. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-07-19.
^ Barrett، Paul M.؛ Hendrix، Justin؛ Sims، J. Grant (سبتمبر 2021). How Social Media Intensifies U.S. Political Polarization-And What Can Be Done About It (Report). Center for Business and Human Rights, NYU. مؤرشف من الأصل في 2023-02-01. اطلع عليه بتاريخ 2022-09-12.
^ Shepardson، David (24 مايو 2018). "Uber disabled emergency braking in self-driving car: U.S. agency". Reuters. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-07-20.
^ "The messy, secretive reality behind OpenAI's bid to save the world". MIT Technology Review (بالإنجليزية). Archived from the original on 2023-11-21. Retrieved 2024-08-25.
^ Johnson, Dave. "DeepMind is Google's AI research hub. Here's what it does, where it's located, and how it differs from OpenAI". Business Insider (بالإنجليزية). Archived from the original on 2024-05-11. Retrieved 2024-08-25.
^ ^ا ^ب Wei، Jason؛ Tay، Yi؛ Bommasani، Rishi؛ Raffel، Colin؛ Zoph، Barret؛ Borgeaud، Sebastian؛ Yogatama، Dani؛ Bosma، Maarten؛ Zhou، Denny؛ Metzler، Donald؛ Chi، Ed H.؛ Hashimoto، Tatsunori؛ Vinyals، Oriol؛ Liang، Percy؛ Dean، Jeff؛ Fedus، William (26 أكتوبر 2022). "Emergent Abilities of Large Language Models". Transactions on Machine Learning Research. arXiv:2206.07682. ISSN:2835-8856.
^ ^ا ^ب Caballero, Ethan; Gupta, Kshitij; Rish, Irina; Krueger, David (2022). "Broken Neural Scaling Laws". International Conference on Learning Representations (ICLR), 2023.
^
Dominguez، Daniel (19 مايو 2022). "DeepMind Introduces Gato, a New Generalist AI Agent". InfoQ. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-09-09.
- Edwards، Ben (26 أبريل 2022). "Adept's AI assistant can browse, search, and use web apps like a human". Ars Technica. مؤرشف من الأصل في 2023-01-17. اطلع عليه بتاريخ 2022-09-09.
^ Grace، Katja؛ Salvatier، John؛ Dafoe، Allan؛ Zhang، Baobao؛ Evans، Owain (31 يوليو 2018). "Viewpoint: When Will AI Exceed Human Performance? Evidence from AI Experts". Journal of Artificial Intelligence Research. ج. 62: 729–754. DOI:10.1613/jair.1.11222. ISSN:1076-9757. S2CID:8746462. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-09-12.
^ Zhang، Baobao؛ Anderljung، Markus؛ Kahn، Lauren؛ Dreksler، Noemi؛ Horowitz، Michael C.؛ Dafoe، Allan (02 أغسطس 2021). "Ethics and Governance of Artificial Intelligence: Evidence from a Survey of Machine Learning Researchers". Journal of Artificial Intelligence Research. ج. 71. arXiv:2105.02117. DOI:10.1613/jair.1.12895. ISSN:1076-9757. S2CID:233740003. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-09-12.
^ Future of Life Institute (22 مارس 2023). "Pause Giant AI Experiments: An Open Letter". AI Magazine. مؤرشف من الأصل في 2024-10-05. اطلع عليه بتاريخ 2023-04-20.
^ Wang، Lei؛ Ma، Chen؛ Feng، Xueyang؛ Zhang، Zeyu؛ Yang، Hao؛ Zhang، Jingsen؛ Chen، Zhiyuan؛ Tang، Jiakai؛ Chen، Xu (2024)، "A survey on large language model based autonomous agents"، Frontiers of Computer Science، ج. 18، arXiv:2308.11432، DOI:10.1007/s11704-024-40231-1، مؤرشف من الأصل في 2024-04-18، اطلع عليه بتاريخ 2024-02-11
^ Berglund، Lukas؛ Stickland، Asa Cooper؛ Balesni، Mikita؛ Kaufmann، Max؛ Tong، Meg؛ Korbak، Tomasz؛ Kokotajlo، Daniel؛ Evans، Owain (01 سبتمبر 2023)، Taken out of context: On measuring situational awareness in LLMs، arXiv:2309.00667
^ Laine, Rudolf; Meinke, Alexander; Evans, Owain (28 Nov 2023). "Towards a Situational Awareness Benchmark for LLMs". NeurIPS 2023 SoLaR Workshop (بالإنجليزية). Retrieved 2024-10-11.
^ ^ا ^ب ^ج Pan, Alexander; Shern, Chan Jun; Zou, Andy; Li, Nathaniel; Basart, Steven; Woodside, Thomas; Ng, Jonathan; Zhang, Emmons; Scott, Dan; Hendrycks (03 Apr 2023). "Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards and Ethical Behavior in the MACHIAVELLI Benchmark". Proceedings of the 40th International Conference on Machine Learning (بالإنجليزية). PMLR. arXiv:2304.03279.
^ ^ا ^ب ^ج Perez، Ethan؛ Ringer، Sam؛ Lukošiūtė، Kamilė؛ Nguyen، Karina؛ Chen، Edwin؛ Heiner، Scott؛ Pettit، Craig؛ Olsson، Catherine؛ Kundu، Sandipan؛ Kadavath، Saurav؛ Jones، Andy؛ Chen، Anna؛ Mann، Ben؛ Israel، Brian؛ Seethor، Bryan (19 ديسمبر 2022). "Discovering Language Model Behaviors with Model-Written Evaluations". arXiv:2212.09251 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^ Orseau، Laurent؛ Armstrong، Stuart (25 يونيو 2016). "Safely interruptible agents". Proceedings of the Thirty-Second Conference on Uncertainty in Artificial Intelligence. UAI'16. Arlington, Virginia, USA: AUAI Press: 557–566. ISBN:978-0-9966431-1-5. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-11.
^ ^ا ^ب Leike، Jan؛ Martic، Miljan؛ Krakovna، Victoria؛ Ortega، Pedro A.؛ Everitt، Tom؛ Lefrancq، Andrew؛ Orseau، Laurent؛ Legg، Shane (28 نوفمبر 2017). "AI Safety Gridworlds". arXiv:1711.09883 [cs.LG]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^ ^ا ^ب ^ج ^د Hadfield-Menell، Dylan؛ Dragan، Anca؛ Abbeel، Pieter؛ Russell، Stuart (19 أغسطس 2017). "The off-switch game". Proceedings of the 26th International Joint Conference on Artificial Intelligence. IJCAI'17. Melbourne, Australia: AAAI Press: 220–227. ISBN:978-0-9992411-0-3. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-11.
^ ^ا ^ب ^ج Turner، Alexander Matt؛ Smith، Logan Riggs؛ Shah، Rohin؛ Critch، Andrew؛ Tadepalli، Prasad (2021). "Optimal policies tend to seek power". Advances in neural information processing systems. ICLR. مؤرشف من الأصل في 2024-08-23. اطلع عليه بتاريخ 2024-10-11.
^ Turner، Alexander Matt؛ Tadepalli، Prasad (2022). "Parametrically retargetable decision-makers tend to seek power". Advances in neural information processing systems. ICLR. مؤرشف من الأصل في 2023-12-01. اطلع عليه بتاريخ 2024-10-11.
^ ^ا ^ب ^ج ^د Bostrom، Nick (2014). Superintelligence: Paths, Dangers, Strategies (ط. 1st). USA: Oxford University Press, Inc. ISBN:978-0-19-967811-2.
^ "Stephen Hawking: 'Transcendence looks at the implications of artificial intelligence – but are we taking AI seriously enough?'". The Independent. ذي إندبندنت. مؤرشف من الأصل في 2015-09-25. اطلع عليه بتاريخ 2016-06-14.
^ "Stephen Hawking warns artificial intelligence could end mankind". BBC. بي بي سي. 2 ديسمبر 2014. مؤرشف من الأصل في 2015-10-30. اطلع عليه بتاريخ 2016-06-14.
^ "Anticipating artificial intelligence". Nature. ج. 532 ع. 7600: 413. 26 أبريل 2016. Bibcode:2016Natur.532Q.413.. DOI:10.1038/532413a. PMID:27121801. مؤرشف من الأصل في 2023-09-08. اطلع عليه بتاريخ 2024-10-16.
^ ^ا ^ب "Statement on AI Risk | CAIS". www.safe.ai. مؤرشف من الأصل في 2023-05-31. اطلع عليه بتاريخ 2023-07-17.
^ Roose, Kevin (30 May 2023). "A.I. Poses 'Risk of Extinction,' Industry Leaders Warn". The New York Times (بالإنجليزية). ISSN:0362-4331. Retrieved 2023-07-17.
^ Muehlhauser، Luke (29 يناير 2016). "Sutskever on Talking Machines". Luke Muehlhauser. مؤرشف من الأصل في 2022-09-27. اطلع عليه بتاريخ 2022-08-26.
^ Shanahan، Murray (2015). The technological singularity. Cambridge, Massachusetts: MIT Press. ISBN:978-0-262-52780-4. OCLC:917889148. مؤرشف من الأصل في 2024-10-13. اطلع عليه بتاريخ 2024-10-11.
^ Wiener, Norbert (06 May 1960). "Some Moral and Technical Consequences of Automation: As machines learn they may develop unforeseen strategies at rates that baffle their programmers". Science (بالإنجليزية). 131 (3410): 1355–1358. DOI:10.1126/science.131.3410.1355. ISSN:0036-8075. PMID:17841602. S2CID:30855376. Archived from the original on 2022-10-15. Retrieved 2022-09-12.
^ Rossi، Francesca. "How do you teach a machine to be moral?". The Washington Post. ISSN:0190-8286. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-09-12.
^ Aaronson، Scott (17 يونيو 2022). "OpenAI!". Shtetl-Optimized. مؤرشف من الأصل في 2022-08-27. اطلع عليه بتاريخ 2022-09-12.
^ Selman، Bart، "Intelligence Explosion: Science or Fiction?" (pdf)، AI Magazine، مؤرشف (PDF) من الأصل في 2022-05-31، اطلع عليه بتاريخ 2022-09-12
^ McAllester (10 أغسطس 2014). "Friendly AI and the Servant Mission". Machine Thoughts. مؤرشف من الأصل في 2022-09-28. اطلع عليه بتاريخ 2022-09-12.
^ Schmidhuber، Jürgen (06 مارس 2015). "I am Jürgen Schmidhuber, AMA!" (Reddit Comment). r/MachineLearning. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-07-23.
^ ^ا ^ب ^ج ^د ^ه Everitt، Tom؛ Lea، Gary؛ Hutter، Marcus (21 مايو 2018). "AGI Safety Literature Review". arXiv:1805.01109 [cs.AI]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^ Shane (31 أغسطس 2009). "Funding safe AGI". vetta project. مؤرشف من الأصل في 2022-10-10. اطلع عليه بتاريخ 2022-09-12.
^ Horvitz، Eric (27 يونيو 2016). "Reflections on Safety and Artificial Intelligence" (pdf). Eric Horvitz. مؤرشف (PDF) من الأصل في 2022-10-10. اطلع عليه بتاريخ 2020-04-20.
^ Chollet، François (08 ديسمبر 2018). "The implausibility of intelligence explosion". Medium. مؤرشف من الأصل في 2021-03-22. اطلع عليه بتاريخ 2022-08-26.
^ Marcus، Gary (06 يونيو 2022). "Artificial General Intelligence Is Not as Imminent as You Might Think". Scientific American. مؤرشف من الأصل في 2022-09-15. اطلع عليه بتاريخ 2022-08-26.
^ Barber، Lynsey (31 يوليو 2016). "Phew! Facebook's AI chief says intelligent machines are not a threat to humanity". CityAM. مؤرشف من الأصل في 2022-08-26. اطلع عليه بتاريخ 2022-08-26.
^ Etzioni, Oren (20 Sep 2016). "No, the Experts Don't Think Superintelligent AI is a Threat to Humanity". MIT Technology Review (بالإنجليزية). Archived from the original on 2020-12-08. Retrieved 2024-06-10.
^ Gabriel، Iason (01 سبتمبر 2020). "Artificial Intelligence, Values, and Alignment". Minds and Machines. ج. 30 ع. 3: 411–437. arXiv:2001.09768. DOI:10.1007/s11023-020-09539-2. ISSN:1572-8641. S2CID:210920551. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-11.
^ Rochon, Louis-Philippe; Rossi, Sergio (27 Feb 2015). The Encyclopedia of Central Banking (بالإنجليزية). Edward Elgar Publishing. ISBN:978-1-78254-744-0. Archived from the original on 2023-02-10. Retrieved 2022-09-13.
^ Ng، Andrew Y.؛ Russell، Stuart J. (29 يونيو 2000). "Algorithms for Inverse Reinforcement Learning". Proceedings of the Seventeenth International Conference on Machine Learning. ICML '00. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc.: 663–670. ISBN:978-1-55860-707-1. مؤرشف من الأصل في 2023-06-01. اطلع عليه بتاريخ 2024-10-11.
^ Hadfield-Menell، Dylan؛ Russell، Stuart J؛ Abbeel، Pieter؛ Dragan، Anca (2016). "Cooperative inverse reinforcement learning". Advances in neural information processing systems. Curran Associates, Inc. ج. 29.
^ Mindermann، Soren؛ Armstrong، Stuart (2018). "Occam's razor is insufficient to infer the preferences of irrational agents". Proceedings of the 32nd international conference on neural information processing systems. NIPS'18. Red Hook, NY, USA: Curran Associates Inc. ص. 5603–5614.
^ Fürnkranz, Johannes; Hüllermeier, Eyke; Rudin, Cynthia; Slowinski, Roman; Sanner, Scott (2014). "Preference Learning". Dagstuhl Reports (بالإنجليزية). Marc Herbstritt. 4 (3): 27 pages. DOI:10.4230/DAGREP.4.3.1. Archived from the original on 2023-02-10. Retrieved 2022-09-12.
^ Gao، Leo؛ Schulman، John؛ Hilton، Jacob (19 أكتوبر 2022). "Scaling Laws for Reward Model Overoptimization". arXiv:2210.10760 [cs.LG]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^ Anderson، Martin (05 أبريل 2022). "The Perils of Using Quotations to Authenticate NLG Content". Unite.AI. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-07-21.
^ ^ا ^ب Wiggers، Kyle (05 فبراير 2022). "Despite recent progress, AI-powered chatbots still have a long way to go". VentureBeat. مؤرشف من الأصل في 2022-07-23. اطلع عليه بتاريخ 2022-07-23.
^ Hendrycks، Dan؛ Burns، Collin؛ Basart، Steven؛ Critch، Andrew؛ Li، Jerry؛ Song، Dawn؛ Steinhardt، Jacob (24 يوليو 2021). "Aligning AI With Shared Human Values". International Conference on Learning Representations. arXiv:2008.02275.
^
Perez، Ethan؛ Huang، Saffron؛ Song، Francis؛ Cai، Trevor؛ Ring، Roman؛ Aslanides، John؛ Glaese، Amelia؛ McAleese، Nat؛ Irving، Geoffrey (07 فبراير 2022). "Red Teaming Language Models with Language Models". arXiv:2202.03286 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
- Bhattacharyya، Sreejani (14 فبراير 2022). "DeepMind's "red teaming" language models with language models: What is it?". Analytics India Magazine. مؤرشف من الأصل في 2023-02-13. اطلع عليه بتاريخ 2022-07-23.
^ Anderson، Michael؛ Anderson، Susan Leigh (15 ديسمبر 2007). "Machine Ethics: Creating an Ethical Intelligent Agent". AI Magazine. ج. 28 ع. 4: 15. DOI:10.1609/aimag.v28i4.2065. ISSN:2371-9621. S2CID:17033332. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2023-03-14.
^ Wiegel، Vincent (01 ديسمبر 2010). "Wendell Wallach and Colin Allen: moral machines: teaching robots right from wrong". Ethics and Information Technology. ج. 12 ع. 4: 359–361. DOI:10.1007/s10676-010-9239-1. ISSN:1572-8439. S2CID:30532107. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-11.
^ Wallach، Wendell؛ Allen، Colin (2009). Moral Machines: Teaching Robots Right from Wrong. New York: Oxford University Press. ISBN:978-0-19-537404-9. مؤرشف من الأصل في 2023-03-15. اطلع عليه بتاريخ 2022-07-23.
^ ^ا ^ب Phelps، Steve؛ Ranson، Rebecca (2023). "Of Models and Tin-Men - A Behavioral Economics Study of Principal-Agent Problems in AI Alignment Using Large-Language Models". arXiv:2307.11137 [cs.AI]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^ MacAskill، William (2022). What we owe the future. New York, NY: Basic Books, Hachette Book Group. ISBN:978-1-5416-1862-6. OCLC:1314633519. مؤرشف من الأصل في 2022-09-14. اطلع عليه بتاريخ 2024-09-11.
^ ^ا ^ب Wu، Jeff؛ Ouyang، Long؛ Ziegler، Daniel M.؛ Stiennon، Nisan؛ Lowe، Ryan؛ Leike، Jan؛ Christiano، Paul (27 سبتمبر 2021). "Recursively Summarizing Books with Human Feedback". arXiv:2109.10862 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^ Pearce، Hammond؛ Ahmad، Baleegh؛ Tan، Benjamin؛ Dolan-Gavitt، Brendan؛ Karri، Ramesh (2022). "Asleep at the Keyboard? Assessing the Security of GitHub Copilot's Code Contributions". 2022 IEEE Symposium on Security and Privacy (SP). San Francisco, CA, USA: IEEE. ص. 754–768. arXiv:2108.09293. DOI:10.1109/SP46214.2022.9833571. ISBN:978-1-6654-1316-9. S2CID:245220588. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-11.
^ Irving، Geoffrey؛ Amodei، Dario (03 مايو 2018). "AI Safety via Debate". OpenAI. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-07-23.
^ ^ا ^ب Christiano، Paul؛ Shlegeris، Buck؛ Amodei، Dario (19 أكتوبر 2018). "Supervising strong learners by amplifying weak experts". arXiv:1810.08575 [cs.LG]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^ Banzhaf، Wolfgang؛ Goodman، Erik؛ Sheneman، Leigh؛ Trujillo، Leonardo؛ Worzel، Bill، المحررون (2020). Genetic Programming Theory and Practice XVII. Genetic and Evolutionary Computation. Cham: Springer International Publishing. DOI:10.1007/978-3-030-39958-0. ISBN:978-3-030-39957-3. S2CID:218531292. مؤرشف من الأصل في 2023-03-15. اطلع عليه بتاريخ 2022-07-23.
^ Wiblin، Robert (2 أكتوبر 2018). "Dr Paul Christiano on how OpenAI is developing real solutions to the 'AI alignment problem', and his vision of how humanity will progressively hand over decision-making to AI systems". 80,000 Hours (Podcast). 80,000 hours. ع. 44. مؤرشف من الأصل في 2022-12-14. اطلع عليه بتاريخ 2022-07-23.
^ Lehman, Joel; Clune, Jeff; Misevic, Dusan; Adami, Christoph; Altenberg, Lee; Beaulieu, Julie; Bentley, Peter J.; Bernard, Samuel; Beslon, Guillaume; Bryson, David M.; Cheney, Nick (2020). "The Surprising Creativity of Digital Evolution: A Collection of Anecdotes from the Evolutionary Computation and Artificial Life Research Communities". Artificial Life (بالإنجليزية). 26 (2): 274–306. DOI:10.1162/artl_a_00319. hdl:10044/1/83343. ISSN:1064-5462. PMID:32271631. S2CID:4519185. Archived from the original on 2022-10-10. Retrieved 2022-09-12.
^ ^ا ^ب Leike، Jan؛ Krueger، David؛ Everitt، Tom؛ Martic، Miljan؛ Maini، Vishal؛ Legg، Shane (19 نوفمبر 2018). "Scalable agent alignment via reward modeling: a research direction". arXiv:1811.07871 [cs.LG]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^ ^ا ^ب Leike، Jan؛ Schulman، John؛ Wu، Jeffrey (24 أغسطس 2022). "Our approach to alignment research". OpenAI. مؤرشف من الأصل في 2023-02-15. اطلع عليه بتاريخ 2022-09-09.
^ Wiggers، Kyle (23 سبتمبر 2021). "OpenAI unveils model that can summarize books of any length". VentureBeat. مؤرشف من الأصل في 2022-07-23. اطلع عليه بتاريخ 2022-07-23.
^
Saunders، William؛ Yeh، Catherine؛ Wu، Jeff؛ Bills، Steven؛ Ouyang، Long؛ Ward، Jonathan؛ Leike، Jan (13 يونيو 2022). "Self-critiquing models for assisting human evaluators". arXiv:2206.05802 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
- Bai، Yuntao؛ Kadavath، Saurav؛ Kundu، Sandipan؛ Askell، Amanda؛ Kernion، Jackson؛ Jones، Andy؛ Chen، Anna؛ Goldie، Anna؛ Mirhoseini، Azalia؛ McKinnon، Cameron؛ Chen، Carol؛ Olsson، Catherine؛ Olah، Christopher؛ Hernandez، Danny؛ Drain، Dawn (15 ديسمبر 2022). "Constitutional AI: Harmlessness from AI Feedback". arXiv:2212.08073 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^ "Introducing Superalignment". openai.com (بالإنجليزية). Archived from the original on 2023-11-20. Retrieved 2023-07-17.
^ ^ا ^ب ^ج Wiggers، Kyle (20 سبتمبر 2021). "Falsehoods more likely with large language models". VentureBeat. مؤرشف من الأصل في 2022-08-04. اطلع عليه بتاريخ 2022-07-23.
^
The Guardian (08 سبتمبر 2020). "A robot wrote this entire article. Are you scared yet, human?". The Guardian. ISSN:0261-3077. مؤرشف من الأصل في 2020-09-08. اطلع عليه بتاريخ 2022-07-23.
- Heaven، Will Douglas (20 يوليو 2020). "OpenAI's new language generator GPT-3 is shockingly good—and completely mindless". MIT Technology Review. مؤرشف من الأصل في 2020-07-25. اطلع عليه بتاريخ 2022-07-23.
^ ^ا ^ب Evans، Owain؛ Cotton-Barratt، Owen؛ Finnveden، Lukas؛ Bales، Adam؛ Balwit، Avital؛ Wills، Peter؛ Righetti، Luca؛ Saunders، William (13 أكتوبر 2021). "Truthful AI: Developing and governing AI that does not lie". arXiv:2110.06674 [cs.CY]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^
Alford، Anthony (13 يوليو 2021). "EleutherAI Open-Sources Six Billion Parameter GPT-3 Clone GPT-J". InfoQ. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-07-23.
- Rae، Jack W.؛ Borgeaud، Sebastian؛ Cai، Trevor؛ Millican، Katie؛ Hoffmann، Jordan؛ Song، Francis؛ Aslanides، John؛ Henderson، Sarah؛ Ring، Roman؛ Young، Susannah؛ Rutherford، Eliza؛ Hennigan، Tom؛ Menick، Jacob؛ Cassirer، Albin؛ Powell، Richard (21 يناير 2022). "Scaling Language Models: Methods, Analysis & Insights from Training Gopher". arXiv:2112.11446 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^ Johnson، Steven؛ Iziev، Nikita (15 أبريل 2022). "A.I. Is Mastering Language. Should We Trust What It Says?". The New York Times. ISSN:0362-4331. مؤرشف من الأصل في 2022-11-24. اطلع عليه بتاريخ 2022-07-18.
^
Nakano، Reiichiro؛ Hilton، Jacob؛ Balaji، Suchir؛ Wu، Jeff؛ Ouyang، Long؛ Kim، Christina؛ Hesse، Christopher؛ Jain، Shantanu؛ Kosaraju، Vineet؛ Saunders، William؛ Jiang، Xu؛ Cobbe، Karl؛ Eloundou، Tyna؛ Krueger، Gretchen؛ Button، Kevin (01 يونيو 2022). "WebGPT: Browser-assisted question-answering with human feedback". arXiv:2112.09332 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
- Kumar، Nitish (23 ديسمبر 2021). "OpenAI Researchers Find Ways To More Accurately Answer Open-Ended Questions Using A Text-Based Web Browser". MarkTechPost. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-07-23.
- Menick، Jacob؛ Trebacz، Maja؛ Mikulik، Vladimir؛ Aslanides، John؛ Song، Francis؛ Chadwick، Martin؛ Glaese، Mia؛ Young، Susannah؛ Campbell-Gillingham، Lucy؛ Irving، Geoffrey؛ McAleese، Nat (21 مارس 2022). "Teaching language models to support answers with verified quotes". DeepMind. arXiv:2203.11147. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-09-12.
^ Askell، Amanda؛ Bai، Yuntao؛ Chen، Anna؛ Drain، Dawn؛ Ganguli، Deep؛ Henighan، Tom؛ Jones، Andy؛ Joseph، Nicholas؛ Mann، Ben؛ DasSarma، Nova؛ Elhage، Nelson؛ Hatfield-Dodds، Zac؛ Hernandez، Danny؛ Kernion، Jackson؛ Ndousse، Kamal (09 ديسمبر 2021). "A General Language Assistant as a Laboratory for Alignment". arXiv:2112.00861 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^ Cox، Joseph (15 مارس 2023). "GPT-4 Hired Unwitting TaskRabbit Worker By Pretending to Be 'Vision-Impaired' Human". Vice. مؤرشف من الأصل في 2023-03-16. اطلع عليه بتاريخ 2023-04-10.
^ Scheurer، Jérémy؛ Balesni، Mikita؛ Hobbhahn، Marius (2023). "Technical Report: Large Language Models can Strategically Deceive their Users when Put Under Pressure". arXiv:2311.07590 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^ Kenton، Zachary؛ Everitt، Tom؛ Weidinger، Laura؛ Gabriel، Iason؛ Mikulik، Vladimir؛ Irving، Geoffrey (30 مارس 2021). "Alignment of Language Agents". DeepMind Safety Research – Medium. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-07-23.
^ Park، Peter S.؛ Goldstein، Simon؛ O’Gara، Aidan؛ Chen، Michael؛ Hendrycks، Dan (مايو 2024). "AI deception: A survey of examples, risks, and potential solutions". Patterns. ج. 5 ع. 5: 100988. DOI:10.1016/j.patter.2024.100988. ISSN:2666-3899. PMC:11117051. PMID:38800366. مؤرشف من الأصل في 2024-08-06. اطلع عليه بتاريخ 2024-10-11.
^ McCarthy, John; Minsky, Marvin L.; Rochester, Nathaniel; Shannon, Claude E. (15 Dec 2006). "A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence, August 31, 1955". AI Magazine (بالإنجليزية). 27 (4): 12. DOI:10.1609/aimag.v27i4.1904. ISSN:2371-9621. S2CID:19439915. Archived from the original on 2024-10-12. Retrieved 2024-10-11.
^ Wang، Lei؛ Ma، Chen؛ Feng، Xueyang؛ Zhang، Zeyu؛ Yang، Hao؛ Zhang، Jingsen؛ Chen، Zhiyuan؛ Tang، Jiakai؛ Chen، Xu (2024)، "A survey on large language model based autonomous agents"، Frontiers of Computer Science، ج. 18، arXiv:2308.11432، DOI:10.1007/s11704-024-40231-1، مؤرشف من الأصل في 2024-10-12، اطلع عليه بتاريخ 2024-10-11
^
"'The Godfather of A.I.' warns of 'nightmare scenario' where artificial intelligence begins to seek power". Fortune (بالإنجليزية). Archived from the original on 2023-05-02. Retrieved 2023-05-04.
- "Yes, We Are Worried About the Existential Risk of Artificial Intelligence". MIT Technology Review (بالإنجليزية). Archived from the original on 2022-11-28. Retrieved 2023-05-04.
^ Ornes، Stephen (18 نوفمبر 2019). "Playing Hide-and-Seek, Machines Invent New Tools". Quanta Magazine. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-08-26.
^ Baker، Bowen؛ Kanitscheider، Ingmar؛ Markov، Todor؛ Wu، Yi؛ Powell، Glenn؛ McGrew، Bob؛ Mordatch، Igor (17 سبتمبر 2019). "Emergent Tool Use from Multi-Agent Interaction". OpenAI. مؤرشف من الأصل في 2022-09-25. اطلع عليه بتاريخ 2022-08-26.
^ Lu، Chris؛ Lu، Cong؛ Lange، Robert Tjarko؛ Foerster، Jakob؛ Clune، Jeff؛ Ha، David (15 أغسطس 2024)، The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery، arXiv:2408.06292، In some cases, when The AI Scientist's experiments exceeded our imposed time limits, it attempted to edit the code to extend the time limit arbitrarily
^ Edwards, Benj (14 Aug 2024). "Research AI model unexpectedly modified its own code to extend runtime". Ars Technica (بالإنجليزية). Archived from the original on 2024-08-24. Retrieved 2024-08-19.
^ Shermer، Michael (01 مارس 2017). "Artificial Intelligence Is Not a Threat—Yet". Scientific American. مؤرشف من الأصل في 2017-12-01. اطلع عليه بتاريخ 2022-08-26.
^ ^ا ^ب ^ج Shah، Rohin؛ Varma، Vikrant؛ Kumar، Ramana؛ Phuong، Mary؛ Krakovna، Victoria؛ Uesato، Jonathan؛ Kenton، Zac (02 نوفمبر 2022). "Goal Misgeneralization: Why Correct Specifications Aren't Enough For Correct Goals". Medium. arXiv:2210.01790. مؤرشف من الأصل في 2024-10-07. اطلع عليه بتاريخ 2023-04-02.
^ ^ا ^ب Hubinger، Evan؛ van Merwijk، Chris؛ Mikulik، Vladimir؛ Skalse، Joar؛ Garrabrant، Scott (01 ديسمبر 2021). "Risks from Learned Optimization in Advanced Machine Learning Systems". arXiv:1906.01820 [cs.AI]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^ Zhang, Xiaoge; Chan, Felix T.S.; Yan, Chao; Bose, Indranil (2022). "Towards risk-aware artificial intelligence and machine learning systems: An overview". Decision Support Systems (بالإنجليزية). 159: 113800. DOI:10.1016/j.dss.2022.113800. S2CID:248585546. Archived from the original on 2024-10-12. Retrieved 2024-10-11.
^ Demski، Abram؛ Garrabrant، Scott (6 أكتوبر 2020). "Embedded Agency". arXiv:1902.09469 [cs.AI]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^ ^ا ^ب Everitt، Tom؛ Ortega، Pedro A.؛ Barnes، Elizabeth؛ Legg، Shane (6 سبتمبر 2019). "Understanding Agent Incentives using Causal Influence Diagrams. Part I: Single Action Settings". arXiv:1902.09980 [cs.AI]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^ Cohen, Michael K.; Hutter, Marcus; Osborne, Michael A. (29 Aug 2022). "Advanced artificial agents intervene in the provision of reward". AI Magazine (بالإنجليزية). 43 (3): 282–293. DOI:10.1002/aaai.12064. ISSN:0738-4602. S2CID:235489158. Archived from the original on 2023-02-10. Retrieved 2022-09-06.
^ Hadfield-Menell، Dylan؛ Hadfield، Gillian K (2019). "Incomplete contracting and AI alignment". Proceedings of the 2019 AAAI/ACM Conference on AI, Ethics, and Society. ص. 417–422.
^ Hanson، Robin (10 أبريل 2019). "Agency Failure or AI Apocalypse?". Overcoming Bias. مؤرشف من الأصل في 2024-10-13. اطلع عليه بتاريخ 2023-09-20.
^ "UN Secretary-General's report on "Our Common Agenda"". UN News Centre. 2021. ص. 63. مؤرشف من الأصل في 2023-02-16. اطلع عليه بتاريخ 2024-10-11. [T]he Compact could also promote regulation of artificial intelligence to ensure that this is aligned with shared global values
^ The National New Generation Artificial Intelligence Governance Specialist Committee (12 أكتوبر 2021) [2021-09-25]. "Ethical Norms for New Generation Artificial Intelligence Released". مركز الأمن والتكنولوجيا الناشئة. ترجمة: مركز الأمن والتكنولوجيا الناشئة. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2024-10-11.
^ Richardson، Tim (22 سبتمبر 2021). "UK publishes National Artificial Intelligence Strategy". The Register. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2021-11-14.
^ "The National AI Strategy of the UK". GOV.UK. 2021. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2024-10-11. The government takes the long term risk of non-aligned Artificial General Intelligence, and the unforeseeable changes that it would mean for the UK and the world, seriously.
^ "The National AI Strategy of the UK". GOV.UK. 2021. actions 9 and 10 of the section "Pillar 3 – Governing AI Effectively". مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2024-10-11.
^ NSCAI Final Report (pdf). Washington, DC: The National Security Commission on Artificial Intelligence. 2021. مؤرشف (PDF) من الأصل في 2023-02-15. اطلع عليه بتاريخ 2022-10-17.
^ Robert Lee Poe (2023). "Why Fair Automated Hiring Systems Breach EU Non-Discrimination Law". arXiv:2311.03900 [cs.CY]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^ De Vos، Marc (2020). "The European Court of Justice and the march towards substantive equality in European Union anti-discrimination law". International Journal of Discrimination and the Law. ج. 20: 62–87. DOI:10.1177/1358229120927947. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-11.
^ Irving، Geoffrey؛ Askell، Amanda (9 يونيو 2016). "Chern number in Ising models with spatially modulated real and complex fields". Physical Review A. ج. 94 ع. 5: 052113. arXiv:1606.03535. Bibcode:2016PhRvA..94e2113L. DOI:10.1103/PhysRevA.94.052113. S2CID:118699363. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-11.
^ Mitelut، Catalin؛ Smith، Ben؛ Vamplew، Peter (30 مايو 2023)، Intent-aligned AI systems deplete human agency: the need for agency foundations research in AI safety، arXiv:2305.19223
^ Gabriel، Iason (1 سبتمبر 2020). "Artificial Intelligence, Values, and Alignment". Minds and Machines. ج. 30 ع. 3: 411–437. arXiv:2001.09768. DOI:10.1007/s11023-020-09539-2. S2CID:210920551. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-11.
^ Russell، Stuart J. (2019). Human Compatible: Artificial Intelligence and the Problem of Control. Penguin Random House. مؤرشف من الأصل في 2024-10-13. اطلع عليه بتاريخ 2024-10-11.
^ Dafoe، Allan (2019). "AI policy: A roadmap". Nature. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-11.

[superintelligence-1] Bostrom، Nick (2014). Superintelligence: Paths, Dangers, Strategies (ط. First). ISBN:978-0199678112.

[2] Yampolskiy، Roman (2012). "Leakproofing the Singularity Artificial Intelligence Confinement Problem". Journal of Consciousness Studies. ج. 19 ع. 1–2: 194–214.

[bbc-google-3] "Google developing kill switch for AI". BBC News. 8 يونيو 2016. مؤرشف من الأصل في 2016-06-11. اطلع عليه بتاريخ 2016-06-12.

[aima4-4] ا ^ب ^ج ^د ^ه ^و Russell، Stuart J.؛ Norvig، Peter (2021). Artificial intelligence: A modern approach (ط. 4th). Pearson. ص. 5, 1003. ISBN:9780134610993. مؤرشف من الأصل في 2024-10-13. اطلع عليه بتاريخ 2022-09-12.

[dlp2023-5] ا ^ب ^ج ^د ^ه Ngo، Richard؛ Chan، Lawrence؛ Mindermann، Sören (2022). "The Alignment Problem from a Deep Learning Perspective". International Conference on Learning Representations. arXiv:2209.00626.

[mmmm2022-6] ا ^ب ^ج ^د ^ه Pan، Alexander؛ Bhatia، Kush؛ Steinhardt، Jacob (14 فبراير 2022). "The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models". International Conference on Learning Representations. ICLR. مؤرشف من الأصل في 2024-09-10. اطلع عليه بتاريخ 2022-07-21.

[7] Zhuang، Simon؛ Hadfield-Menell، Dylan (2020). "Consequences of Misaligned AI". Advances in Neural Information Processing Systems. Advances in Neural Information Processing Systems. Curran Associates, Inc. ج. 33. ص. 15763–15773. مؤرشف من الأصل في 2024-09-08. اطلع عليه بتاريخ 2023-03-11.

[Carlsmith2022-8] ا ^ب ^ج ^د ^ه ^و ^ز ^ح ^ط ^ي ^يا ^يب Carlsmith، Joseph (16 يونيو 2022). "Is Power-Seeking AI an Existential Risk?". arXiv:2206.13353 [cs.CY]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)

[:2102-9] ا ^ب ^ج ^د ^ه ^و ^ز ^ح ^ط ^ي ^يا ^يب ^يج ^يد Russell، Stuart J. (2020). Human compatible: Artificial intelligence and the problem of control. Penguin Random House. ISBN:9780525558637. OCLC:1113410915. مؤرشف من الأصل في 2024-10-13. اطلع عليه بتاريخ 2024-10-11.

[Christian2020-10] ا ^ب ^ج ^د ^ه ^و Christian، Brian (2020). The alignment problem: Machine learning and human values. W. W. Norton & Company. ISBN:978-0-393-86833-3. OCLC:1233266753. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-09-12.

[gmdrl-11] ا ^ب ^ج ^د Langosco، Lauro Langosco Di؛ Koch، Jack؛ Sharkey، Lee D.؛ Pfau، Jacob؛ Krueger، David (28 يونيو 2022). "Goal Misgeneralization in Deep Reinforcement Learning". Proceedings of the 39th International Conference on Machine Learning. Proceedings of the 39th International Conference on Machine Learning. PMLR. ص. 12004–12019. مؤرشف من الأصل في 2023-12-05. اطلع عليه بتاريخ 2023-03-11. {{استشهاد بمنشورات مؤتمر}}: الوسيط |عنوان المؤتمر= و|عنوان الكتاب= تكرر أكثر من مرة (مساعدة)

[OpenAICodex-12] ا ^ب Zaremba، Wojciech؛ Brockman، Greg؛ OpenAI (10 أغسطس 2021). "OpenAI Codex". OpenAI. مؤرشف من الأصل في 2023-02-03. اطلع عليه بتاريخ 2022-07-23.

[feedback2022-13] ا ^ب ^ج Ouyang، Long؛ Wu، Jeff؛ Jiang، Xu؛ Almeida، Diogo؛ Wainwright، Carroll L.؛ Mishkin، Pamela؛ Zhang، Chong؛ Agarwal، Sandhini؛ Slama، Katarina؛ Ray، Alex؛ Schulman، J.؛ Hilton، Jacob؛ Kelton، Fraser؛ Miller، Luke E.؛ Simens، Maddie؛ Askell، Amanda؛ Welinder، P.؛ Christiano، P.؛ Leike، J.؛ Lowe، Ryan J. (2022). "Training language models to follow instructions with human feedback". arXiv:2203.02155 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)

[Opportunities_Risks-14] ا ^ب ^ج ^د ^ه ^و ^ز ^ح ^ط ^ي Bommasani، Rishi؛ Hudson، Drew A.؛ Adeli، Ehsan؛ Altman، Russ؛ Arora، Simran؛ von Arx، Sydney؛ Bernstein، Michael S.؛ Bohg، Jeannette؛ Bosselut، Antoine؛ Brunskill، Emma؛ Brynjolfsson، Erik (12 يوليو 2022). "On the Opportunities and Risks of Foundation Models". Stanford CRFM. arXiv:2108.07258. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-11.

[15] Kober, Jens; Bagnell, J. Andrew; Peters, Jan (01 Sep 2013). "Reinforcement learning in robotics: A survey". The International Journal of Robotics Research (بالإنجليزية). 32 (11): 1238–1274. DOI:10.1177/0278364913495721. ISSN:0278-3649. S2CID:1932843. Archived from the original on 2022-10-15. Retrieved 2022-09-12.

[16] Knox, W. Bradley; Allievi, Alessandro; Banzhaf, Holger; Schmitt, Felix; Stone, Peter (01 Mar 2023). "Reward (Mis)design for autonomous driving". Artificial Intelligence (بالإنجليزية). 316: 103829. arXiv:2104.13906. DOI:10.1016/j.artint.2022.103829. ISSN:0004-3702. S2CID:233423198. Retrieved 2024-10-11.

[17] Stray, Jonathan (2020). "Aligning AI Optimization to Community Well-Being". International Journal of Community Well-Being (بالإنجليزية). 3 (4): 443–463. DOI:10.1007/s42413-020-00086-3. ISSN:2524-5295. PMC:7610010. PMID:34723107. S2CID:226254676. Retrieved 2024-10-11.

[AIMA-18] ا ^ب Russell، Stuart؛ Norvig، Peter (2009). Artificial Intelligence: A Modern Approach. Prentice Hall. ص. 1003. ISBN:978-0-13-461099-3. مؤرشف من الأصل في 2023-10-03. اطلع عليه بتاريخ 2024-10-11.

[19] Bengio، Yoshua؛ Hinton، Geoffrey؛ Yao، Andrew؛ Song، Dawn؛ Abbeel، Pieter؛ Harari، Yuval Noah؛ Zhang، Ya-Qin؛ Xue، Lan؛ Shalev-Shwartz، Shai (2024)، "Managing extreme AI risks amid rapid progress"، Science، ج. 384، ص. 842–845، arXiv:2310.17688، Bibcode:2024Sci...384..842B، DOI:10.1126/science.adn0117، PMID:38768279، مؤرشف من الأصل في 2024-06-14، اطلع عليه بتاريخ 2024-10-11

[20] "Statement on AI Risk | CAIS". www.safe.ai (بالإنجليزية). Archived from the original on 2023-05-31. Retrieved 2024-02-11.

[مولد_تلقائيا1-21] ا ^ب Grace، Katja؛ Stewart، Harlan؛ Sandkühler، Julia Fabienne؛ Thomas، Stephen؛ Weinstein-Raun، Ben؛ Brauner، Jan (05 يناير 2024)، Thousands of AI Authors on the Future of AI، arXiv:2401.02843

[:2-22] ا ^ب Smith, Craig S. "Geoff Hinton, AI's Most Famous Researcher, Warns Of 'Existential Threat'". Forbes (بالإنجليزية). Archived from the original on 2023-10-16. Retrieved 2023-05-04.

[23] Perrigo, Billy (13 Feb 2024). "Meta's AI Chief Yann LeCun on AGI, Open-Source, and AI Risk". TIME (بالإنجليزية). Archived from the original on 2024-02-13. Retrieved 2024-06-26.

[concrete2016-24] ا ^ب ^ج ^د ^ه ^و ^ز ^ح ^ط ^ي ^يا Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John; Mané, Dan (21 Jun 2016). "Concrete Problems in AI Safety" (بالإنجليزية). arXiv:1606.06565 [cs.AI]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (help)

[building2018-25] ا ^ب ^ج ^د Ortega، Pedro A.؛ Maini، Vishal؛ DeepMind safety team (27 سبتمبر 2018). "Building safe artificial intelligence: specification, robustness, and assurance". DeepMind Safety Research – Medium. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-07-18.

[26] Doshi-Velez، Finale؛ Kim، Been (02 مارس 2017). "Towards A Rigorous Science of Interpretable Machine Learning". arXiv:1702.08608 [stat.ML]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
Wiblin، Robert (4 أغسطس 2021). "Chris Olah on what the hell is going on inside neural networks". 80,000 Hours (Podcast). 80,000 hours. ع. 107. مؤرشف من الأصل في 2024-10-11. اطلع عليه بتاريخ 2022-07-23.

[27] Wiblin، Robert (4 أغسطس 2021). "Chris Olah on what the hell is going on inside neural networks". 80,000 Hours (Podcast). 80,000 hours. ع. 107. مؤرشف من الأصل في 2024-10-11. اطلع عليه بتاريخ 2022-07-23.

[:333-27] ا ^ب Rorvig، Mordechai (14 أبريل 2022). "Researchers Gain New Understanding From Simple AI". Quanta Magazine. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-07-18.

[28] Russell، Stuart؛ Dewey، Daniel؛ Tegmark، Max (31 ديسمبر 2015). "Research Priorities for Robust and Beneficial Artificial Intelligence". AI Magazine. ج. 36 ع. 4: 105–114. arXiv:1602.03506. DOI:10.1609/aimag.v36i4.2577. hdl:1721.1/108478. ISSN:2371-9621. S2CID:8174496. مؤرشف من الأصل في 2023-02-02. اطلع عليه بتاريخ 2022-09-12.

[prefsurvey2017-29] ا ^ب Wirth، Christian؛ Akrour، Riad؛ Neumann، Gerhard؛ Fürnkranz، Johannes (2017). "A survey of preference-based reinforcement learning methods". Journal of Machine Learning Research. ج. 18 ع. 136: 1–46.

[drlfhp-30] ا ^ب Christiano، Paul F.؛ Leike، Jan؛ Brown، Tom B.؛ Martic، Miljan؛ Legg، Shane؛ Amodei، Dario (2017). "Deep reinforcement learning from human preferences". Proceedings of the 31st International Conference on Neural Information Processing Systems. NIPS'17. Red Hook, NY, USA: Curran Associates Inc. ص. 4302–4310. ISBN:978-1-5108-6096-4.

[LessToxic-31] ا ^ب ^ج ^د ^ه ^و Heaven، Will Douglas (27 يناير 2022). "The new version of GPT-3 is much better behaved (and should be less toxic)". MIT Technology Review. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-07-18.

[32] Mohseni، Sina؛ Wang، Haotao؛ Yu، Zhiding؛ Xiao، Chaowei؛ Wang، Zhangyang؛ Yadawa، Jay (07 مارس 2022). "Taxonomy of Machine Learning Safety: A Survey and Primer". arXiv:2106.04823 [cs.LG]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)

[33] Clifton، Jesse (2020). "Cooperation, Conflict, and Transformative Artificial Intelligence: A Research Agenda". Center on Long-Term Risk. مؤرشف من الأصل في 2023-01-01. اطلع عليه بتاريخ 2022-07-18.
Dafoe, Allan; Bachrach, Yoram; Hadfield, Gillian; Horvitz, Eric; Larson, Kate; Graepel, Thore (06 May 2021). "Cooperative AI: machines must learn to find common ground". Nature (بالإنجليزية). 593 (7857): 33–36. Bibcode:2021Natur.593...33D. DOI:10.1038/d41586-021-01170-0. ISSN:0028-0836. PMID:33947992. S2CID:233740521. Archived from the original on 2022-12-18. Retrieved 2022-09-12.

[35] Dafoe, Allan; Bachrach, Yoram; Hadfield, Gillian; Horvitz, Eric; Larson, Kate; Graepel, Thore (06 May 2021). "Cooperative AI: machines must learn to find common ground". Nature (بالإنجليزية). 593 (7857): 33–36. Bibcode:2021Natur.593...33D. DOI:10.1038/d41586-021-01170-0. ISSN:0028-0836. PMID:33947992. S2CID:233740521. Archived from the original on 2022-12-18. Retrieved 2022-09-12.

[34] Prunkl, Carina; Whittlestone, Jess (07 Feb 2020). "Beyond Near- and Long-Term". Proceedings of the AAAI/ACM Conference on AI, Ethics, and Society (بالإنجليزية). New York NY USA: ACM. pp. 138–143. DOI:10.1145/3375627.3375803. ISBN:978-1-4503-7110-0. S2CID:210164673. Archived from the original on 2022-10-16. Retrieved 2024-10-11.

[:4-35] ا ^ب ^ج ^د Irving، Geoffrey؛ Askell، Amanda (19 فبراير 2019). "AI Safety Needs Social Scientists". Distill. ج. 4 ع. 2: 10.23915/distill.00014. DOI:10.23915/distill.00014. ISSN:2476-0757. S2CID:159180422. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-09-12.

[36] Russell، Stuart؛ Norvig، Peter (2009). "26.3: The Ethics and Risks of Developing Artificial Intelligence". Artificial Intelligence: A Modern Approach. Prentice Hall. ISBN:978-0-13-604259-4.

[acm-37] Dietterich، Thomas؛ Horvitz، Eric (2015). "Rise of Concerns about AI: Reflections and Directions" (pdf). Communications of the ACM. ج. 58 ع. 10: 38–40. DOI:10.1145/2770869. S2CID:20395145. مؤرشف (PDF) من الأصل في 2016-03-04. اطلع عليه بتاريخ 2016-06-14.

[38] Russell، Stuart (2014). "Of Myths and Moonshine". Edge. مؤرشف من الأصل في 2016-07-19. اطلع عليه بتاريخ 2016-06-14.

[39] "DeepMind Has Simple Tests That Might Prevent Elon Musk's AI Apocalypse". Bloomberg.com. 11 ديسمبر 2017. مؤرشف من الأصل في 2018-01-08. اطلع عليه بتاريخ 2018-01-08.

[40] "Alphabet's DeepMind Is Using Games to Discover If Artificial Intelligence Can Break Free and Kill Us All". Fortune (بالإنجليزية). Archived from the original on 2017-12-31. Retrieved 2018-01-08.

[41] "Specifying AI safety problems in simple environments | DeepMind". DeepMind. مؤرشف من الأصل في 2018-01-02. اطلع عليه بتاريخ 2018-01-08.

[42] ""Artificial Intelligence"". مؤرشف من الأصل في 2022-03-08.

[quanta_problem-43] Wolchover, Natalie (30 Jan 2020). "Artificial Intelligence Will Do What We Ask. That's a Problem". Quanta Magazine (بالإنجليزية). Archived from the original on 2022-06-01. Retrieved 2020-06-21.

[44] Bull, Larry. "On model-based evolutionary computation." Soft Computing 3, no. 2 (1999): 76–82.

[Wiener1960-45] Wiener, Norbert (06 May 1960). "Some Moral and Technical Consequences of Automation: As machines learn they may develop unforeseen strategies at rates that baffle their programmers". Science (بالإنجليزية). 131 (3410): 1355–1358. DOI:10.1126/science.131.3410.1355. ISSN:0036-8075. PMID:17841602. S2CID:30855376. Archived from the original on 2022-10-15. Retrieved 2022-09-12.

[Gabriel2020-46] ا ^ب ^ج Gabriel، Iason (01 سبتمبر 2020). "Artificial Intelligence, Values, and Alignment". Minds and Machines. ج. 30 ع. 3: 411–437. arXiv:2001.09768. DOI:10.1007/s11023-020-09539-2. ISSN:1572-8641. S2CID:210920551. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-11.

[47] The Ezra Klein Show (04 يونيو 2021). "If 'All Models Are Wrong,' Why Do We Give Them So Much Power?". The New York Times. ISSN:0362-4331. مؤرشف من الأصل في 2023-02-15. اطلع عليه بتاريخ 2023-03-13.
Wolchover، Natalie (21 أبريل 2015). "Concerns of an Artificial Intelligence Pioneer". Quanta Magazine. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2023-03-13.

California Assembly. "Bill Text – ACR-215 23 Asilomar AI Principles". مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-07-18.

[50] Wolchover، Natalie (21 أبريل 2015). "Concerns of an Artificial Intelligence Pioneer". Quanta Magazine. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2023-03-13.

[51] California Assembly. "Bill Text – ACR-215 23 Asilomar AI Principles". مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-07-18.

[MasteringLanguage-48] Johnson، Steven؛ Iziev، Nikita (15 أبريل 2022). "A.I. Is Mastering Language. Should We Trust What It Says?". The New York Times. ISSN:0362-4331. مؤرشف من الأصل في 2022-11-24. اطلع عليه بتاريخ 2022-07-18.

[49] OpenAI. "Developing safe & responsible AI". OpenAI. مؤرشف من الأصل في 2023-04-26. اطلع عليه بتاريخ 2023-03-13.
"DeepMind Safety Research". Medium. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2023-03-13.

[54] "DeepMind Safety Research". Medium. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2023-03-13.

[Unsolved2022-50] ا ^ب ^ج ^د ^ه ^و Hendrycks، Dan؛ Carlini، Nicholas؛ Schulman، John؛ Steinhardt، Jacob (16 يونيو 2022). "Unsolved Problems in ML Safety". arXiv:2109.13916 [cs.LG]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)

[51] Russell، Stuart J.؛ Norvig، Peter (2022). Artificial intelligence: a modern approach (ط. 4th). Pearson. ص. 4–5. ISBN:978-1-292-40113-3. OCLC:1303900751. مؤرشف من الأصل في 2024-10-13. اطلع عليه بتاريخ 2024-10-11.

[SpecGaming2020-52] ا ^ب ^ج ^د ^ه Krakovna، Victoria؛ Uesato، Jonathan؛ Mikulik، Vladimir؛ Rahtz، Matthew؛ Everitt، Tom؛ Kumar، Ramana؛ Kenton، Zac؛ Leike، Jan؛ Legg، Shane (21 أبريل 2020). "Specification gaming: the flip side of AI ingenuity". Deepmind. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-08-26.

[:111-53] Manheim، David؛ Garrabrant، Scott (2018). "Categorizing Variants of Goodhart's Law". arXiv:1803.04585 [cs.AI]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)

[lfhp2017-54] ا ^ب ^ج Amodei، Dario؛ Christiano، Paul؛ Ray، Alex (13 يونيو 2017). "Learning from Human Preferences". OpenAI. مؤرشف من الأصل في 2021-01-03. اطلع عليه بتاريخ 2022-07-21.

[55] "Specification gaming examples in AI - master list - Google Drive". docs.google.com. مؤرشف من الأصل في 2022-06-30. اطلع عليه بتاريخ 2024-10-11.

[56] Clark, Jack; Amodei, Dario (21 Dec 2016). "Faulty reward functions in the wild". openai.com (بالإنجليزية). Archived from the original on 2024-09-19. Retrieved 2023-12-30.

[TruthfulQA-57] ا ^ب ^ج Lin, Stephanie; Hilton, Jacob; Evans, Owain (2022). "TruthfulQA: Measuring How Models Mimic Human Falsehoods". Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (بالإنجليزية). Dublin, Ireland: Association for Computational Linguistics: 3214–3252. arXiv:2109.07958. DOI:10.18653/v1/2022.acl-long.229. S2CID:237532606. Archived from the original on 2023-02-10. Retrieved 2022-09-12.

[Naughton2021-58] ا ^ب ^ج Naughton، John (02 أكتوبر 2021). "The truth about artificial intelligence? It isn't that honest". The Observer. ISSN:0029-7712. مؤرشف من الأصل في 2023-02-13. اطلع عليه بتاريخ 2022-07-23.

[59] Ji، Ziwei؛ Lee، Nayeon؛ Frieske، Rita؛ Yu، Tiezheng؛ Su، Dan؛ Xu، Yan؛ Ishii، Etsuko؛ Bang، Yejin؛ Madotto، Andrea؛ Fung، Pascale (01 فبراير 2022). "Survey of Hallucination in Natural Language Generation". ACM Computing Surveys. ج. 55 ع. 12: 1–38. arXiv:2202.03629. DOI:10.1145/3571730. S2CID:246652372. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-10-14.
Else, Holly (12 Jan 2023). "Abstracts written by ChatGPT fool scientists". Nature (بالإنجليزية). 613 (7944): 423. Bibcode:2023Natur.613..423E. DOI:10.1038/d41586-023-00056-7. PMID:36635510. S2CID:255773668. Archived from the original on 2023-10-25. Retrieved 2024-10-11.

[65] Else, Holly (12 Jan 2023). "Abstracts written by ChatGPT fool scientists". Nature (بالإنجليزية). 613 (7944): 423. Bibcode:2023Natur.613..423E. DOI:10.1038/d41586-023-00056-7. PMID:36635510. S2CID:255773668. Archived from the original on 2023-10-25. Retrieved 2024-10-11.

[60] Russell، Stuart. "Of Myths and Moonshine". Edge.org. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-07-19.

[61] Tasioulas، John (2019). "First Steps Towards an Ethics of Robots and Artificial Intelligence". Journal of Practical Ethics. ج. 7 ع. 1: 61–95.

[:722-62] Wells، Georgia؛ Deepa Seetharaman؛ Horwitz، Jeff (05 نوفمبر 2021). "Is Facebook Bad for You? It Is for About 360 Million Users, Company Surveys Suggest". The Wall Street Journal. ISSN:0099-9660. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-07-19.

[:822-63] Barrett، Paul M.؛ Hendrix، Justin؛ Sims، J. Grant (سبتمبر 2021). How Social Media Intensifies U.S. Political Polarization-And What Can Be Done About It (Report). Center for Business and Human Rights, NYU. مؤرشف من الأصل في 2023-02-01. اطلع عليه بتاريخ 2022-09-12.

[64] Shepardson، David (24 مايو 2018). "Uber disabled emergency braking in self-driving car: U.S. agency". Reuters. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-07-20.

[65] "The messy, secretive reality behind OpenAI's bid to save the world". MIT Technology Review (بالإنجليزية). Archived from the original on 2023-11-21. Retrieved 2024-08-25.

[66] Johnson, Dave. "DeepMind is Google's AI research hub. Here's what it does, where it's located, and how it differs from OpenAI". Business Insider (بالإنجليزية). Archived from the original on 2024-05-11. Retrieved 2024-08-25.

[eallm2022-67] ا ^ب Wei، Jason؛ Tay، Yi؛ Bommasani، Rishi؛ Raffel، Colin؛ Zoph، Barret؛ Borgeaud، Sebastian؛ Yogatama، Dani؛ Bosma، Maarten؛ Zhou، Denny؛ Metzler، Donald؛ Chi، Ed H.؛ Hashimoto، Tatsunori؛ Vinyals، Oriol؛ Liang، Percy؛ Dean، Jeff؛ Fedus، William (26 أكتوبر 2022). "Emergent Abilities of Large Language Models". Transactions on Machine Learning Research. arXiv:2206.07682. ISSN:2835-8856.

[:0-68] ا ^ب Caballero, Ethan; Gupta, Kshitij; Rish, Irina; Krueger, David (2022). "Broken Neural Scaling Laws". International Conference on Learning Representations (ICLR), 2023.

[69] Dominguez، Daniel (19 مايو 2022). "DeepMind Introduces Gato, a New Generalist AI Agent". InfoQ. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-09-09.
Edwards، Ben (26 أبريل 2022). "Adept's AI assistant can browse, search, and use web apps like a human". Ars Technica. مؤرشف من الأصل في 2023-01-17. اطلع عليه بتاريخ 2022-09-09.

[76] Edwards، Ben (26 أبريل 2022). "Adept's AI assistant can browse, search, and use web apps like a human". Ars Technica. مؤرشف من الأصل في 2023-01-17. اطلع عليه بتاريخ 2022-09-09.

[:2822-70] Grace، Katja؛ Salvatier، John؛ Dafoe، Allan؛ Zhang، Baobao؛ Evans، Owain (31 يوليو 2018). "Viewpoint: When Will AI Exceed Human Performance? Evidence from AI Experts". Journal of Artificial Intelligence Research. ج. 62: 729–754. DOI:10.1613/jair.1.11222. ISSN:1076-9757. S2CID:8746462. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-09-12.

[:2922-71] Zhang، Baobao؛ Anderljung، Markus؛ Kahn، Lauren؛ Dreksler، Noemi؛ Horowitz، Michael C.؛ Dafoe، Allan (02 أغسطس 2021). "Ethics and Governance of Artificial Intelligence: Evidence from a Survey of Machine Learning Researchers". Journal of Artificial Intelligence Research. ج. 71. arXiv:2105.02117. DOI:10.1613/jair.1.12895. ISSN:1076-9757. S2CID:233740003. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-09-12.

[:1701-72] Future of Life Institute (22 مارس 2023). "Pause Giant AI Experiments: An Open Letter". AI Magazine. مؤرشف من الأصل في 2024-10-05. اطلع عليه بتاريخ 2023-04-20.

[73] Wang، Lei؛ Ma، Chen؛ Feng، Xueyang؛ Zhang، Zeyu؛ Yang، Hao؛ Zhang، Jingsen؛ Chen، Zhiyuan؛ Tang، Jiakai؛ Chen، Xu (2024)، "A survey on large language model based autonomous agents"، Frontiers of Computer Science، ج. 18، arXiv:2308.11432، DOI:10.1007/s11704-024-40231-1، مؤرشف من الأصل في 2024-04-18، اطلع عليه بتاريخ 2024-02-11

[74] Berglund، Lukas؛ Stickland، Asa Cooper؛ Balesni، Mikita؛ Kaufmann، Max؛ Tong، Meg؛ Korbak، Tomasz؛ Kokotajlo، Daniel؛ Evans، Owain (01 سبتمبر 2023)، Taken out of context: On measuring situational awareness in LLMs، arXiv:2309.00667

[75] Laine, Rudolf; Meinke, Alexander; Evans, Owain (28 Nov 2023). "Towards a Situational Awareness Benchmark for LLMs". NeurIPS 2023 SoLaR Workshop (بالإنجليزية). Retrieved 2024-10-11.

[:3-76] ا ^ب ^ج Pan, Alexander; Shern, Chan Jun; Zou, Andy; Li, Nathaniel; Basart, Steven; Woodside, Thomas; Ng, Jonathan; Zhang, Emmons; Scott, Dan; Hendrycks (03 Apr 2023). "Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards and Ethical Behavior in the MACHIAVELLI Benchmark". Proceedings of the 40th International Conference on Machine Learning (بالإنجليزية). PMLR. arXiv:2304.03279.

[dllmmwe2022-77] ا ^ب ^ج Perez، Ethan؛ Ringer، Sam؛ Lukošiūtė، Kamilė؛ Nguyen، Karina؛ Chen، Edwin؛ Heiner، Scott؛ Pettit، Craig؛ Olsson، Catherine؛ Kundu، Sandipan؛ Kadavath، Saurav؛ Jones، Andy؛ Chen، Anna؛ Mann، Ben؛ Israel، Brian؛ Seethor، Bryan (19 ديسمبر 2022). "Discovering Language Model Behaviors with Model-Written Evaluations". arXiv:2212.09251 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)

[78] Orseau، Laurent؛ Armstrong، Stuart (25 يونيو 2016). "Safely interruptible agents". Proceedings of the Thirty-Second Conference on Uncertainty in Artificial Intelligence. UAI'16. Arlington, Virginia, USA: AUAI Press: 557–566. ISBN:978-0-9966431-1-5. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-11.

[Gridworlds-79] ا ^ب Leike، Jan؛ Martic، Miljan؛ Krakovna، Victoria؛ Ortega، Pedro A.؛ Everitt، Tom؛ Lefrancq، Andrew؛ Orseau، Laurent؛ Legg، Shane (28 نوفمبر 2017). "AI Safety Gridworlds". arXiv:1711.09883 [cs.LG]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)

[OffSwitch-80] ا ^ب ^ج ^د Hadfield-Menell، Dylan؛ Dragan، Anca؛ Abbeel، Pieter؛ Russell، Stuart (19 أغسطس 2017). "The off-switch game". Proceedings of the 26th International Joint Conference on Artificial Intelligence. IJCAI'17. Melbourne, Australia: AAAI Press: 220–227. ISBN:978-0-9992411-0-3. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-11.

[optsp-81] ا ^ب ^ج Turner، Alexander Matt؛ Smith، Logan Riggs؛ Shah، Rohin؛ Critch، Andrew؛ Tadepalli، Prasad (2021). "Optimal policies tend to seek power". Advances in neural information processing systems. ICLR. مؤرشف من الأصل في 2024-08-23. اطلع عليه بتاريخ 2024-10-11.

[82] Turner، Alexander Matt؛ Tadepalli، Prasad (2022). "Parametrically retargetable decision-makers tend to seek power". Advances in neural information processing systems. ICLR. مؤرشف من الأصل في 2023-12-01. اطلع عليه بتاريخ 2024-10-11.

[Superintelligence-83] ا ^ب ^ج ^د Bostrom، Nick (2014). Superintelligence: Paths, Dangers, Strategies (ط. 1st). USA: Oxford University Press, Inc. ISBN:978-0-19-967811-2.

[hawking_editorial-84] "Stephen Hawking: 'Transcendence looks at the implications of artificial intelligence – but are we taking AI seriously enough?'". The Independent. ذي إندبندنت. مؤرشف من الأصل في 2015-09-25. اطلع عليه بتاريخ 2016-06-14.

[85] "Stephen Hawking warns artificial intelligence could end mankind". BBC. بي بي سي. 2 ديسمبر 2014. مؤرشف من الأصل في 2015-10-30. اطلع عليه بتاريخ 2016-06-14.

[86] "Anticipating artificial intelligence". Nature. ج. 532 ع. 7600: 413. 26 أبريل 2016. Bibcode:2016Natur.532Q.413.. DOI:10.1038/532413a. PMID:27121801. مؤرشف من الأصل في 2023-09-08. اطلع عليه بتاريخ 2024-10-16.

[:1-87] ا ^ب "Statement on AI Risk | CAIS". www.safe.ai. مؤرشف من الأصل في 2023-05-31. اطلع عليه بتاريخ 2023-07-17.

[88] Roose, Kevin (30 May 2023). "A.I. Poses 'Risk of Extinction,' Industry Leaders Warn". The New York Times (بالإنجليزية). ISSN:0362-4331. Retrieved 2023-07-17.

[:3022-89] Muehlhauser، Luke (29 يناير 2016). "Sutskever on Talking Machines". Luke Muehlhauser. مؤرشف من الأصل في 2022-09-27. اطلع عليه بتاريخ 2022-08-26.

[:3122-90] Shanahan، Murray (2015). The technological singularity. Cambridge, Massachusetts: MIT Press. ISBN:978-0-262-52780-4. OCLC:917889148. مؤرشف من الأصل في 2024-10-13. اطلع عليه بتاريخ 2024-10-11.

[مولد_تلقائيا7-91] Wiener, Norbert (06 May 1960). "Some Moral and Technical Consequences of Automation: As machines learn they may develop unforeseen strategies at rates that baffle their programmers". Science (بالإنجليزية). 131 (3410): 1355–1358. DOI:10.1126/science.131.3410.1355. ISSN:0036-8075. PMID:17841602. S2CID:30855376. Archived from the original on 2022-10-15. Retrieved 2022-09-12.

[:3322-92] Rossi، Francesca. "How do you teach a machine to be moral?". The Washington Post. ISSN:0190-8286. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-09-12.

[:3422-93] Aaronson، Scott (17 يونيو 2022). "OpenAI!". Shtetl-Optimized. مؤرشف من الأصل في 2022-08-27. اطلع عليه بتاريخ 2022-09-12.

[:3522-94] Selman، Bart، "Intelligence Explosion: Science or Fiction?" (pdf)، AI Magazine، مؤرشف (PDF) من الأصل في 2022-05-31، اطلع عليه بتاريخ 2022-09-12

[:3622-95] McAllester (10 أغسطس 2014). "Friendly AI and the Servant Mission". Machine Thoughts. مؤرشف من الأصل في 2022-09-28. اطلع عليه بتاريخ 2022-09-12.

[:3722-96] Schmidhuber، Jürgen (06 مارس 2015). "I am Jürgen Schmidhuber, AMA!" (Reddit Comment). r/MachineLearning. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-07-23.

[AGISafetyLitReview-97] ا ^ب ^ج ^د ^ه Everitt، Tom؛ Lea، Gary؛ Hutter، Marcus (21 مايو 2018). "AGI Safety Literature Review". arXiv:1805.01109 [cs.AI]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)

[:3822-98] Shane (31 أغسطس 2009). "Funding safe AGI". vetta project. مؤرشف من الأصل في 2022-10-10. اطلع عليه بتاريخ 2022-09-12.

[:3922-99] Horvitz، Eric (27 يونيو 2016). "Reflections on Safety and Artificial Intelligence" (pdf). Eric Horvitz. مؤرشف (PDF) من الأصل في 2022-10-10. اطلع عليه بتاريخ 2020-04-20.

[:4022-100] Chollet، François (08 ديسمبر 2018). "The implausibility of intelligence explosion". Medium. مؤرشف من الأصل في 2021-03-22. اطلع عليه بتاريخ 2022-08-26.

[:4122-101] Marcus، Gary (06 يونيو 2022). "Artificial General Intelligence Is Not as Imminent as You Might Think". Scientific American. مؤرشف من الأصل في 2022-09-15. اطلع عليه بتاريخ 2022-08-26.

[:4322-102] Barber، Lynsey (31 يوليو 2016). "Phew! Facebook's AI chief says intelligent machines are not a threat to humanity". CityAM. مؤرشف من الأصل في 2022-08-26. اطلع عليه بتاريخ 2022-08-26.

[103] Etzioni, Oren (20 Sep 2016). "No, the Experts Don't Think Superintelligent AI is a Threat to Humanity". MIT Technology Review (بالإنجليزية). Archived from the original on 2020-12-08. Retrieved 2024-06-10.

[مولد_تلقائيا9-104] Gabriel، Iason (01 سبتمبر 2020). "Artificial Intelligence, Values, and Alignment". Minds and Machines. ج. 30 ع. 3: 411–437. arXiv:2001.09768. DOI:10.1007/s11023-020-09539-2. ISSN:1572-8641. S2CID:210920551. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-11.

[105] Rochon, Louis-Philippe; Rossi, Sergio (27 Feb 2015). The Encyclopedia of Central Banking (بالإنجليزية). Edward Elgar Publishing. ISBN:978-1-78254-744-0. Archived from the original on 2023-02-10. Retrieved 2022-09-13.

[106] Ng، Andrew Y.؛ Russell، Stuart J. (29 يونيو 2000). "Algorithms for Inverse Reinforcement Learning". Proceedings of the Seventeenth International Conference on Machine Learning. ICML '00. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc.: 663–670. ISBN:978-1-55860-707-1. مؤرشف من الأصل في 2023-06-01. اطلع عليه بتاريخ 2024-10-11.

[107] Hadfield-Menell، Dylan؛ Russell، Stuart J؛ Abbeel، Pieter؛ Dragan، Anca (2016). "Cooperative inverse reinforcement learning". Advances in neural information processing systems. Curran Associates, Inc. ج. 29.

[108] Mindermann، Soren؛ Armstrong، Stuart (2018). "Occam's razor is insufficient to infer the preferences of irrational agents". Proceedings of the 32nd international conference on neural information processing systems. NIPS'18. Red Hook, NY, USA: Curran Associates Inc. ص. 5603–5614.

[109] Fürnkranz, Johannes; Hüllermeier, Eyke; Rudin, Cynthia; Slowinski, Roman; Sanner, Scott (2014). "Preference Learning". Dagstuhl Reports (بالإنجليزية). Marc Herbstritt. 4 (3): 27 pages. DOI:10.4230/DAGREP.4.3.1. Archived from the original on 2023-02-10. Retrieved 2022-09-12.

[110] Gao، Leo؛ Schulman، John؛ Hilton، Jacob (19 أكتوبر 2022). "Scaling Laws for Reward Model Overoptimization". arXiv:2210.10760 [cs.LG]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)

[111] Anderson، Martin (05 أبريل 2022). "The Perils of Using Quotations to Authenticate NLG Content". Unite.AI. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-07-21.

[Wiggers2022-112] ا ^ب Wiggers، Kyle (05 فبراير 2022). "Despite recent progress, AI-powered chatbots still have a long way to go". VentureBeat. مؤرشف من الأصل في 2022-07-23. اطلع عليه بتاريخ 2022-07-23.

[113] Hendrycks، Dan؛ Burns، Collin؛ Basart، Steven؛ Critch، Andrew؛ Li، Jerry؛ Song، Dawn؛ Steinhardt، Jacob (24 يوليو 2021). "Aligning AI With Shared Human Values". International Conference on Learning Representations. arXiv:2008.02275.

[114] Perez، Ethan؛ Huang، Saffron؛ Song، Francis؛ Cai، Trevor؛ Ring، Roman؛ Aslanides، John؛ Glaese، Amelia؛ McAleese، Nat؛ Irving، Geoffrey (07 فبراير 2022). "Red Teaming Language Models with Language Models". arXiv:2202.03286 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
Bhattacharyya، Sreejani (14 فبراير 2022). "DeepMind's "red teaming" language models with language models: What is it?". Analytics India Magazine. مؤرشف من الأصل في 2023-02-13. اطلع عليه بتاريخ 2022-07-23.

[122] Bhattacharyya، Sreejani (14 فبراير 2022). "DeepMind's "red teaming" language models with language models: What is it?". Analytics India Magazine. مؤرشف من الأصل في 2023-02-13. اطلع عليه بتاريخ 2022-07-23.

[115] Anderson، Michael؛ Anderson، Susan Leigh (15 ديسمبر 2007). "Machine Ethics: Creating an Ethical Intelligent Agent". AI Magazine. ج. 28 ع. 4: 15. DOI:10.1609/aimag.v28i4.2065. ISSN:2371-9621. S2CID:17033332. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2023-03-14.

[116] Wiegel، Vincent (01 ديسمبر 2010). "Wendell Wallach and Colin Allen: moral machines: teaching robots right from wrong". Ethics and Information Technology. ج. 12 ع. 4: 359–361. DOI:10.1007/s10676-010-9239-1. ISSN:1572-8439. S2CID:30532107. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-11.

[117] Wallach، Wendell؛ Allen، Colin (2009). Moral Machines: Teaching Robots Right from Wrong. New York: Oxford University Press. ISBN:978-0-19-537404-9. مؤرشف من الأصل في 2023-03-15. اطلع عليه بتاريخ 2022-07-23.

[Phelps2023-118] ا ^ب Phelps، Steve؛ Ranson، Rebecca (2023). "Of Models and Tin-Men - A Behavioral Economics Study of Principal-Agent Problems in AI Alignment Using Large-Language Models". arXiv:2307.11137 [cs.AI]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)

[119] MacAskill، William (2022). What we owe the future. New York, NY: Basic Books, Hachette Book Group. ISBN:978-1-5416-1862-6. OCLC:1314633519. مؤرشف من الأصل في 2022-09-14. اطلع عليه بتاريخ 2024-09-11.

[RecursivelySummarizing-120] ا ^ب Wu، Jeff؛ Ouyang، Long؛ Ziegler، Daniel M.؛ Stiennon، Nisan؛ Lowe، Ryan؛ Leike، Jan؛ Christiano، Paul (27 سبتمبر 2021). "Recursively Summarizing Books with Human Feedback". arXiv:2109.10862 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)

[121] Pearce، Hammond؛ Ahmad، Baleegh؛ Tan، Benjamin؛ Dolan-Gavitt، Brendan؛ Karri، Ramesh (2022). "Asleep at the Keyboard? Assessing the Security of GitHub Copilot's Code Contributions". 2022 IEEE Symposium on Security and Privacy (SP). San Francisco, CA, USA: IEEE. ص. 754–768. arXiv:2108.09293. DOI:10.1109/SP46214.2022.9833571. ISBN:978-1-6654-1316-9. S2CID:245220588. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-11.

[122] Irving، Geoffrey؛ Amodei، Dario (03 مايو 2018). "AI Safety via Debate". OpenAI. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-07-23.

[sslawe-123] ا ^ب Christiano، Paul؛ Shlegeris، Buck؛ Amodei، Dario (19 أكتوبر 2018). "Supervising strong learners by amplifying weak experts". arXiv:1810.08575 [cs.LG]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)

[124] Banzhaf، Wolfgang؛ Goodman، Erik؛ Sheneman، Leigh؛ Trujillo، Leonardo؛ Worzel، Bill، المحررون (2020). Genetic Programming Theory and Practice XVII. Genetic and Evolutionary Computation. Cham: Springer International Publishing. DOI:10.1007/978-3-030-39958-0. ISBN:978-3-030-39957-3. S2CID:218531292. مؤرشف من الأصل في 2023-03-15. اطلع عليه بتاريخ 2022-07-23.

[125] Wiblin، Robert (2 أكتوبر 2018). "Dr Paul Christiano on how OpenAI is developing real solutions to the 'AI alignment problem', and his vision of how humanity will progressively hand over decision-making to AI systems". 80,000 Hours (Podcast). 80,000 hours. ع. 44. مؤرشف من الأصل في 2022-12-14. اطلع عليه بتاريخ 2022-07-23.

[126] Lehman, Joel; Clune, Jeff; Misevic, Dusan; Adami, Christoph; Altenberg, Lee; Beaulieu, Julie; Bentley, Peter J.; Bernard, Samuel; Beslon, Guillaume; Bryson, David M.; Cheney, Nick (2020). "The Surprising Creativity of Digital Evolution: A Collection of Anecdotes from the Evolutionary Computation and Artificial Life Research Communities". Artificial Life (بالإنجليزية). 26 (2): 274–306. DOI:10.1162/artl_a_00319. hdl:10044/1/83343. ISSN:1064-5462. PMID:32271631. S2CID:4519185. Archived from the original on 2022-10-10. Retrieved 2022-09-12.

[saavrm-127] ا ^ب Leike، Jan؛ Krueger، David؛ Everitt، Tom؛ Martic، Miljan؛ Maini، Vishal؛ Legg، Shane (19 نوفمبر 2018). "Scalable agent alignment via reward modeling: a research direction". arXiv:1811.07871 [cs.LG]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)

[OpenAIApproach-128] ا ^ب Leike، Jan؛ Schulman، John؛ Wu، Jeffrey (24 أغسطس 2022). "Our approach to alignment research". OpenAI. مؤرشف من الأصل في 2023-02-15. اطلع عليه بتاريخ 2022-09-09.

[129] Wiggers، Kyle (23 سبتمبر 2021). "OpenAI unveils model that can summarize books of any length". VentureBeat. مؤرشف من الأصل في 2022-07-23. اطلع عليه بتاريخ 2022-07-23.

[130] Saunders، William؛ Yeh، Catherine؛ Wu، Jeff؛ Bills، Steven؛ Ouyang، Long؛ Ward، Jonathan؛ Leike، Jan (13 يونيو 2022). "Self-critiquing models for assisting human evaluators". arXiv:2206.05802 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
Bai، Yuntao؛ Kadavath، Saurav؛ Kundu، Sandipan؛ Askell، Amanda؛ Kernion، Jackson؛ Jones، Andy؛ Chen، Anna؛ Goldie، Anna؛ Mirhoseini، Azalia؛ McKinnon، Cameron؛ Chen، Carol؛ Olsson، Catherine؛ Olah، Christopher؛ Hernandez، Danny؛ Drain، Dawn (15 ديسمبر 2022). "Constitutional AI: Harmlessness from AI Feedback". arXiv:2212.08073 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)

[139] Bai، Yuntao؛ Kadavath، Saurav؛ Kundu، Sandipan؛ Askell، Amanda؛ Kernion، Jackson؛ Jones، Andy؛ Chen، Anna؛ Goldie، Anna؛ Mirhoseini، Azalia؛ McKinnon، Cameron؛ Chen، Carol؛ Olsson، Catherine؛ Olah، Christopher؛ Hernandez، Danny؛ Drain، Dawn (15 ديسمبر 2022). "Constitutional AI: Harmlessness from AI Feedback". arXiv:2212.08073 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)

[131] "Introducing Superalignment". openai.com (بالإنجليزية). Archived from the original on 2023-11-20. Retrieved 2023-07-17.

[Falsehoods-132] ا ^ب ^ج Wiggers، Kyle (20 سبتمبر 2021). "Falsehoods more likely with large language models". VentureBeat. مؤرشف من الأصل في 2022-08-04. اطلع عليه بتاريخ 2022-07-23.

[133] The Guardian (08 سبتمبر 2020). "A robot wrote this entire article. Are you scared yet, human?". The Guardian. ISSN:0261-3077. مؤرشف من الأصل في 2020-09-08. اطلع عليه بتاريخ 2022-07-23.
Heaven، Will Douglas (20 يوليو 2020). "OpenAI's new language generator GPT-3 is shockingly good—and completely mindless". MIT Technology Review. مؤرشف من الأصل في 2020-07-25. اطلع عليه بتاريخ 2022-07-23.

[143] Heaven، Will Douglas (20 يوليو 2020). "OpenAI's new language generator GPT-3 is shockingly good—and completely mindless". MIT Technology Review. مؤرشف من الأصل في 2020-07-25. اطلع عليه بتاريخ 2022-07-23.

[TruthfulAI-134] ا ^ب Evans، Owain؛ Cotton-Barratt، Owen؛ Finnveden، Lukas؛ Bales، Adam؛ Balwit، Avital؛ Wills، Peter؛ Righetti، Luca؛ Saunders، William (13 أكتوبر 2021). "Truthful AI: Developing and governing AI that does not lie". arXiv:2110.06674 [cs.CY]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)

[135] Alford، Anthony (13 يوليو 2021). "EleutherAI Open-Sources Six Billion Parameter GPT-3 Clone GPT-J". InfoQ. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-07-23.
Rae، Jack W.؛ Borgeaud، Sebastian؛ Cai، Trevor؛ Millican، Katie؛ Hoffmann، Jordan؛ Song، Francis؛ Aslanides، John؛ Henderson، Sarah؛ Ring، Roman؛ Young، Susannah؛ Rutherford، Eliza؛ Hennigan، Tom؛ Menick، Jacob؛ Cassirer، Albin؛ Powell، Richard (21 يناير 2022). "Scaling Language Models: Methods, Analysis & Insights from Training Gopher". arXiv:2112.11446 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)

[146] Rae، Jack W.؛ Borgeaud، Sebastian؛ Cai، Trevor؛ Millican، Katie؛ Hoffmann، Jordan؛ Song، Francis؛ Aslanides، John؛ Henderson، Sarah؛ Ring، Roman؛ Young، Susannah؛ Rutherford، Eliza؛ Hennigan، Tom؛ Menick، Jacob؛ Cassirer، Albin؛ Powell، Richard (21 يناير 2022). "Scaling Language Models: Methods, Analysis & Insights from Training Gopher". arXiv:2112.11446 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)

[مولد_تلقائيا12-136] Johnson، Steven؛ Iziev، Nikita (15 أبريل 2022). "A.I. Is Mastering Language. Should We Trust What It Says?". The New York Times. ISSN:0362-4331. مؤرشف من الأصل في 2022-11-24. اطلع عليه بتاريخ 2022-07-18.

[137] Nakano، Reiichiro؛ Hilton، Jacob؛ Balaji، Suchir؛ Wu، Jeff؛ Ouyang، Long؛ Kim، Christina؛ Hesse، Christopher؛ Jain، Shantanu؛ Kosaraju، Vineet؛ Saunders، William؛ Jiang، Xu؛ Cobbe، Karl؛ Eloundou، Tyna؛ Krueger، Gretchen؛ Button، Kevin (01 يونيو 2022). "WebGPT: Browser-assisted question-answering with human feedback". arXiv:2112.09332 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
Kumar، Nitish (23 ديسمبر 2021). "OpenAI Researchers Find Ways To More Accurately Answer Open-Ended Questions Using A Text-Based Web Browser". MarkTechPost. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-07-23.

Menick، Jacob؛ Trebacz، Maja؛ Mikulik، Vladimir؛ Aslanides، John؛ Song، Francis؛ Chadwick، Martin؛ Glaese، Mia؛ Young، Susannah؛ Campbell-Gillingham، Lucy؛ Irving، Geoffrey؛ McAleese، Nat (21 مارس 2022). "Teaching language models to support answers with verified quotes". DeepMind. arXiv:2203.11147. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-09-12.

[149] Kumar، Nitish (23 ديسمبر 2021). "OpenAI Researchers Find Ways To More Accurately Answer Open-Ended Questions Using A Text-Based Web Browser". MarkTechPost. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-07-23.

[150] Menick، Jacob؛ Trebacz، Maja؛ Mikulik، Vladimir؛ Aslanides، John؛ Song، Francis؛ Chadwick، Martin؛ Glaese، Mia؛ Young، Susannah؛ Campbell-Gillingham، Lucy؛ Irving، Geoffrey؛ McAleese، Nat (21 مارس 2022). "Teaching language models to support answers with verified quotes". DeepMind. arXiv:2203.11147. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-09-12.

[138] Askell، Amanda؛ Bai، Yuntao؛ Chen، Anna؛ Drain، Dawn؛ Ganguli، Deep؛ Henighan، Tom؛ Jones، Andy؛ Joseph، Nicholas؛ Mann، Ben؛ DasSarma، Nova؛ Elhage، Nelson؛ Hatfield-Dodds، Zac؛ Hernandez، Danny؛ Kernion، Jackson؛ Ndousse، Kamal (09 ديسمبر 2021). "A General Language Assistant as a Laboratory for Alignment". arXiv:2112.00861 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)

[139] Cox، Joseph (15 مارس 2023). "GPT-4 Hired Unwitting TaskRabbit Worker By Pretending to Be 'Vision-Impaired' Human". Vice. مؤرشف من الأصل في 2023-03-16. اطلع عليه بتاريخ 2023-04-10.

[140] Scheurer، Jérémy؛ Balesni، Mikita؛ Hobbhahn، Marius (2023). "Technical Report: Large Language Models can Strategically Deceive their Users when Put Under Pressure". arXiv:2311.07590 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)

[141] Kenton، Zachary؛ Everitt، Tom؛ Weidinger، Laura؛ Gabriel، Iason؛ Mikulik، Vladimir؛ Irving، Geoffrey (30 مارس 2021). "Alignment of Language Agents". DeepMind Safety Research – Medium. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-07-23.

[142] Park، Peter S.؛ Goldstein، Simon؛ O’Gara، Aidan؛ Chen، Michael؛ Hendrycks، Dan (مايو 2024). "AI deception: A survey of examples, risks, and potential solutions". Patterns. ج. 5 ع. 5: 100988. DOI:10.1016/j.patter.2024.100988. ISSN:2666-3899. PMC:11117051. PMID:38800366. مؤرشف من الأصل في 2024-08-06. اطلع عليه بتاريخ 2024-10-11.

[143] McCarthy, John; Minsky, Marvin L.; Rochester, Nathaniel; Shannon, Claude E. (15 Dec 2006). "A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence, August 31, 1955". AI Magazine (بالإنجليزية). 27 (4): 12. DOI:10.1609/aimag.v27i4.1904. ISSN:2371-9621. S2CID:19439915. Archived from the original on 2024-10-12. Retrieved 2024-10-11.

[144] Wang، Lei؛ Ma، Chen؛ Feng، Xueyang؛ Zhang، Zeyu؛ Yang، Hao؛ Zhang، Jingsen؛ Chen، Zhiyuan؛ Tang، Jiakai؛ Chen، Xu (2024)، "A survey on large language model based autonomous agents"، Frontiers of Computer Science، ج. 18، arXiv:2308.11432، DOI:10.1007/s11704-024-40231-1، مؤرشف من الأصل في 2024-10-12، اطلع عليه بتاريخ 2024-10-11

[145] "'The Godfather of A.I.' warns of 'nightmare scenario' where artificial intelligence begins to seek power". Fortune (بالإنجليزية). Archived from the original on 2023-05-02. Retrieved 2023-05-04.
"Yes, We Are Worried About the Existential Risk of Artificial Intelligence". MIT Technology Review (بالإنجليزية). Archived from the original on 2022-11-28. Retrieved 2023-05-04.

[159] "Yes, We Are Worried About the Existential Risk of Artificial Intelligence". MIT Technology Review (بالإنجليزية). Archived from the original on 2022-11-28. Retrieved 2023-05-04.

[quanta-hide-seek2-146] Ornes، Stephen (18 نوفمبر 2019). "Playing Hide-and-Seek, Machines Invent New Tools". Quanta Magazine. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2022-08-26.

[147] Baker، Bowen؛ Kanitscheider، Ingmar؛ Markov، Todor؛ Wu، Yi؛ Powell، Glenn؛ McGrew، Bob؛ Mordatch، Igor (17 سبتمبر 2019). "Emergent Tool Use from Multi-Agent Interaction". OpenAI. مؤرشف من الأصل في 2022-09-25. اطلع عليه بتاريخ 2022-08-26.

[148] Lu، Chris؛ Lu، Cong؛ Lange، Robert Tjarko؛ Foerster، Jakob؛ Clune، Jeff؛ Ha، David (15 أغسطس 2024)، The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery، arXiv:2408.06292، In some cases, when The AI Scientist's experiments exceeded our imposed time limits, it attempted to edit the code to extend the time limit arbitrarily

[149] Edwards, Benj (14 Aug 2024). "Research AI model unexpectedly modified its own code to extend runtime". Ars Technica (بالإنجليزية). Archived from the original on 2024-08-24. Retrieved 2024-08-19.

[150] Shermer، Michael (01 مارس 2017). "Artificial Intelligence Is Not a Threat—Yet". Scientific American. مؤرشف من الأصل في 2017-12-01. اطلع عليه بتاريخ 2022-08-26.

[GoalMisgeneralization-151] ا ^ب ^ج Shah، Rohin؛ Varma، Vikrant؛ Kumar، Ramana؛ Phuong، Mary؛ Krakovna، Victoria؛ Uesato، Jonathan؛ Kenton، Zac (02 نوفمبر 2022). "Goal Misgeneralization: Why Correct Specifications Aren't Enough For Correct Goals". Medium. arXiv:2210.01790. مؤرشف من الأصل في 2024-10-07. اطلع عليه بتاريخ 2023-04-02.

[rloamls-152] ا ^ب Hubinger، Evan؛ van Merwijk، Chris؛ Mikulik، Vladimir؛ Skalse، Joar؛ Garrabrant، Scott (01 ديسمبر 2021). "Risks from Learned Optimization in Advanced Machine Learning Systems". arXiv:1906.01820 [cs.AI]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)

[153] Zhang, Xiaoge; Chan, Felix T.S.; Yan, Chao; Bose, Indranil (2022). "Towards risk-aware artificial intelligence and machine learning systems: An overview". Decision Support Systems (بالإنجليزية). 159: 113800. DOI:10.1016/j.dss.2022.113800. S2CID:248585546. Archived from the original on 2024-10-12. Retrieved 2024-10-11.

[154] Demski، Abram؛ Garrabrant، Scott (6 أكتوبر 2020). "Embedded Agency". arXiv:1902.09469 [cs.AI]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)

[causal_influence2-155] ا ^ب Everitt، Tom؛ Ortega، Pedro A.؛ Barnes، Elizabeth؛ Legg، Shane (6 سبتمبر 2019). "Understanding Agent Incentives using Causal Influence Diagrams. Part I: Single Action Settings". arXiv:1902.09980 [cs.AI]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)

[:323-156] Cohen, Michael K.; Hutter, Marcus; Osborne, Michael A. (29 Aug 2022). "Advanced artificial agents intervene in the provision of reward". AI Magazine (بالإنجليزية). 43 (3): 282–293. DOI:10.1002/aaai.12064. ISSN:0738-4602. S2CID:235489158. Archived from the original on 2023-02-10. Retrieved 2022-09-06.

[Hadfield-Menell2019-157] Hadfield-Menell، Dylan؛ Hadfield، Gillian K (2019). "Incomplete contracting and AI alignment". Proceedings of the 2019 AAAI/ACM Conference on AI, Ethics, and Society. ص. 417–422.

[Hanson2019-158] Hanson، Robin (10 أبريل 2019). "Agency Failure or AI Apocalypse?". Overcoming Bias. مؤرشف من الأصل في 2024-10-13. اطلع عليه بتاريخ 2023-09-20.

[159] "UN Secretary-General's report on "Our Common Agenda"". UN News Centre. 2021. ص. 63. مؤرشف من الأصل في 2023-02-16. اطلع عليه بتاريخ 2024-10-11. [T]he Compact could also promote regulation of artificial intelligence to ensure that this is aligned with shared global values

[160] The National New Generation Artificial Intelligence Governance Specialist Committee (12 أكتوبر 2021) [2021-09-25]. "Ethical Norms for New Generation Artificial Intelligence Released". مركز الأمن والتكنولوجيا الناشئة. ترجمة: مركز الأمن والتكنولوجيا الناشئة. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2024-10-11.

[161] Richardson، Tim (22 سبتمبر 2021). "UK publishes National Artificial Intelligence Strategy". The Register. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2021-11-14.

[162] "The National AI Strategy of the UK". GOV.UK. 2021. مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2024-10-11. The government takes the long term risk of non-aligned Artificial General Intelligence, and the unforeseeable changes that it would mean for the UK and the world, seriously.

[163] "The National AI Strategy of the UK". GOV.UK. 2021. actions 9 and 10 of the section "Pillar 3 – Governing AI Effectively". مؤرشف من الأصل في 2023-02-10. اطلع عليه بتاريخ 2024-10-11.

[164] NSCAI Final Report (pdf). Washington, DC: The National Security Commission on Artificial Intelligence. 2021. مؤرشف (PDF) من الأصل في 2023-02-15. اطلع عليه بتاريخ 2022-10-17.

[165] Robert Lee Poe (2023). "Why Fair Automated Hiring Systems Breach EU Non-Discrimination Law". arXiv:2311.03900 [cs.CY]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)

[166] De Vos، Marc (2020). "The European Court of Justice and the march towards substantive equality in European Union anti-discrimination law". International Journal of Discrimination and the Law. ج. 20: 62–87. DOI:10.1177/1358229120927947. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-11.

[167] Irving، Geoffrey؛ Askell، Amanda (9 يونيو 2016). "Chern number in Ising models with spatially modulated real and complex fields". Physical Review A. ج. 94 ع. 5: 052113. arXiv:1606.03535. Bibcode:2016PhRvA..94e2113L. DOI:10.1103/PhysRevA.94.052113. S2CID:118699363. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-11.

[168] Mitelut، Catalin؛ Smith، Ben؛ Vamplew، Peter (30 مايو 2023)، Intent-aligned AI systems deplete human agency: the need for agency foundations research in AI safety، arXiv:2305.19223

[169] Gabriel، Iason (1 سبتمبر 2020). "Artificial Intelligence, Values, and Alignment". Minds and Machines. ج. 30 ع. 3: 411–437. arXiv:2001.09768. DOI:10.1007/s11023-020-09539-2. S2CID:210920551. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-11.

[170] Russell، Stuart J. (2019). Human Compatible: Artificial Intelligence and the Problem of Control. Penguin Random House. مؤرشف من الأصل في 2024-10-13. اطلع عليه بتاريخ 2024-10-11.

[171] Dafoe، Allan (2019). "AI policy: A roadmap". Nature. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-11.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

[68]

[69]

[70]

[71]

[72]

[73]

[74]

[75]

[76]

[77]

[78]

[79]

[80]

[81]

[82]

[83]

[84]

[85]

[86]

[87]

[88]

[89]

[90]

[91]

[92]

[93]

[94]

[95]

[96]

[97]

[98]

[99]

[100]