الذكاء الصناعي ومشكلة اللغة

ويل نايت
ترجمة: أوراس الجاني

 

 

ستكون الآلات القادرة على فهم اللغة مفيدة جدًا، لكننا لا نعرف كيف نبنيها.

تقريبًا في منتصف منافسة محتدمة في لعبة الغُو[1] Game of Go في سيؤول، في كوريا الجنوبية، بين لي سيدول أحد أمهر اللاعبين على الإطلاق، وألفاغو AlphaGo برنامج الذكاء الصناعي المطور من قبل غوغل، قام البرنامج بخطوة غامضة مبرهنًا على تفوقه المثير للأعصاب على خصمه البشري.

ففي الحركة السابعة والثلاثين، اختار ألفاغو أن يضع حجرًا أسود في موقع بدا مضحكًا للوهلة الأولى. كان جليًا فقدانه لمكان مهم – وهذا من أخطاء المبتدئين في لعبة تتمحور حول السيطرة على الفراغات في اللوح، مما دفع معلِّقَيْن تلفزيونيين للتساؤل إذا ما أخطأوا في تفسير الحركة أم هو خلل في البرنامج. في الحقيقة، وخلافًا لأي خبرة تقليدية، ستمكن الحركة 37 البرنامج من بناء قاعدة رائعة في منتصف اللوح، لينتصر برنامج غوغل بجدارة بفضل حركة لم تكن لتخطر على بال إنسان.

طالما اعتبرت لعبة غُو اختبارًا للذكاء الفطري، لذلك يعد انتصار ألفاغو حدثًا مفصليًا. قواعد اللعبة بسيطة فعلًا: يتناوب لاعبان على وضع أحجار بيضاء وسوداء على تقاطعات خطوط اللوح طولًا وعرضًا، لمحاصرة قطع الخصم وإخراجهم من اللعب، ومع ذلك يبقى من الصعب اللعب بشكل جيد.

في الشطرنج، يستطيع اللاعبون توقع عدة حركات مسبقًا، بينما يكون هذا أمرًا مستحيلاً في الغو دون الوقوع في تعقيدات شائكة، هذا عدا عن عدم وجود حركات تقليدية يفتتح اللعب بها. وأيضًا لا توجد طريقة مباشرة لحساب التقدم، وحتى اللاعب الخبير سيجد نفسه في حيرة من أمره عند سؤاله عن سبب قيامه بهذه الحركة أو تلك حصرًا. لذلك من المستحيل كتابة مجموعة قواعد بسيطة ليتبعها برنامج حاسوبي في مستوى خبير.

لم يُلقَّن ألفاغو أبدًا كيفية اللعب. وعوضًا عن ذلك قام البرنامج بتحليل مئات آلاف الجولات ولعب ملايين المرات مع نفسه. من بين عدة تقنيات ذكاء صنعي قام البرنامج باستخدام تقنية متزايدة الانتشار تعرف بالتعلم العميق Deep learning: وهي حسابات رياضية مستوحاة، ولو على نحو طفيف، من آلية تحفُّز طبقات الخلايا المتداخلة عندما يتعلم الدماغ اكتساب شيء جديد. وعبر كثير من ساعات التدريب الذاتي، علم البرنامج نفسه بنفسه ليكوِّن حسًّا استراتيجيًّا فطريًّا. وهكذا استطاع هزيمة أحد أفضل لاعبي الغو كاشفًا عن حدث مفصلي في الذكاء الصناعي وذكاء الآلة.

بعد الحركة 37 بعدة ساعات، ربح ألفا غو المنافسة ليرفع رصيده إلى فوزين من دون أية خسارة من أصل أفضل خمس منافسات. وقف سيدول بعد المباراة أمام حشد من المصورين والصحفيين واعتذر بلطف عن خذلانه الجنس البشري: “أنا عاجز فعلًا عن الكلام”، قالها وعيناه ترفان بسبب عاصفة من أضواء التصوير. يشير نجاح ألفا غو المفاجئ إلى حجم التقدم الحاصل في الذكاء الصناعي خلال السنوات القليلة السابقة خاصة بعد عقود من خيبات الأمل والعقبات التي غالبًا ما وصفت بـ “شتاء الذكاء الصناعي”. فالتعلم العميق هو قدرة الآلة على تعليم نفسها باضطراد كيفية القيام بمهام معقدة كان يُعتقد، حتى وقت ليس ببعيد، بضرورة تدخل الذكاء البشري لحلها. والآن أصبحت السيارات ذاتية القيادة أمرًا وشيكًا. وفي المستقبل القريب سنجد الأنظمة المبنية على التعلم العميق تقوم بالمساعدة على تشخيص وعلاج الأمراض.

ورغم هذا التقدم المدهش، هناك قدرة أساسية مازالت غامضة: اللغة. بإمكان أنظمة مثل siri وIBM’s Watson التجاوب مع مسألة بسيطة مكتوبة أو منطوقة لكنها عاجزة عن الشروع في محادثة وليس لديها فهم حقيقي للكلمات التي تستخدمها. وإذا أراد الذكاء الصناعي التطور في منحى فعال تمامًا، فعليه حل هذه المسألة.

لا يستطيع ألفا غو التحدث لكنه يملك تكنولوجيات من الممكن أن تؤدي إلى فهم أعمق للغة. يحاول الخبراء في كبريات مختبرات الذكاء الصناعي الأكاديمية كفيس بوك وغوغل وأمازون حل هذه المشكلة المستعصية على ما يبدو، باستخدام أدوات الذكاء الصناعي نفسها – وطبعًا التعلم العميق أحدها – التي أدت لإحيائه وفوز ألفاغو.

سيبلور نجاح هذه الأدوات ما يمكن أن يتحول إلى ثورة في الذكاء الصناعي وسيحدد إذا ما سنملك آلات يمكن التحاور معها – أي أن تصبح الآلات جزءًا من حياتنا اليومية – أم ستبقى أنظمة الذكاء الصناعي كالعلب السوداء الغامضة حتى وإن أصبحت أكثر استقلاليَّة. يقول جون تينينبوم أستاذ العلوم الإدراكية والحاسوب في MIT: “من المستحيل امتلاك آلات مشابهة للبشر من دون أن تكون ملَكة اللغة في صلبها، فاللغة من أهم الأمور المميزة للذكاء البشري”.

ربما ستتمكن الحواسيب من فهم اللغة مستخدمة الأدوات نفسها التي أدت إلى انتصار ألفا غو أو بواسطة اللجوء إلى شيء آخر. لكن، من دون فهم اللغة، سيبقى أثر الذكاء الصناعي محدودًا.

بالطبع، بمقدورنا امتلاك برامج قوية وذكية جدًا مثل ألفاغو، لكن علاقتنا بالذكاء الصناعي ستكون أقل انسجامًا وربما أقل ودًا. يقول تيري وينوغارد الأستاذ الفخري في جامعة ستانفورد: “منذ البداية واجهنا سؤالاً مهمًّا: ماذا لو كانت لدينا آلات ذكية بمعنى أنها فعالة، وليس بمعنى أن تكون مثلنا؟ تخيلوا وجود آلات مبنية على نظم البيانات الضخمة وليس على الذكاء البشري وباستطاعتها إدارة العالم؟”.

الآلات الهامسة

بعد نصر ألفا غو بشهرين تقريبًا سافرت إلى وادي السيلكون مركز آخر التطورات في الذكاء الصناعي، لزيارة الباحثين الذين يحاولون منح الآلات فهمًا أكبر للغة وهم المسؤولون عن التطورات المهمة في التطبيقات العملية للذكاء الصناعي.

بدأت مع وينوغارد، الذي يعيش في ضاحية على الحد الجنوبي لحرم جامعة كاليفورنيا في بالو ألتو، ليس ببعيد عن مقرات غوغل، وفيسبوك وآبل. شعره الأبيض المجعد وشاربه الكث منحاه هيئة الرجل الأكاديمي الموقر بالإضافة لقدرته على نقل حماسه إليك.

وبالعودة إلى عام 1968، قام وينوغارد بواحدة من أولى الخطوات لتعليم الآلة التحدث بذكاء. فعندما قَدِم إلى مختبر الذكاء الصناعي الجديد في MIT – وهو نابغة في الرياضيات مولع باللغة – قرر إنشاء برنامج قادر على التحدث مع الناس لغة الحياة اليومية عبر نص ملقِّن.

آنذاك لم يبدو طموحه غير مألوف، نظرًا للتطورات التي كانت تتلاحق في هذا المجال، وحيث كان الآخرون أيضًا في MIT يبنون منظومات رؤية حاسوبية معقدة وأذرع روبوتية مستقبلية. ويتذكر وينوغارد: “كان هناك شعور عام بوجود ممكنات غير معروفة ولا حدَّ لها”.

لم يكن الكل مقتنعًا بإمكانية تطويع اللغة، وبعض النقاد، ومنهم نعوم تشومسكي – الأستاذ في MIT وأستاذ اللغويات واسع النفوذ – رأوا أن الباحثين في الذكاء الصناعي سيعملون بجهد كبير لجعل الآلات تفهم اللغة، مغفلين أن آليات اللغة نفسها مازالت مجهولة تقريبًا.

ويتذكر وينوغارد حادثة حصلت في إحدى الحفلات التي كان يحضرها، عندما غادرها أحد طلاب تشومسكي لمجرد سماعه يقول إنه يعمل في مختبر للذكاء الصناعي.

للمتفائلين أسبابهم أيضًا، فقبل عدة سنوات كان جوزيف تينينبوب – الأستاذ في MIT وألماني المولد – قد أنشأ أول برنامج روبوت محادثة ELIZA، حيث برمجه ليتصرف كطبيب نفسي كرتوني، يكرر أجزاء رئيسية من الجمل أو يطرح أسئلة مشجعة على النقاش أكثر. مثلاً: لو أخبرت البرنامج أنك غاضب من أمك، سيجيب “ما الذي يخطر على بالك عندما تفكر بأمك؟”، خدعة بسيطة، لكنها عملت حقًا وعلى نحو مفاجئ. وما صدم وينينبوم هو قيام بعض الناس بالاعتراف بأسرارهم الدفينة أمام آلته.

أراد وينوغارد صنع شيء قادر فعلًا على فهم اللغة. بدأ سعيه بتقليص مجال المشكلة، فأنشأ بيئة افتراضية بسيطة أو BLOCK WORLD وهو عبارة عن مجموعة أشياء افتراضية موضوعة على طاولة افتراضية. ثم أنشأ برنامجًا- سماه SHRDLU (وهي كلمة اعتباطية مشكلة من أحرف الصف الثاني من الأزرار في جهاز لينوتايب) – قادرًا على إعراب كل الأسماء والأفعال والقواعد البسيطة الضرورية للإشارة إلى هذا العالم الافتراضي البسيط. استطاع SHRDLU وصف الأشياء والإجابة عن أسئلة حول العلاقات بينهم، والقيام بتغييرات في العالم الافتراضي بناءً على أوامر مكتوبة، حتى أنه امتلك نوعًا من الذاكرة: إذا طلبت منه تحريك “القمع الأحمر” ثم أشرت له “بالقمع” فسيفترض أنك عنيت القمع الأحمر وليس أي قمع من لون آخر. اعتُبر SHRDLU دليلًا على إنجاز تقدم كبير في الذكاء الصناعي، لكنه ما كان سوى وهم. فعندما أراد وينوغارد تطوير برنامجه تطلبت القواعد تفسير الكلمات الأساسية وأصبحت التعقيدات القواعدية غير محتملة. لم يلزمه الأمر إلا بضع سنوات ليستسلم ويترك البحث في الذكاء الصناعي ليركز على مجالات بحث أخرى. ويضيف: “كانت الحدود أقرب بكثير مما اعتقدناه في البداية”.

ختم وينوغارد أنه كان من المستحيل جعل الآلات تفهم اللغة باستخدام أدوات ذاك الزمان. ويذكر هيوبرت دريفوس Hubert Dreyfus – أستاذ الفلسفة في بيركلي – في كتابه ما لا تستطيع الحواسيب فعله What Computers Can’t Do (1972) أن الكثير من الأمور التي يقوم بها الإنسان تحتاج إلى نوع خاص من الذكاء الفطري وهنا تكمن المشكلة، فلا يمكن حوسبة هذا الذكاء عبر قوانين صارمة ومباشرة.

ولهذا السبب بالضبط شكك الكثير من الخبراء قبل المباراة بين ألفاغو وسيدول بقدرة الآلة على إتقان الغو.

عندما كان درايفوس يعرض رأيه هذا، كان بعض الباحثين يطورون طريقة قد تعطي الآلات هذا النوع من الذكاء. ومستوحين من علوم الأعصاب، ولو على نحو طفيف، كانوا يجرون التجارب بوسطة شبكات عصبية صنعية – طبقات من الأعصاب التي يتم محاكاتها رياضيًا ومن الممكن تدريبها على التحفز استجابة لمدخلات معينة. وبشكل حاسم، أثبت التجارب قدرة الشبكات العصبية على تعلم القيام بأمور لم يتم برمجتها عليها يدويًا، ولاحقًا استُفيد منها في أداء مهمات بسيطة على حروف خط اليد، وهي ميزة تم تسويقها في تسعينيات القرن الماض لقراءة أرقام الشيكات. تعهد مؤيدو هذا المنحى بأن الشبكات العصبية مستقبلًا ستكون قادرة على جعل الآلات تقوم بمهمات أكثر بكثير، حتى أنهم ادَّعوا أن هذه التكنولوجيا ستستطيع فهم اللغة.

خلال السنوات القليلة السابقة، أصبحت الشبكات العصبية أكثر تعقيدًا واستطاعة. استفادت هذه الطريقة من تحسينات رياضية أساسية معتمدة بشكل رئيسي على عتاد الحواسيب السريعة وكميات البيانات الضخمة. فبحلول 2009 استطاع الباحثون في جامعة تورونتو إثبات قدرة شبكات التعلم العميق متعددة الطبقات على التعرف الصوتي بدقة لم يسبقهم إليها أحد، وثم في 2012 فازت المجموعة ذاتها في منافسة في تعرف الآلة البصري باستخدام خوارزمية تعلم عميق كانت دقيقة بشكل مدهش.

تتعرف شبكات التعلم العميق العصبية على الأشياء في الصور باستخدام حيلة بسيطة. تتلقى طبقة من الأعصاب المحاكاة المدخل على شكل صورة، تنشط بعض هذه الأعصاب بالاستجابة لكثافة البيكسلات المفردة، ثم تمر الإشارة الناتجة عبر عدة طبقات أعصاب متداخلة أخرى قبل أن تصل لطبقة المخرجات لتدل على أن الشيء قد تمت رؤيته. تستخدم تقنية رياضية تعرف بالانتشار الخلفي لضبط كثافة أعصاب الشبكة كي تعطي الإجابة الصحيحة، فهذه هي الخطوة التي تمكن النظام من التعلم. وتتجاوب عدة طبقات داخل الشبكة مع ميزات محددة كالحافة واللون أو النسيج. باستطاعة هذه الأنظمة اليوم التعرف على الأشياء، والحيوانات والوجوه بدقة تنافس القدرة البشرية.

تختلف الكلمات عن الصور بكونها رموز اعتباطية لذلك يوجد مشكلة جلية في تطبيق التعلم العميق على اللغة. بإمكان كلمتين إعطاء المعنى نفسه مع أنهما تتشكلان من حروف مختلفة، وكذلك يمكن الكلمة نفسها أن تعطي عدة معاني باختلاف السياق.

في ثمانينيات القرن الماضي، أتى الباحثون بفكرة ذكية حول كيفية جعل اللغة مفهومة بالنسبة للشبكات العصبية، فقالوا بإمكانية تمثيل الكلمات كنواقل رياضية تسمح بالربط بين الكلمات المتشابهة ليتم حسابها. مثال: “قارب” و”ماء” كلمتان متقاربتان في مجال الناقل على الرغم من كونهما تبدوان مختلفتين. استخدم الباحثون في جامعة تورونتو بقيادة Yoshua Bengio ومجموعة أخرى من غوغل هذه الفكرة لبناء شبكات حيث تبني كل كلمة في الجملة تمثيلات معقدة أكثر – وهو ما يدعوه Geoffrey Hinton، الأستاذ في جامعة تورونتو، الباحث البارز في التعلم العميق الذي يعمل بدوام جزئي في غوغل، بـ “ناقل الأفكار”.

باستخدام شبكتين من هذا النوع، سنتمكن من الترجمة بين لغتين وبدقة شديدة. بجمع هكذا شبكات مع أخرى مصممة للتعرف على الأشياء بالصور، سيكون من الممكن استحضار صور مفاجئة ومحتملة.

غاية الحياة

ألتقيت كيوك لي Quoc Le، أحد المساعدين في تطوير هذه الطريقة، في قاعة المؤتمرات في قلب مقر غوغل النشيط دومًا، في ماونتين فيو Mountain View في كاليفورينا، متأملاً فكرة آلة قادرة على الدخول في نقاش سليم، تأمله هذا يقع في قلب فكرة كيف للآلات الناطقة أن تكون مفيدة: “أريد طريقة لمحاكاة الأفكار في الآلة”، وأضاف: “إذا أردت محاكاة الأفكار، فعليك أن تكون قادرًا على سؤال الآلة عمَّا تفكر به”.

تدرس غوغل حواسيبها أصلاً أساسيات اللغة. ففي شهر أيار من هذا العام، أعلنت الشركة عن برنامج Parsey McParseface وهو قادر على التعامل مع نحو النص، محددًا الأسماء والأفعال وعناصر النص الأخرى. وليس من الصعب طبعًا رؤية إلى أي حدٍّ يمكن أن يكون مفيدًا للشركة فهمٌ أفضل للغة. اعتادت خوارزميات بحث غوغل فقط على الربط بين الكلمات المفتاحية والروابط عبر صفحات الإنترنيت. حاليًا، بإمكاننا استخلاص المعنى من النصوص في صفحات الانترنيت والحصول على معلومات أفضل باستخدام برنامج يدعى RankBrain. يريد لِي الذهاب بذلك أبعد بكثير، فباعتماده على برنامجٍ كان قد أثبت فاعليته في الترجمة وتحليل الصور، قام هو وفريقه بوضع برنامج Smart Reply يقرأ رسائل جي ميل ويقترح مجموعة من الردود المحتملة. أيضًا، وضع برنامجًا يتعلم من سجلات محادثات فريق دعم غوغل لتكنولوجيا المعلومات كيفية الإجابة عن الاستفسارات التقنية.

حديثًا، بنى لي برنامجًا قادرًا على إنتاج أجوبة ممكنة للأسئلة المفتوحة، وتم تعليم البرنامج عن طريق إعطائه محاورات من 18، 900 فلم. بعض الأجوبة تكون مناسبة تمامًا بشكل مذهل. مثلًا: سأله لِي: “ما هي غاية الحياة؟” فأجابه البرنامج: “خدمة الخير العام”، ثم تذكر لي مع ابتسامة كبيرة: “كانت إجابة جيدة حقًا، ربما أفضل مما كنت سأجيب به”.

عندما تنظر في عدة أجوبة من النظام، ستكتشف سريعًا مشكلة محددة. عندما سأله لي: “كم رجلًا للقطة؟” أجاب البرنامج: “أربعة على ما أظن”، ثم سأله: “كم رجلًا لدى أم أربع وأربعين؟” أجاب بغرابة: “ثمانية”. في الأساس، البرنامج غير مدرك لما يقوله. يفهم البرنامج فقط أن عدة رموز تتوافق مع بعضها، لكن ليس لديه أي حس بالعالم الخارجي، فهو لا يعلم كيف تبدو أو كيف تتحرك أم أربع وأربعين. من دون حس الذكاء البشري العام البديهي سيظل ذكاء الآلة ذكاءً وهميًا. لهذا غالبًا ما يكون التعلم العميق مزعزعًا بهذا الشكل. نجد أخطاء غريبة في البرنامج الذي صنعته غوغل لتوليد التسميات التوضيحية للصور، مثلًا عندما يصف إشارة الطريق كثلاجة مليئة بالطعام!

وبمحض مصادفة غريبة، كان جار تيري وينوغار في بالو ألتو هو ذلك الشخص الذي قد يستطيع إكساب الحواسيب القدرة على فهم الكلمات بشكل أعمق. دعتني في في لي Fei-Fei Li – مديرة مخبر الذكاء الصناعي في جامعة ستانفورد – إلى منزلها وكانت تقضي إجازة الأمومة، وقدمت لي بسعادة فوينيكس، طفلتها الجميلة ذات الثلاث أشهر. “لاحظ كيف تنظر إليك أكثر مني”، قالت لي وابنتها وتحدق بي، وأضافت: “لأنك شخص جديد، وهذا ما يدعى بالتعرف البصري المبكر”.

أمضت لي أغلب عملها بالبحث في تعلم الآلة وتعرف الحواسيب البصري. فقبل عدة أعوام، قادت فريقًا لبناء قواعد معلومات لملايين الصور، وكل منها مشار لها بكلمة مفتاحية مناسبة. تعتقد لي بحاجة الآلات لفهم متطور أكثر عن العالم الخارجي، وهذا العام أعلن فريقها عن قاعدة بيانات صور أخرى، وكل منها مشروح بشكل أغنى بكثير، فتمت الإشارة لكل صورة منها مع عشرات الجمل الشارحة: “كلب يتزلج على لوح”، “كلب لديه فرو كثيف ناعم”، “الطريق متصدع” وهكذا… يؤمل أن تستطيع أنظمة تعلم الآلة فهم العالم المادي بشكل أفضل، قالت لي: “يتلقى الجزء المسؤول عن اللغة في الدماغ الكثير من المعلومات، بالإضافة إلى المعلومات التي يتلقاها من النظام البصري. سيحاول جزء أساسي من الذكاء الصناعي التكامل مع هذه الأنظمة”.

الأمر أقرب إلى طريقة تعلم الأطفال عبر ربط الكلمات مع الأشياء والعلاقات والأفعال. فالأطفال ليسوا بحاجة لرؤية كلب على لوح تزلج كي يتخيلوه أو يصفوه كلاميًا. تعتقد لي بأن تعلم الآلة بأدواته الحالية لن يكون قادرًا على إيجاد ذكاء صناعي حقيقي، وتكمل: “لن يكون فقط تعلم عميق ذو معطيات ضخمة”، وأيضًا تعتقد بوجوب اعتبار الذكاء العاطفي والاجتماعي. لتختم قائلة: “نحن، البشر، سيؤون بحساب المعطيات الضخمة، لكننا رائعون بحساب التجريد والإبداع”.

لا يعلم أحد كيفية إكساب الآلة صفات البشر هذه، في حال كان ذلك ممكنًا من الأصل. فهل يوجد شيء مميز حصرًا للبشر في هذه الصفات مما يجعلهم خارج نطاق الذكاء الصناعي؟

يفترض العلماء الإدراكيون، كالأستاذ تينينبوم، وجود مكونات أساسية في الدماغ مازالت تنقص الشبكات العصبية الحالية، بغض النظر عن حجمها. فالبشر يملكون القدرة على التعلم سريعًا بالاعتماد على معطيات قليلة نسبيًا ويتمتعون بنظام فطري يمكنهم من تصور العالم بشكل ثلاثي الأبعاد بشكل فعال جدًا، ويضيف: “تعتمد اللغة على قدرات قد تكون بدائية أكثر، وتكون حاضرة عند الأطفال الرضع قبل امتلاكهم للغة: إحساسهم بالعالم بصريًا، التصرف حسب نظامهم الحركي، فهم العالم المادي أو ما يريده الآخرون”.

فاذا صح ما يقوله، سيكون من الصعب جدًا إعادة تشكيل فهم اللغة في الآلة وأنظمة الذكاء الصناعي من دون محاولة محاكاة التعلم البشري، وبنية العقل البشري وعلم النفس.

عبر عن نفسك

مكتب نوح غودمان Noah Goodman، في قسم علم النفس، جامعة ستانفورد، خالي تقريبًا عدا عن بضعة لوحات تجريدية معلقة على الحائط والقليل من النباتات الكبيرة. عندما وصلت كان يطبع على حاسوبه الشخصي رافعًا قدميه العاريتين على الطاولة. مشينا في حرم الجامعة المشمس ونحن نشرب القهوة المثلجة. يقول شارحًا: “تكمن خصوصية اللغة في كونها تعتمد على معرفة كبيرة بها نفسها، وأيضًا على كمية هائلة من المعلومات المتحصلة من المعرفة البديهية حول العالم”.

طور غودمان مع طلابه لغة برمجة تدعى Webppl، باستطاعتها إعطاء الحواسيب حس مشترك common sense احتمالي، واتضح لاحقًا أنه يمكن أن يكون مفيدًا في النقاشات. استطاعت إحدى النسخ التجريبية فهم ألعاب الكلمات وأخرى استطاعت التعامل مع المبالغة اللغوية. فعند إخبار البرنامج، مثلًا، أن أحدهم اضطر للانتظار “إلى الأبد” كي يحصل على طاولة في مطعم ما، سيقرر البرنامج أتوماتيكيًا أن المعنى الحرفي هنا غير دقيق وأنه فقط انتظر طويلاً وتكدر بسبب ذلك. مازال النظام بعيدًا عن الذكاء الحقيقي، لكنه يُظهر طرقًا جديدة تساعد بجعل برامج الذكاء الصناعي تحس بشكل نابض بالحياة أكثر.

وفي الوقت نفسه، يظهر مثال غودمان، مدى صعوبة تعليم اللغة للآلة. وعلى الرغم من أنه إنجاز بسيط وبدائي فإن فهم المعنى السياقي لـ “الأبد” هو فعلاً ما تحتاج أنظمة الذكاء الصناعي تعلمه.

“أرغب بطريقة لمحاكاة الأفكار ضمن الآلات، وإذا أردت محاكاة الأفكار يجب عليك حينها أن تكون قادرًا على سؤال الآلة بماذا تفكر”.

بالرغم من تعقيد وصعوبة المشكلة، فإن النجاح المذهل الذي وصل إليه العلماء باستخدام تقنيات التعلم العميق للتعرف على الصور وإتقان الألعاب مثل لعبة غو أعطى على الأقل الأمل بأننا قد نكون على وشك تحقيق تقدم مفاجئ في اللغة أيضًا. حينها، تلك التطورات ستأتي في الوقت المطلوب. إذا كان الذكاء الصناعي بمثابة أداة شمولية موجودة في كل مكان يستخدمها الناس لزيادة ذكائهم وثقتهم لتولي المهام بتعاون سلس، فإن اللغة ستكون هي المفتاح. سيكون ذلك صحيحًا خصوصًا باستخدام أنظمة الذكاء الصنعي للتعلم العميق بشكل متزايد وغيرها من التقنيات لتبرمج البرامج نفسها ذاتيًا.

يقول جون ليونارد، وهو أستاذ في معهد ماساتشوستس للتكنولوجيا، والذي يقوم بأبحاث في مجال القيادة الآلية: “عمومًا، أنظمة التعلم العميق مذهلة، ولكن من ناحية أخرى، من الصعب حقًا فهم كيفية عملها”.

بدأت تويوتا، التي تدرس مجموعة واسعة من تقنيات القيادة الذاتية، مشروع بحثي في معهد ماساتشوستس للتكنولوجيا بقيادة جيرالد سوسمان، وهو خبير في مجال الذكاء الصناعي ولغات البرمجة، لتطوير أنظمة القيادة الآلية القادرة على تفسير سبب اتخاذ إجراء معين. والطريقة الواضحة لتقوم الآلة بذلك هو التحدث. يقول ليونارد الذي يقود مشروعًا بحثيًا آخر في معهد ماساتشوستس للتكنولوجيا: “بناء أنظمة لديها معرفة بماذا تعرف هو حقًا مشكلة صعبة، ولكن من الناحية المثالية إنها لا تعطي الجواب فقط وإنما تقوم بالتفسير أيضًا”.

بعد أسابيع قليلة من العودة من كاليفورنيا، شاهدت ديفيد سيلفر، الباحث في غوغل ديب مايند Google DeepMind مصمم ألفا غو، يتحدث في مؤتمر أكاديمي في نيويورك حول اللعبة التي جرت ضد اللاعب الشهير لي سيدول. أوضح سيلفر أنه حين قام البرنامج بالنقلة القاتلة في اللعبة الثانية تفاجأ الفريق تمامًا كأي شخص آخر. كل ما أمكن رؤيته كان خلاف توقع فوز ألفا غو، والذي تغير قليلاً بعد الخطوة السابعة والثلاثين. وكان ذلك في وقت لاحق بعد عدة أيام فقط، بعد تحليل دقيق، حيث أعلن فريق غوغل عن اكتشاف مهم: من خلال فهم الجولات السابقة، قام البرنامج بحساب فرص قيام اللاعب بنفس الحركة فكان الاحتمال هو واحد من 10000. وبممارسته للألعاب أظهر أيضًا أن طريقة اللعب قدمت ميزة في تحديد المواقع المحكمة على نحو غير اعتيادي.

بطريقة ما، كانت الآلة تعلم بأن لي سيدول سيكون مصدومًا تمامًا.

قال سيلفر: “تدرس غوغل عدة خيارات لتسويق التكنولوجيا، بما في ذلك المساعد الذكي وأداة الرعاية الصحية”. بعد ذلك، سألته حول أهمية أن تكون قادرًا على التواصل مع الذكاء الصناعي خلف تلك الأنظمة. “هذا سؤال رائع، بالنسبة لبعض التطبيقات يمكن أن يكون مهمًا. ففي مجال الرعاية الصحية، يمكن أن يكون مهمًا من أجل معرفة سبب اتخاذ قرار ما”.

في الواقع، عندما تصبح أنظمة الذكاء الصناعي أكثر تطورًا وتعقيدًا، فإنه من الصعب تصور كيفية التعامل معهم من دون لغة، من دون أن تكون قادر أن تطرح عليهم السؤال التالي “لماذا؟”. أكثر من ذلك، القدرة على التواصل مع الحواسيب بسهولة سوف تجعلهم أكثر فائدة بشكل غير محدود، وسوف تشعر أن ليس هنالك من شيء أقل سحرًا. وبعد كل ذلك، اللغة هي أقوى طريقة تمكننا من فهم العالم والتفاعل معه. ولقد حان الوقت لتصبح آلاتنا كذلك.

[1] الغُو  Goلعبة تلعب على لوحة منقسمة بتسعة عشر سطرًا قائمًا وتسعة عشر سطرًا تقطعها في زوايا قائمة. وفي لعبها يتبادل لاعبان وضع حجارة من لونين ويتحكم كل لاعب بالصخرات من أحدهما على مقاطع السطور وفي لوحة عادية هناك 361 منها. ويتبارى اللاعبان في الإحاطة بأكبر قطر تحددها صخرات من لون واحد. ومع أن قواعد اللعبة بسيطة، فإنها تتطلب الاستراتيجية الباطنة ومن الممكن أن يقضي شخص الحياة في دراستها دون الوصول إلى فهمها الكامل.

MIT Technology Review، August

(معابر)