وقد أتقن سلالة جديدة من الخوارزميات ألعاب فيديو Atari بسرعة 10 مرات أسرع من AI المتقدمة ، مع نهج اختراق لحل المشكلات.

إن تصميم الذكاء الاصطناعي الذي يمكنه التفاوض حول مشاكل التخطيط ، خاصة تلك التي لا تكون فيها المكافآت واضحة على الفور ، هو أحد أهم تحديات البحث في تطوير الحقل.

أظهرت دراسة 2015 الشهيرة أن برنامج Google DeepMind AI تعلّم لعب ألعاب فيديو Atari مثل Video Pinball إلى المستوى البشري ، لكنه فشل بشكل كبير في تعلم المسار إلى المفتاح الأول في لعبة فيديو Montezuma Revenge في الثمانينيات نظرًا لتعقيد اللعبة.

في الطريقة الجديدة التي تم تطويرها في جامعة RMIT في ملبورن ، أستراليا ، تم إعداد أجهزة الكمبيوتر للعب انتقام Montezuma المستقل من الأخطاء وتحديد الأهداف الفرعية 10 مرات أسرع من Google DeepMind لإنهاء اللعبة.

كشف الأستاذ المساعد فابيو زامبيتا من جامعة RMIT النقاب عن النهج الجديد هذا الجمعة في مؤتمر AAAI 33 الذكاء الاصطناعي في الولايات المتحدة.

وتجمع هذه الطريقة ، التي تم تطويرها بالتعاون مع البروفيسور جون ثانغاراجاه ، ومايكل دان ، من جمعية RMIT ، بين التعلم التعزيزي "الجزرة والعصوية" مع نهج الحافز الجوهري الذي يكافئ الذكاء الاصطناعي على فضوله واستكشاف بيئته.

تقول زامبيتا: "تحتاج الذكاء الاصطناعي الذكي حقاً إلى أن يكون قادراً على تعلم إنجاز المهام بشكل مستقل في بيئات غامضة".

"لقد أظهرنا أن النوع الصحيح من الخوارزميات يمكن أن يحسِّن النتائج باستخدام أسلوب أكثر ذكاءً بدلاً من كونه طائشًا بحتًا ، مما يؤدي إلى حل مشكلة من النهاية إلى النهاية على أجهزة كمبيوتر قوية جدًا.

"تظهر نتائجنا مدى اقترابنا من منظمة العفو الدولية المستقلة ، ويمكن أن تكون خطًا رئيسيًا للتحقيق إذا أردنا الاستمرار في إحراز تقدم كبير في هذا المجال".

تكافئ طريقة زامبيتا النظام من أجل استكشاف أهداف فرعية مفيدة بشكل مستقل مثل "تسلق هذا السلم" أو "القفز فوق تلك الحفرة" ، والتي قد لا تكون واضحة لجهاز الكمبيوتر ، في سياق إكمال مهمة أكبر.

وقد تطلبت الأنظمة الحديثة الأخرى إدخال الإنسان لتحديد هذه الأهداف الفرعية وإلا قررت ما يجب فعله بعد ذلك بشكل عشوائي.

تقول زامبيتا: "لم تحدد خوارزمياتنا بشكل مستقل المهام ذات الصلة بشكل أسرع عشر مرات تقريبًا من Google DeepMind أثناء لعب ثأر Montezuma ، كما أظهرت سلوكًا شبيهًا بالإنسان أثناء القيام بذلك".

"على سبيل المثال ، قبل أن تتمكن من الوصول إلى الشاشة الثانية من اللعبة ، تحتاج إلى تحديد المهام الفرعية مثل تسلق السلالم ، والقفز فوق عدو ، ثم التقاط مفتاح في النهاية ، تقريبًا بهذا الترتيب.

"سيحدث هذا في النهاية بشكل عشوائي بعد فترة طويلة من الوقت ولكن حدوث ذلك بشكل طبيعي في اختبارنا يظهر نوعا من النوايا.

"هذا يجعلنا أول وكيل مستقل تمامًا للهدف الفرعي ليكون منافسًا حقيقًا مع وكلاء على أحدث طراز في هذه الألعاب."

وقال زامبيتا إن النظام سيعمل خارج ألعاب الفيديو في نطاق واسع من المهام ، عندما يتم تزويده بمدخلات بصرية أولية.

" قد يبدو إنشاء خوارزمية يمكنها إكمال ألعاب الفيديو أمراً تافهاً ، لكن الحقيقة التي صممناها والتي يمكنها التغلب على الغموض في حين أن الاختيار من بين عدد من الإجراءات المحتملة هو تقدم هام للغاية.

"هذا يعني أنه مع مرور الوقت ، ستكون هذه التكنولوجيا ذات قيمة لتحقيق أهداف في العالم الحقيقي ، سواء في السيارات ذاتية القيادة أو كمساعدون آليون مفيدون مع التعرف على اللغة الطبيعية ،" يقول.

سيتم عرض اشتقاق الأصناف الفرعية بشكل مستقل لتسريع التعلم في نطاقات المكافآت المتفرقة (مرفق) في مؤتمر AAAI 33 الذكاء الاصطناعي في هونولولو ، هاوا

Premium Finance Portal

تسن

8

7

6

5

4

3

2

1

ا انا

ccccff

أتاري ماستر: تحطم منظمة العفو الدولية الجديدة Google DeepMind في تحدي ألعاب الفيديو

Comments

Post a Comment

Search Financial & Loan Deals