شکست انسان توسط هوش مصنوعی دیپ مایند در بازی های چند نفره

شکست انسان توسط هوش مصنوعی دیپ مایند در بازی های چند نفره

  • توسط : معصومه حیدری
  • در : ۱۴۰۰-۰۳-۰۴
  • در : دانستنیها

مقدمه

امروزه هوش مصنوعی به اندازه ای توسعه یافته که قادر است بازیکنان انسانی را در بازی های چند نفره شکست دهد. دانشمندان هوش مصنوعی (AI) در آزمایشگاه DeepMind، اثبات نموده اند که ماشین ها قادر به یادگیری مهارت ها در بازی ها هستند. لذا هوش مصنوعی بازی ویدئویی چند نفره را یاد می گیرد. در مورد شکست انسان توسط هوش مصنوعی دیپ مایند بیش تر صحبت خواهیم کرد.

شکست انسان توسط هوش مصنوعی دیپ مایند در بازی های چند نفره

هوش مصنوعی قادر است تا بازی های ویدئویی چند نفره را یاد بگیرد.

شکست انسان توسط هوش مصنوعی دیپ مایند - هوش مصنوعی بازی ویدئویی چند نفره را یاد می گیرد.

شکست انسان توسط هوش مصنوعی دیپ مایند – هوش مصنوعی بازی ویدئویی چند نفره را یاد می گیرد.

پیش از این حتی برای الگوریتم های بسیار پیچیده تصور می شد که یک عامل هوش مصنوعی ساخته شده است که می تواند در بازی های چند نفره آنلاین پیروز شود.

با استفاده از چیزی غیر از همان نقطه نظر مبتنی بر پیکسل و دانش وضعیت بازی به عنوان بازیکنان انسانی، دانشمندان به سرپرستی مکس جادربرگ (Max Jaderberg) در شرکت تحقیقاتی DeepMind متعلق به گوگل، عوامل هوش مصنوعی، برای اجرای نمونه ای از بازی محبوب Quake III Arena، به نام Capture the Flag، که دو تیم را در محیط های ایجاد شده به طور تصادفی در مقابل یکدیگر قرار می دهد، تولید کردند. در بازی تسخیر پرچم، هر گروه در تلاش است تا در عین حفاظت از پرچم خودش، پرچم تیم مقابل را نیز در اختیار گرفته، به پایگاه خودش بیاورد. پیروزی در این بازی نیاز به همکاری گروهی حرفه ای داشته و باید بین دفاع و حمله، تعادلی کامل برقرار شود.

تیم با کمک تکنیک های یادگیری تقویتی (reinforcement learning) در گیم پلی موازی، عواملی را ایجاد کردند که پس از ۴۵۰،۰۰۰ بازی، ربات ها توانستند بازیکنان حرفه ای (انسانی) را در چنین محیط پیچیده ای با متغیرهای بسیار، شکست دهند که کار کوچکی نیست.

یکی از سه پارادایم یادگیری ماشین، همراه با یادگیری نظارت شده و بدون نظارت این است که یادگیری تقویتی از جفت های ورودی – خروجی قطعی استفاده نمی کند و خواستار اصلاح یا پاک کردن اقداماتی که بی عیب نیستند، نمی باشد.

در عوض، کشف یک دامنه ناشناخته و بهره از هر گونه دانش جمع آوری شده در مورد آن را متعادل می کند، مناسب برای شرایط در حال تغییر در تعداد زیادی از عوامل، مانند افرادی که در یک بازی چند نفره آنلاین حضور دارند.

شکست انسان توسط هوش مصنوعی دیپ مایند - هوش مصنوعی بازی ویدئویی چند نفره را یاد می گیرد.

شکست انسان توسط هوش مصنوعی دیپ مایند – هوش مصنوعی بازی ویدئویی چند نفره را یاد می گیرد.

هدف از مطالعه DeepMind عواملی بود که در زمان شروع با همان اطلاعاتی که بازیکن انسانی در اختیار دارد، یاد بگیرد. این به معنای عدم دانش سیاست و عدم توانایی برقراری ارتباط و به اشتراک گذاری یادداشت ها در بیرون از بازی است، در حالی که تکرارهای قبلی کارهای مشابه، مدل های نرم افزاری از محیط و یا وضعیت سایر بازیکنان را ارائه می داد.

هوش مصنوعی سپس به مانند یک بازیکن انسانی، در مورد استراتژی که برای یک نقشه جدید قابل استفاده است، تجربه کسب می کند، حتی اگر چیزی در مورد طرح و توپولوژی آن، هدف و یا موقعیت بازیکنان دیگر نداند.

در چنین شرایطی، جادربرگ و همکارانش می نویسند که نتیجه حاصله برای ارائه سیگنال یادگیری معنا دار به اندازه کافی نامشخص است.

روند کار یادگیری تقویت یک فرایند دو مرحله ای است که در آن بهینه سازی رفتار یک عامل برای پاداش با پارامترهای فراتر (hyper-parameters) از کل مجموعه داده مطابقت دارد. عوامل عملکرد ضعیف با نتیجه تغییر یافته جایگزین می شوند که آموزه های یاد گرفته شده را درونی می کنند. روشی که آموزش مبتنی بر جمعیت نیز نامیده می شود.

نتایج به دست آمده قابل توجه است. حتی زمانی که سیستم زمان واکنش عوامل را به سطح متوسط انسانی کاهش می دهد، آن ها هنوز هماهنگ هستند و فراتر از عملکرد انسانی عمل می کنند. عوامل هوش مصنوعی تاکتیک های برنده را که معمولاً توسط بازیکنان انسانی استفاده می شد، کشف و به کار گرفته بود.

اما فوت کوزه گری ممکن است در روش چند بازی موازی وجود داشته باشد. سیستم های یادگیری خودکار مشابه باعث می شود تا عوامل هوش مصنوعی آن چه را که در خلال سیاست های خود در یک تمرین آموخته اند آزمایش کنند، آن ها به معنای واقعی کلمه علیه خودشان بازی می کنند.

شکست انسان توسط هوش مصنوعی دیپ مایند - هوش مصنوعی بازی ویدئویی چند نفره را یاد می گیرد.

شکست انسان توسط هوش مصنوعی دیپ مایند – هوش مصنوعی بازی ویدئویی چند نفره را یاد می گیرد.

اما اگر چه ربات هایی که در Quake III Arena عالی عمل می کنند، ممکن است جالب توجه باشند، محققان متذکر می شوند که آن مقیاس پذیری رویکردی که ارائه دهنده برنامه های جذاب در سیستم های چند عاملی است که در آن به یادگیری پایدار نیاز است.

کلام پایانی

دیپ مایند از توانایی های سیستم هوش مصنوعی جهت استفاده در محیط های پیچیده ی دنیای واقعی می گوید. شرکت دیپ مایند، جزئیاتی را در رابطه با الگوریتمی منتشر کرده که قادر است بازی ها را در سطحی فوق بشری یاد بگیرد و این یادگیری در شرایطی که سیستم از قواعد بازی بی خبر است، رخ خواهد داد. دستاوردی بزرگ که گامی عظیم در جهت پیشبرد هوش مصنوعی می باشد و نوید بخش سیستم هایی است که می توانند با شرایط نامشخص و پیچیده در دنیای واقعی کنار آیند.