شکست بهترین ها در محبوبترین بازی شرط بندی جهان، پوکر

شکست بهترین ها در محبوبترین بازی شرط بندی جهان، پوکر

  • توسط : معصومه حیدری
  • در : ۱۴۰۰-۰۳-۰۴
  • در : دانستنیها

مقدمه

هوش مصنوعی Pluribus توانست پوکر بدون محدودیت چند نفره را شکست دهد. محققان بیان می کنند که رویکردهایی که توسط Libratus جهت پیروزی در این بازی استفاده می شده بر مبنای دانش تخصصی انسان نیست و در حقیقت آن ها به طور خاص برای بازی پوکر طراحی نشده اند و می توان برای دیگر بازی ها که حاوی اطلاعات ناقص اند نیز مورد استفاده قرار گیرند. در ادامه بیش تر در مورد شکست پوکربازهای حرفه ای توسط هوش مصنوعی و پیروزی هوش مصنوعی بر پوکربازها صحبت می کنیم.

شکست پوکربازهای حرفه ای توسط هوش مصنوعی

به نظر می رسد سیستم جدید هوش مصنوعی (AI) که Pluribus نامیده می شود توانسته دانشمندان علوم کامپیوتر را به وجد آورده و همچنین قمار بازان حرفه ای را در سرتاسر دنیا وحشت زده نماید.

شکست پوکربازهای حرفه ای توسط هوش مصنوعی و پیروزی هوش مصنوعی بر پوکربازها

شکست پوکربازهای حرفه ای توسط هوش مصنوعی و پیروزی هوش مصنوعی بر پوکربازها

در مقاله ای که در مجله Science منتشر شده است، ذکر شده که هوش مصنوعی Pluribus یک سیستم خود فراگیر می باشد که این توانایی را دارد تا با شش بازیکن بدون محدودیت پوکر در تگزاس هولدم (Texas hold’em poker) مبارزه کند و همه بازیکنان، حتی افراد حرفه ای را شکست دهد.

این دستاورد (گزارش مخترعین نوآم براون (Noam Brown) و توئوماس سندهلم (Tuomas Sandholm)، از دانشگاه کارنگی ملون در ایالات متحده) نقطه عطفی بسیار مهم در توسعه هوش مصنوعی به حساب می آید.

تحقیقات اخیر سیستم هایی را تولید کرده است که قادر به خود فراگیری (self-learning) هستند و می توانند بازی تخته ای Go و بازی های ویدیویی آنلاین Dota 2 و StarCraft را یاد بگیرند.

تفاوت اساسی بین این سرگرمی ها و کارت بازی مورد علاقه Pluribus در این است که در اولی، همه به عنوان بازی هایی دو نفره ساخته شده اند که همین امر در مورد سایر بازی های تسلط یافته به هوش مصنوعی (البته آموزش دیده و نه خود فراگیر) مانند شطرنج و چکرز نیز صدق می کند.

پوکر یک نمونه از بازی ها با اطلاعات ناقص است. زیرا هیچ کدام از بازیکنان در هیچ نقطه ای از این بازی از تمامی المان های بازی اطالاعی ندارند و قادر نیستند تا دست بازیکن دیگر را دیده و یا حدس بزنند که دیگری چه حرکتی قرار است انجام دهد، اما بازی هایی مثل شطرنج و بازی تخته ای گو، از جمله بازی هایی با اطلاعات کامل هستند و تمامی اطلاعات مربوطه، جلوی چشم دو بازیکن قرار گرفته است.

براون و ساندولم بیان می کنند که این وجه تمایز، یک مسئله ساده نیست که از آن بتوان به راحتی گذشت.

شکست پوکربازهای حرفه ای توسط هوش مصنوعی و پیروزی هوش مصنوعی بر پوکربازها

شکست پوکربازهای حرفه ای توسط هوش مصنوعی و پیروزی هوش مصنوعی بر پوکربازها

پوکر از جمله بازی های حاصل جمع صفر یا مجموع صفر (Zero-sum Game) است، بر طبق این تعریف بازی، سود یک نفر با زیان فرد دیگر یکسان است، در نتیجه تغییر خالص سود، صفر می شود. البته بازی های مجموع صفر می توانند بیش از دو بازیکن و یا دارای میلیون ها شرکت کننده باشند.

در بازی های مجموع صفر، وقتی بازیکنی شکست می خورد، دیگری برنده خواهد شد و این بدان معنا است که با کشف یک نقطه ریاضی که به عنوان تعادل ناش (Nash equilibrium) شناخته می شود، می توان بر دیگری مسلط شد.

نویسندگان در ادامه توضیح می دهند که تعادل ناش، لیستی از استراتژی ها، برای هر بازیکن است كه در آن هیچ بازیكنی با انحراف به استراتژی متفاوت، نمی تواند پیشرفت كند.

برای بازی های دو نفره، یافتن تعادل نش، نسبتاً آسان خواهد بود. نویسندگان از مثال بازی سنگ کاغذ قیچی استفاده می کنند. با استقرار سه حالت که دارای احتمالات برابری هستند، هیچ یک از بازیکنان پس از چندین مرتبه بازی، نمی توانند با اختلافی قابل توجه برنده و یا بازنده شوند و هر دو به تعادل نش پایبند می باشند.

اما به محض این که یکی از بازیکنان استراتژی خودش را تغییر می دهد، (به عنوان مثال استفاده از کاغذ فقط برای یک دوره)، بازیکن دیگری برنده خواهد شد.

شکست پوکربازهای حرفه ای توسط هوش مصنوعی و پیروزی هوش مصنوعی بر پوکربازها

شکست پوکربازهای حرفه ای توسط هوش مصنوعی و پیروزی هوش مصنوعی بر پوکربازها

همان طور که بیان شد، تعادل نش از نظر تئوریک، برای بازی هایی که بیش از دو بازیکن دارند نیز وجود دارد، اما شناسایی آن ها بسیار دشوارتر است. لذا کاربرد عملی کمی دارند یا هیچ کاربردی نخواهد داشت. علاوه بر این، بازی های چند نفره از جمله پوکر ذاتاً به اطلاعات پنهان متکی می باشند (مقادیر کارت که فقط برای هر بازیکن مشخص است).

و این یکی از دلایل مهمی بود که براون و ساندولم، برای هوش مصنوعی Pluribus، از رویکرد خود فراگیری استفاده کردند. با انجام بازی هزاران بار، در برابر تکرارهای قبلی، این سیستم قادر به ایجاد استراتژی هایی مبتنی بر احتمال محض، (فارغ از تأثیر عادت و سنت پوکر ذاتی) بود.

نویسندگان نوشته اند که Pluribus با این عقیده که دانک-بت یک اشتباه است، موافق نیست. (دانک-بت شرط بندی است که در مقابل بازیکن تهاجمی دور قبلی شرط بندی انجام خواهد شد و فرصت ادامه دادن به بت را از وی می گیرد.)، Pluribus این کار را خیلی بهتر از افراد حرفه ای انجام می دهد.

در نتیجه، سیستم طرحی برای بازی های پوکر تهیه می کند، که اساساً لیستی از استراتژی های ممکن بر اساس کارت های پخش شده می باشد. با این وجود، از این طرح تنها برای دست اول در هر بازی استفاده می شود، سپس در زمان واقعی برای هر دست بعدی تنظیم خواهد شد.

شکست پوکربازهای حرفه ای توسط هوش مصنوعی و پیروزی هوش مصنوعی بر پوکربازها

شکست پوکربازهای حرفه ای توسط هوش مصنوعی و پیروزی هوش مصنوعی بر پوکربازها

یکی از دلایل این امر این است که سیستم هوش مصنوعی استفاده از الگوریتم هایی که در موقعیت های دو نفره با تعادل نش همگرا هستند، را حفظ می کند. (حتی اگر در شرایط چند نفره چنین نتیجه ای عملاً غیر ممکن باشد.)

استراتژی طراحی دیگری نیز به این ترکیب اضافه می شود. Pluribus با bucketing دست های مشابه (به عنوان مثال، استریت nine-high و ۱۰-high) و برخورد یکسان با آن ها، عوارض را کاهش می دهد. رویکردی مشابه شرط بندی را شامل می شود، به جای این که گزینه سنتی پوکر انسانی را از ۱۰۰ تا ۱۰ هزار دلار انتخاب نماید، سیستم در هر نقطه یکی از ۱۴ مبلغ را جهت شرط بندی انتخاب می کند.

با این حال، نویسندگان به این نکته اشاره دارند که چنین انتزاعی فقط زمانی استفاده می شود که هوش مصنوعی Pluribus بتواند احتمال دست های آینده (حرکات غیر قابل پیش بینی سایر بازیکنان) را تخمین بزند.

آن ها در ادامه می افزایند: جمع آوری اطلاعات می تواند به شدت پیچیدگی بازی را کاهش دهد اما ممکن است تفاوت های ظریفی را که جهت عملکردهای فوق بشری مهم هستند را از بین ببرد.

لذا، در طول بازی واقعی با انسان، Pluribus از انتزاع اطلاعات تنها جهت استدلال در مورد موقعیت های آینده شرط بندی استفاده می کند.

شکست پوکربازهای حرفه ای توسط هوش مصنوعی و پیروزی هوش مصنوعی بر پوکربازها

شکست پوکربازهای حرفه ای توسط هوش مصنوعی و پیروزی هوش مصنوعی بر پوکربازها

تا به امروز، چالش های بازی سیستمی در برابر جوانب واقعی تنها به بازی های چهار دوره تمرین آنلاین محدود شده است، لذا دارندگان کازینو در لاس وگاس هنوز مورد تهدید در خصوص این تکنولوژی قرار نگرفته اند.

با این وجود، ممکن است طولی نکشد که صنعت قمار شدیدا تحت تاثیر تغییرات فناوری قرار گیرد.

محققان بیان داشته اند که موفقیت هوش مصنوعی Pluribus حاکی از این است که علی رغم عدم وجود ضمانت های تئوریک قوی در مورد عملکرد بازی های چند نفره، تنظیمات اطلاعات ناقص در بازی های چند نفره در مقیاس بزرگ و پیچیده وجود دارد که در آن ها یک الگوریتم بازی با جستجو با دقت ساخته شده که می تواند استراتژی های فوق بشری تولید کند.

کلام پایانی

محققینی از دانشگاه کارنگی ملون، هوشی مصنوعی‌ Libratus را خلق کردند که در برابر بازیکنان انسانی به رقابت پرداخت تا مشخص شود که آیا هوش مصنوعی قادر است پوکرهای بازهای حرفه ای را شکست دهد یا خیر که نتیجه ی این رقابت به شکست پوکربازهای حرفه ای توسط هوش مصنوعی و پیروزی هوش مصنوعی بر پوکربازها انجامید.