-
temporal-difference search in computer go
جزئیات بیشتر مقاله- تاریخ ارائه: 1392/07/24
- تاریخ انتشار در تی پی بین: 1392/07/24
- تعداد بازدید: 1169
- تعداد پرسش و پاسخ ها: 0
- شماره تماس دبیرخانه رویداد: -
temporal-difference learning is one of the most successful and broadly applied solutions to the reinforcement learning problem; it has been used to achieve master-level play in chess, checkers and backgammon. the key idea is to update a value function from episodes of real experience, by bootstrapping from future value estimates, and using value function approximation to generalise between related states. monte-carlo tree search is a recent algorithm for high-performance search, which has been used to achieve master-level play in go. the key idea is to use the mean outcome of simulated episodes of experience to evaluate each state in a search tree. we introduce a new approach to high-performance search in markov decision processes and two-player games. our method, temporal-difference search, combines temporal-difference learning with simulation-based search. like monte-carlo tree search, the value function is updated from simulated experience; but like temporal-difference learning, it uses value function approximation and bootstrapping to efficiently generalise between related states. we apply temporal-difference search to the game of 9×9 go, using a million binary features matching simple patterns of stones. without any explicit search tree, our approach outperformed an unenhanced monte-carlo tree search with the same number of simulations. when combined with a simple alpha-beta search, our program also outperformed all traditional (pre-monte-carlo) search and machine learning programs on the 9×9 computer go server.
مقالات جدیدترین رویدادها
-
استفاده از تحلیل اهمیت-عملکرد در ارائه الگوی مدیریت خلاقیت سازمانی و ارائه راهکار جهت بهبود
-
بررسی تاثیر ارزش وجوه نقد مازاد بر ساختار سرمایه شرکت های پذیرفته شده در بورس اوراق بهادار تهران
-
بررسی تأثیر سطح افشای ریسک بر قرارداد بدهی شرکت های پذیرفته شده در بورس اوراق بهادار تهران
-
بررسی تأثیر رتبه بندی اعتباری مبتنی بر مدل امتیاز بازار نوظهور بر نقد شوندگی سهام با تأکید بر خصوصی سازی شرکت ها
-
تأثیر آمیخته بازاریابی پوشاک ایرانی بر تصویر ذهنی مشتری پوشاک ایرانی (هاکوپیان)
-
نگرشی بر چگونگی خلاقیت کودک با رویکرد بیومیمیتکس
-
بررسی تأثیر دعا بر بینش نیایشگر از نظر شیعه و کاتولیک
-
نانو مواد و ساختمان سازی های هوشمند
-
تنش برشی متوسط کف و دیواره ها در جداره ی صاف کانال ذوزنقه ای با بهترین مقطع هیدرولیکی با استفاده از نگاشت همدیسی
-
optimization of critical factors to enhance polyhydroxyalkanoates (pha) synthesis by mixed culture using taguchi design of experimental methodology
مقالات جدیدترین ژورنال ها
-
مدیریت و بررسی افسردگی دانش آموزان دختر مقطع متوسطه دوم در دروان کرونا در شهرستان دزفول
-
مدیریت و بررسی خرد سیاسی در اندیشه ی فردوسی در ادب ایران
-
واکاوی و مدیریت توصیفی قلمدان(جاکلیدی)ضریح در موزه آستان قدس رضوی
-
بررسی تاثیر خلاقیت، دانش و انگیزه کارکنان بر پیشنهادات نوآورانه کارکنان ( مورد مطالعه: هتل های 3 و 4 ستاره استان کرمان)
-
بررسی تاثیر کیفیت سیستم های اطلاعاتی بر تصمیم گیری موفق در شرکتهای تولیدی استان اصفهان (مورد مطالعه: مدیران شرکتهای تولیدی استان اصفهان)
-
آسیب شناسی کیفرگذاری موجود در جرایم خانوادگی موضوع کتاب پنجم قانون مجازات اسلامی ( تعزیرات ) مصوب 1375 ؛ از تبیین آسیب ها تا ارائه راهکارها
-
مطالعه تحلیلی نقش مایه های دارایی بافی یزد از منظر نشانه شناسی
-
بررسی عوامل تاثیر گذار بر تمایل به ادامه کسب و کار اینترنتی در بنگاه های کوچک و متوسط استان تهران
-
آراء بلاغی فخر رازی در جزء اول قران کریم
-
studies on some mechanical properties of pvc-wood fibre composite
سوال خود را در مورد این مقاله مطرح نمایید :