preference-based reinforcement learning: a formal framework and a policy iteration algorithm : تی پی بین

جزئیات رویداد

حوزه های تحت پوشش رویداد

فنی و مهندسی
- مهندسی کامپیوتر

preference-based reinforcement learning: a formal framework and a policy iteration algorithm

preference-based reinforcement learning: a formal framework and a policy iteration algorithm
نویسندگان :

johannes fürnkranz

eyke hüllermeier

weiwei cheng

sanghyeun park
کلمات کلیدی :

reinforcement learning

preference learning
جزئیات بیشتر مقاله
- تاریخ ارائه: 1392/07/24
- تاریخ انتشار در تی پی بین: 1392/07/24
- تعداد بازدید: 964
- تعداد پرسش و پاسخ ها: 0
- شماره تماس دبیرخانه رویداد: -
this paper makes a first step toward the integration of two subfields of machine learning, namely preference learning and reinforcement learning (rl). an important motivation for a preference-based approach to reinforcement learning is the observation that in many real-world domains, numerical feedback signals are not readily available, or are defined arbitrarily in order to satisfy the needs of conventional rl algorithms. instead, we propose an alternative framework for reinforcement learning, in which qualitative reward signals can be directly used by the learner. the framework may be viewed as a generalization of the conventional rl framework in which only a partial order between policies is required instead of the total order induced by their respective expected long-term reward.

therefore, building on novel methods for preference learning, our general goal is to equip the rl agent with qualitative policy models, such as ranking functions that allow for sorting its available actions from most to least promising, as well as algorithms for learning such models from qualitative feedback. as a proof of concept, we realize a first simple instantiation of this framework that defines preferences based on utilities observed for trajectories. to that end, we build on an existing method for approximate policy iteration based on roll-outs. while this approach is based on the use of classification methods for generalization and policy learning, we make use of a specific type of preference learning method called label ranking. advantages of preference-based approximate policy iteration are illustrated by means of two case studies.

سوال خود را در مورد این مقاله مطرح نمایید :

سوال شما برای نویسنده مقاله نیز ارسال می گردد.در صورت درج پاسخ از طریق ایمیل به شما اطلاع داده خواهد شد.
با انتخاب دکمه “ثبت پرسش”، موافقت خود را با قوانین انتشار محتوا در تی پی بین اعلام می کنم.

در صورت درج پاسخ از طریق ایمیل به شما اطلاع داده خواهد شد.

با انتخاب دکمه ثبت پرسش، موافقت خود را با قوانین انتشار محتوا در وبسایت تی پی بین اعلام می کنم

مقالات جدیدترین رویدادها

مقالات جدیدترین ژورنال ها

preference-based reinforcement learning: a formal framework and a policy iteration algorithm

johannes fürnkranz

eyke hüllermeier

weiwei cheng

sanghyeun park

سوال خود را در مورد این مقاله مطرح نمایید :

استفاده از تحلیل اهمیت-عملکرد در ارائه الگوی مدیریت خلاقیت سازمانی و ارائه راهکار جهت بهبود

بررسی تاثیر ارزش وجوه نقد مازاد بر ساختار سرمایه شرکت های پذیرفته شده در بورس اوراق بهادار تهران

بررسی تأثیر سطح افشای ریسک بر قرارداد بدهی شرکت های پذیرفته شده در بورس اوراق بهادار تهران

بررسی تأثیر رتبه بندی اعتباری مبتنی بر مدل امتیاز بازار نوظهور بر نقد شوندگی سهام با تأکید بر خصوصی سازی شرکت ها

تأثیر آمیخته بازاریابی پوشاک ایرانی بر تصویر ذهنی مشتری پوشاک ایرانی (هاکوپیان)

مطالعه عددی اثرگذاری ژئوممبران بر میزان نشت در کانال های انتقال آب

بررسی رفتار شیارشدگی مسیر چرخ ها در روسازی های آسفالتی حاوی خرده لاستیک ضایعاتی کف پوش وسایط نقلیه

بررسی عوامل موثر بر ضریب بار دینامیکی مجاز در پل ها و مقایسه کمی نتایج با رابطه ساده شده aashto

رابطه ی مواجهه ی مادران باردار با دود سیگار محیطی و وزن و قد نوزادان آن ها

analysis of geosynthetic tubes filled with several liquids with different densities

مدیریت و بررسی افسردگی دانش آموزان دختر مقطع متوسطه دوم در دروان کرونا در شهرستان دزفول

مدیریت و بررسی خرد سیاسی در اندیشه ی فردوسی در ادب ایران

واکاوی و مدیریت توصیفی قلمدان(جاکلیدی)ضریح در موزه آستان قدس رضوی

بررسی تاثیر خلاقیت، دانش و انگیزه کارکنان بر پیشنهادات نوآورانه کارکنان ( مورد مطالعه: هتل های 3 و 4 ستاره استان کرمان)

بررسی تاثیر کیفیت سیستم های اطلاعاتی بر تصمیم گیری موفق در شرکتهای تولیدی استان اصفهان (مورد مطالعه: مدیران شرکتهای تولیدی استان اصفهان)

نگاهی به انواع و اقسام آسیب های ورزشی بدنی ورزشکاران در حین ورزش

تدوین استراتژی توسعه سرمایه انسانی مطالعه موردی دانشکده علوم پزشکی شهرستان بهبهان

بررسی شاخص های توسعه در سکونت گاه های روستایی و شهری ایران

تأثیر ارتباط ارزشی اطلاعات سود بر رابطه ریسک اطلاعات با هزینه حقوق مالکانه

مسئولیت متعهد در مقابل شخص ثالث