minimax pac bounds on the sample complexity of reinforcement learning with a generative model : تی پی بین

minimax pac bounds on the sample complexity of reinforcement learning with a generative model

minimax pac bounds on the sample complexity of reinforcement learning with a generative model
نویسندگان :

mohammad gheshlaghi azar

rémi munos

hilbert j kappen
کلمات کلیدی :

learning theory

reinforcement learning

sample complexity

markov decision processes
جزئیات بیشتر مقاله
- تاریخ ارائه: 1392/07/24
- تاریخ انتشار در تی پی بین: 1392/07/24
- تعداد بازدید: 1034
- تعداد پرسش و پاسخ ها: 0
- شماره تماس دبیرخانه رویداد: -
we consider the problems of learning the optimal action-value function and the optimal policy in discounted-reward markov decision processes (mdps). we prove new pac bounds on the sample-complexity of two well-known model-based reinforcement learning (rl) algorithms in the presence of a generative model of the mdp: value iteration and policy iteration. the first result indicates that for an mdp with n state-action pairs and the discount factor γ∈[0,1) only o(nlog(n/δ)/((1−γ)3 ε 2)) state-transition samples are required to find an ε-optimal estimation of the action-value function with the probability (w.p.) 1−δ. further, we prove that, for small values of ε, an order of o(nlog(n/δ)/((1−γ)3 ε 2)) samples is required to find an ε-optimal policy w.p. 1−δ. we also prove a matching lower bound of θ(nlog(n/δ)/((1−γ)3 ε 2)) on the sample complexity of estimating the optimal action-value function with ε accuracy. to the best of our knowledge, this is the first minimax result on the sample complexity of rl: the upper bounds match the lower bound in terms of n, ε, δ and 1/(1−γ) up to a constant factor. also, both our lower bound and upper bound improve on the state-of-the-art in terms of their dependence on 1/(1−γ).

سوال خود را در مورد این مقاله مطرح نمایید :

سوال شما برای نویسنده مقاله نیز ارسال می گردد.در صورت درج پاسخ از طریق ایمیل به شما اطلاع داده خواهد شد.
با انتخاب دکمه “ثبت پرسش”، موافقت خود را با قوانین انتشار محتوا در تی پی بین اعلام می کنم.

در صورت درج پاسخ از طریق ایمیل به شما اطلاع داده خواهد شد.

با انتخاب دکمه ثبت پرسش، موافقت خود را با قوانین انتشار محتوا در وبسایت تی پی بین اعلام می کنم

minimax pac bounds on the sample complexity of reinforcement learning with a generative model

mohammad gheshlaghi azar

rémi munos

hilbert j kappen

سوال خود را در مورد این مقاله مطرح نمایید :

استفاده از تحلیل اهمیت-عملکرد در ارائه الگوی مدیریت خلاقیت سازمانی و ارائه راهکار جهت بهبود

بررسی تاثیر ارزش وجوه نقد مازاد بر ساختار سرمایه شرکت های پذیرفته شده در بورس اوراق بهادار تهران

بررسی تأثیر سطح افشای ریسک بر قرارداد بدهی شرکت های پذیرفته شده در بورس اوراق بهادار تهران

بررسی تأثیر رتبه بندی اعتباری مبتنی بر مدل امتیاز بازار نوظهور بر نقد شوندگی سهام با تأکید بر خصوصی سازی شرکت ها

تأثیر آمیخته بازاریابی پوشاک ایرانی بر تصویر ذهنی مشتری پوشاک ایرانی (هاکوپیان)

چگونه توانستم دانش آموزان کلاس چهارم ابتدایی را به انشانویسی خلاق علاقه مند سازم؟

آموزش مجازی، تعلیم و تربیت و چالش های عصر حاضر

بررسی تاثیرات فضاهای شهری معاصر بر پایداری اجتماعی (با نگرش موردی به کودکان)

application of importance sampling as a variance reduction technique in structural reliability

numerical solution of stochastic optimal control problems: experiences from merton portfolio selection model

مدیریت و بررسی افسردگی دانش آموزان دختر مقطع متوسطه دوم در دروان کرونا در شهرستان دزفول

مدیریت و بررسی خرد سیاسی در اندیشه ی فردوسی در ادب ایران

واکاوی و مدیریت توصیفی قلمدان(جاکلیدی)ضریح در موزه آستان قدس رضوی

بررسی تاثیر خلاقیت، دانش و انگیزه کارکنان بر پیشنهادات نوآورانه کارکنان ( مورد مطالعه: هتل های 3 و 4 ستاره استان کرمان)

بررسی تاثیر کیفیت سیستم های اطلاعاتی بر تصمیم گیری موفق در شرکتهای تولیدی استان اصفهان (مورد مطالعه: مدیران شرکتهای تولیدی استان اصفهان)

بررسی ماهیت و تفاوت اجرت المثل ایام زوجیت و نحله و نحوه مطالبه آن

بررسی عملکرد و سایه اندازی شناشیر و کاربرد آن در شکل گیری معماری جنوب ایران با نمونه موردی بوشهر

نقش درآمد های ناشی از کسب و کار های حرام و مکروه در معنی داری سبک زندگی از منظر آموزه های دینی

تأملی بر شادی در پرتو محوریت دینی: مطالعه موردی کارکنان دانشگاه تهران

واکاوی تاثیر نظم عمومی بر داوری تجاری بین المللی