-
minimax pac bounds on the sample complexity of reinforcement learning with a generative model
جزئیات بیشتر مقاله- تاریخ ارائه: 1392/07/24
- تاریخ انتشار در تی پی بین: 1392/07/24
- تعداد بازدید: 1034
- تعداد پرسش و پاسخ ها: 0
- شماره تماس دبیرخانه رویداد: -
we consider the problems of learning the optimal action-value function and the optimal policy in discounted-reward markov decision processes (mdps). we prove new pac bounds on the sample-complexity of two well-known model-based reinforcement learning (rl) algorithms in the presence of a generative model of the mdp: value iteration and policy iteration. the first result indicates that for an mdp with n state-action pairs and the discount factor γ∈[0,1) only o(nlog(n/δ)/((1−γ)3 ε 2)) state-transition samples are required to find an ε-optimal estimation of the action-value function with the probability (w.p.) 1−δ. further, we prove that, for small values of ε, an order of o(nlog(n/δ)/((1−γ)3 ε 2)) samples is required to find an ε-optimal policy w.p. 1−δ. we also prove a matching lower bound of θ(nlog(n/δ)/((1−γ)3 ε 2)) on the sample complexity of estimating the optimal action-value function with ε accuracy. to the best of our knowledge, this is the first minimax result on the sample complexity of rl: the upper bounds match the lower bound in terms of n, ε, δ and 1/(1−γ) up to a constant factor. also, both our lower bound and upper bound improve on the state-of-the-art in terms of their dependence on 1/(1−γ).
مقالات جدیدترین رویدادها
-
استفاده از تحلیل اهمیت-عملکرد در ارائه الگوی مدیریت خلاقیت سازمانی و ارائه راهکار جهت بهبود
-
بررسی تاثیر ارزش وجوه نقد مازاد بر ساختار سرمایه شرکت های پذیرفته شده در بورس اوراق بهادار تهران
-
بررسی تأثیر سطح افشای ریسک بر قرارداد بدهی شرکت های پذیرفته شده در بورس اوراق بهادار تهران
-
بررسی تأثیر رتبه بندی اعتباری مبتنی بر مدل امتیاز بازار نوظهور بر نقد شوندگی سهام با تأکید بر خصوصی سازی شرکت ها
-
تأثیر آمیخته بازاریابی پوشاک ایرانی بر تصویر ذهنی مشتری پوشاک ایرانی (هاکوپیان)
-
چگونه توانستم دانش آموزان کلاس چهارم ابتدایی را به انشانویسی خلاق علاقه مند سازم؟
-
آموزش مجازی، تعلیم و تربیت و چالش های عصر حاضر
-
بررسی تاثیرات فضاهای شهری معاصر بر پایداری اجتماعی (با نگرش موردی به کودکان)
-
application of importance sampling as a variance reduction technique in structural reliability
-
numerical solution of stochastic optimal control problems: experiences from merton portfolio selection model
مقالات جدیدترین ژورنال ها
-
مدیریت و بررسی افسردگی دانش آموزان دختر مقطع متوسطه دوم در دروان کرونا در شهرستان دزفول
-
مدیریت و بررسی خرد سیاسی در اندیشه ی فردوسی در ادب ایران
-
واکاوی و مدیریت توصیفی قلمدان(جاکلیدی)ضریح در موزه آستان قدس رضوی
-
بررسی تاثیر خلاقیت، دانش و انگیزه کارکنان بر پیشنهادات نوآورانه کارکنان ( مورد مطالعه: هتل های 3 و 4 ستاره استان کرمان)
-
بررسی تاثیر کیفیت سیستم های اطلاعاتی بر تصمیم گیری موفق در شرکتهای تولیدی استان اصفهان (مورد مطالعه: مدیران شرکتهای تولیدی استان اصفهان)
-
بررسی ماهیت و تفاوت اجرت المثل ایام زوجیت و نحله و نحوه مطالبه آن
-
بررسی عملکرد و سایه اندازی شناشیر و کاربرد آن در شکل گیری معماری جنوب ایران با نمونه موردی بوشهر
-
نقش درآمد های ناشی از کسب و کار های حرام و مکروه در معنی داری سبک زندگی از منظر آموزه های دینی
-
تأملی بر شادی در پرتو محوریت دینی: مطالعه موردی کارکنان دانشگاه تهران
-
واکاوی تاثیر نظم عمومی بر داوری تجاری بین المللی
سوال خود را در مورد این مقاله مطرح نمایید :