minimax pac bounds on the sample complexity of reinforcement learning with a generative model : تی پی بین

minimax pac bounds on the sample complexity of reinforcement learning with a generative model

minimax pac bounds on the sample complexity of reinforcement learning with a generative model
نویسندگان :

mohammad gheshlaghi azar

rémi munos

hilbert j kappen
کلمات کلیدی :

learning theory

reinforcement learning

sample complexity

markov decision processes
جزئیات بیشتر مقاله
- تاریخ ارائه: 1392/07/24
- تاریخ انتشار در تی پی بین: 1392/07/24
- تعداد بازدید: 1020
- تعداد پرسش و پاسخ ها: 0
- شماره تماس دبیرخانه رویداد: -
we consider the problems of learning the optimal action-value function and the optimal policy in discounted-reward markov decision processes (mdps). we prove new pac bounds on the sample-complexity of two well-known model-based reinforcement learning (rl) algorithms in the presence of a generative model of the mdp: value iteration and policy iteration. the first result indicates that for an mdp with n state-action pairs and the discount factor γ∈[0,1) only o(nlog(n/δ)/((1−γ)3 ε 2)) state-transition samples are required to find an ε-optimal estimation of the action-value function with the probability (w.p.) 1−δ. further, we prove that, for small values of ε, an order of o(nlog(n/δ)/((1−γ)3 ε 2)) samples is required to find an ε-optimal policy w.p. 1−δ. we also prove a matching lower bound of θ(nlog(n/δ)/((1−γ)3 ε 2)) on the sample complexity of estimating the optimal action-value function with ε accuracy. to the best of our knowledge, this is the first minimax result on the sample complexity of rl: the upper bounds match the lower bound in terms of n, ε, δ and 1/(1−γ) up to a constant factor. also, both our lower bound and upper bound improve on the state-of-the-art in terms of their dependence on 1/(1−γ).

سوال خود را در مورد این مقاله مطرح نمایید :

سوال شما برای نویسنده مقاله نیز ارسال می گردد.در صورت درج پاسخ از طریق ایمیل به شما اطلاع داده خواهد شد.
با انتخاب دکمه “ثبت پرسش”، موافقت خود را با قوانین انتشار محتوا در تی پی بین اعلام می کنم.

در صورت درج پاسخ از طریق ایمیل به شما اطلاع داده خواهد شد.

با انتخاب دکمه ثبت پرسش، موافقت خود را با قوانین انتشار محتوا در وبسایت تی پی بین اعلام می کنم

minimax pac bounds on the sample complexity of reinforcement learning with a generative model

mohammad gheshlaghi azar

rémi munos

hilbert j kappen

سوال خود را در مورد این مقاله مطرح نمایید :

استفاده از تحلیل اهمیت-عملکرد در ارائه الگوی مدیریت خلاقیت سازمانی و ارائه راهکار جهت بهبود

بررسی تاثیر ارزش وجوه نقد مازاد بر ساختار سرمایه شرکت های پذیرفته شده در بورس اوراق بهادار تهران

بررسی تأثیر سطح افشای ریسک بر قرارداد بدهی شرکت های پذیرفته شده در بورس اوراق بهادار تهران

بررسی تأثیر رتبه بندی اعتباری مبتنی بر مدل امتیاز بازار نوظهور بر نقد شوندگی سهام با تأکید بر خصوصی سازی شرکت ها

تأثیر آمیخته بازاریابی پوشاک ایرانی بر تصویر ذهنی مشتری پوشاک ایرانی (هاکوپیان)

چگونه توانستم کمرویی و خجالتی بودن تینا را کاهش دهم؟

مطالعه ناهمسانگردی لرزه ای در شمال غرب ایران با استفاده از فازهای s پوسته

ارتباط میان پارامترهای فیزیکی، پتروگرافیکی و مقاومتی سنگ های آهکی: مطالعه موردی (سازند آسماری)

سیستماتیک جنس dentoglobigerina و globoturborotalita از نهشته های برش سگتلو در شمال خوی (حوضه پیش کمانی سنندج –سیرجان)

تدابیر تحقق ساختمان های سبز مرتفع (عمودی سازی پایدار)

مدیریت و بررسی افسردگی دانش آموزان دختر مقطع متوسطه دوم در دروان کرونا در شهرستان دزفول

مدیریت و بررسی خرد سیاسی در اندیشه ی فردوسی در ادب ایران

واکاوی و مدیریت توصیفی قلمدان(جاکلیدی)ضریح در موزه آستان قدس رضوی

بررسی تاثیر خلاقیت، دانش و انگیزه کارکنان بر پیشنهادات نوآورانه کارکنان ( مورد مطالعه: هتل های 3 و 4 ستاره استان کرمان)

بررسی تاثیر کیفیت سیستم های اطلاعاتی بر تصمیم گیری موفق در شرکتهای تولیدی استان اصفهان (مورد مطالعه: مدیران شرکتهای تولیدی استان اصفهان)

اثربخشی آموزش ذهن آگاهی با رویکرد اسلامی بر بهزیستی معنوی و احساس تنهایی زنان مبتلا به دیابت نوع دو

تأثیر تصویر برند، انتظارات مشتریان و کیفیت خدمات بر رضایت مشتریان و وفاداری مشتریان با نقش میانجی ارزش درک شده (مورد مطالعه: شرکت ایران خودرو)

مدیریت رفاه و آرامش زندگی در دولت هخامنشی

بررسی میزان رعایت شرکت از الزامات محیط زیستی و بازاریابی سبز و رابطه آن با اعتبار شرکت از دیدگاه مشتریان

vinyl ester/c-mmt nanocomposites: investigation of mechanical and antimicrobial properties