minimax pac bounds on the sample complexity of reinforcement learning with a generative model : تی پی بین

minimax pac bounds on the sample complexity of reinforcement learning with a generative model

minimax pac bounds on the sample complexity of reinforcement learning with a generative model
نویسندگان :

mohammad gheshlaghi azar

rémi munos

hilbert j kappen
کلمات کلیدی :

learning theory

reinforcement learning

sample complexity

markov decision processes
جزئیات بیشتر مقاله
- تاریخ ارائه: 1392/07/24
- تاریخ انتشار در تی پی بین: 1392/07/24
- تعداد بازدید: 1030
- تعداد پرسش و پاسخ ها: 0
- شماره تماس دبیرخانه رویداد: -
we consider the problems of learning the optimal action-value function and the optimal policy in discounted-reward markov decision processes (mdps). we prove new pac bounds on the sample-complexity of two well-known model-based reinforcement learning (rl) algorithms in the presence of a generative model of the mdp: value iteration and policy iteration. the first result indicates that for an mdp with n state-action pairs and the discount factor γ∈[0,1) only o(nlog(n/δ)/((1−γ)3 ε 2)) state-transition samples are required to find an ε-optimal estimation of the action-value function with the probability (w.p.) 1−δ. further, we prove that, for small values of ε, an order of o(nlog(n/δ)/((1−γ)3 ε 2)) samples is required to find an ε-optimal policy w.p. 1−δ. we also prove a matching lower bound of θ(nlog(n/δ)/((1−γ)3 ε 2)) on the sample complexity of estimating the optimal action-value function with ε accuracy. to the best of our knowledge, this is the first minimax result on the sample complexity of rl: the upper bounds match the lower bound in terms of n, ε, δ and 1/(1−γ) up to a constant factor. also, both our lower bound and upper bound improve on the state-of-the-art in terms of their dependence on 1/(1−γ).

سوال خود را در مورد این مقاله مطرح نمایید :

سوال شما برای نویسنده مقاله نیز ارسال می گردد.در صورت درج پاسخ از طریق ایمیل به شما اطلاع داده خواهد شد.
با انتخاب دکمه “ثبت پرسش”، موافقت خود را با قوانین انتشار محتوا در تی پی بین اعلام می کنم.

در صورت درج پاسخ از طریق ایمیل به شما اطلاع داده خواهد شد.

با انتخاب دکمه ثبت پرسش، موافقت خود را با قوانین انتشار محتوا در وبسایت تی پی بین اعلام می کنم

minimax pac bounds on the sample complexity of reinforcement learning with a generative model

mohammad gheshlaghi azar

rémi munos

hilbert j kappen

سوال خود را در مورد این مقاله مطرح نمایید :

استفاده از تحلیل اهمیت-عملکرد در ارائه الگوی مدیریت خلاقیت سازمانی و ارائه راهکار جهت بهبود

بررسی تاثیر ارزش وجوه نقد مازاد بر ساختار سرمایه شرکت های پذیرفته شده در بورس اوراق بهادار تهران

بررسی تأثیر سطح افشای ریسک بر قرارداد بدهی شرکت های پذیرفته شده در بورس اوراق بهادار تهران

بررسی تأثیر رتبه بندی اعتباری مبتنی بر مدل امتیاز بازار نوظهور بر نقد شوندگی سهام با تأکید بر خصوصی سازی شرکت ها

تأثیر آمیخته بازاریابی پوشاک ایرانی بر تصویر ذهنی مشتری پوشاک ایرانی (هاکوپیان)

آنالیز عدم قطعیت شیروانی های نامحدود به روش شبیه سازی مونت کارلو با در نظرگیری متغیرهای تصادفی چندگانه و همبسته

بررسی الگوی جریان پایین دست سازه های کنترل شیب با و بدون نشت روبه بالا با استفاده از مدل عددی

اپیدمیولوژی مالاریا در استان اردبیل، 79-1378

مقایسه نتایج شبکه عصبی مصنوعی و مدل های تجربی توزیع مکانی مثلثاتی، افزایش سطح، کاهش سطح و کاهش سطح اصلاح شده در تخمین رسوبگذاری تزارهای مختلف مخزن سد کرج

بررسی بیان ژن گیرنده های پروژسترون در نواحی مختلف رحم در اوایل آبستنی گوسفند افشاری

مدیریت و بررسی افسردگی دانش آموزان دختر مقطع متوسطه دوم در دروان کرونا در شهرستان دزفول

مدیریت و بررسی خرد سیاسی در اندیشه ی فردوسی در ادب ایران

واکاوی و مدیریت توصیفی قلمدان(جاکلیدی)ضریح در موزه آستان قدس رضوی

بررسی تاثیر خلاقیت، دانش و انگیزه کارکنان بر پیشنهادات نوآورانه کارکنان ( مورد مطالعه: هتل های 3 و 4 ستاره استان کرمان)

بررسی تاثیر کیفیت سیستم های اطلاعاتی بر تصمیم گیری موفق در شرکتهای تولیدی استان اصفهان (مورد مطالعه: مدیران شرکتهای تولیدی استان اصفهان)

نقش راهبردهای مقابله‏ اسلامی در پیش‏ بینی آمادگی به اعتیاد در دانشجویان دختر

سیاست های قانونی فناوری اطلاعات و ارتباطات درتوسعه آموزش و دانش در نظام آموزشی کشور

شرح و نقد رای وحدت رویه 652 دیوان عالی کشور مصوب 1380/1/28 با موضوع لغو معافیت دولت از پرداخت هزینه دادرسی

بررسی علل ارتکاب جرایم سازمان یافته شبکه ای توسط مجرمین یقه سفید

road pricing effect on the emission of traffic pollutants, a case study in tehran