-
minimax pac bounds on the sample complexity of reinforcement learning with a generative model
جزئیات بیشتر مقاله- تاریخ ارائه: 1392/07/24
- تاریخ انتشار در تی پی بین: 1392/07/24
- تعداد بازدید: 1020
- تعداد پرسش و پاسخ ها: 0
- شماره تماس دبیرخانه رویداد: -
we consider the problems of learning the optimal action-value function and the optimal policy in discounted-reward markov decision processes (mdps). we prove new pac bounds on the sample-complexity of two well-known model-based reinforcement learning (rl) algorithms in the presence of a generative model of the mdp: value iteration and policy iteration. the first result indicates that for an mdp with n state-action pairs and the discount factor γ∈[0,1) only o(nlog(n/δ)/((1−γ)3 ε 2)) state-transition samples are required to find an ε-optimal estimation of the action-value function with the probability (w.p.) 1−δ. further, we prove that, for small values of ε, an order of o(nlog(n/δ)/((1−γ)3 ε 2)) samples is required to find an ε-optimal policy w.p. 1−δ. we also prove a matching lower bound of θ(nlog(n/δ)/((1−γ)3 ε 2)) on the sample complexity of estimating the optimal action-value function with ε accuracy. to the best of our knowledge, this is the first minimax result on the sample complexity of rl: the upper bounds match the lower bound in terms of n, ε, δ and 1/(1−γ) up to a constant factor. also, both our lower bound and upper bound improve on the state-of-the-art in terms of their dependence on 1/(1−γ).
مقالات جدیدترین رویدادها
-
استفاده از تحلیل اهمیت-عملکرد در ارائه الگوی مدیریت خلاقیت سازمانی و ارائه راهکار جهت بهبود
-
بررسی تاثیر ارزش وجوه نقد مازاد بر ساختار سرمایه شرکت های پذیرفته شده در بورس اوراق بهادار تهران
-
بررسی تأثیر سطح افشای ریسک بر قرارداد بدهی شرکت های پذیرفته شده در بورس اوراق بهادار تهران
-
بررسی تأثیر رتبه بندی اعتباری مبتنی بر مدل امتیاز بازار نوظهور بر نقد شوندگی سهام با تأکید بر خصوصی سازی شرکت ها
-
تأثیر آمیخته بازاریابی پوشاک ایرانی بر تصویر ذهنی مشتری پوشاک ایرانی (هاکوپیان)
-
چگونه توانستم کمرویی و خجالتی بودن تینا را کاهش دهم؟
-
مطالعه ناهمسانگردی لرزه ای در شمال غرب ایران با استفاده از فازهای s پوسته
-
ارتباط میان پارامترهای فیزیکی، پتروگرافیکی و مقاومتی سنگ های آهکی: مطالعه موردی (سازند آسماری)
-
سیستماتیک جنس dentoglobigerina و globoturborotalita از نهشته های برش سگتلو در شمال خوی (حوضه پیش کمانی سنندج –سیرجان)
-
تدابیر تحقق ساختمان های سبز مرتفع (عمودی سازی پایدار)
مقالات جدیدترین ژورنال ها
-
مدیریت و بررسی افسردگی دانش آموزان دختر مقطع متوسطه دوم در دروان کرونا در شهرستان دزفول
-
مدیریت و بررسی خرد سیاسی در اندیشه ی فردوسی در ادب ایران
-
واکاوی و مدیریت توصیفی قلمدان(جاکلیدی)ضریح در موزه آستان قدس رضوی
-
بررسی تاثیر خلاقیت، دانش و انگیزه کارکنان بر پیشنهادات نوآورانه کارکنان ( مورد مطالعه: هتل های 3 و 4 ستاره استان کرمان)
-
بررسی تاثیر کیفیت سیستم های اطلاعاتی بر تصمیم گیری موفق در شرکتهای تولیدی استان اصفهان (مورد مطالعه: مدیران شرکتهای تولیدی استان اصفهان)
-
اثربخشی آموزش ذهن آگاهی با رویکرد اسلامی بر بهزیستی معنوی و احساس تنهایی زنان مبتلا به دیابت نوع دو
-
تأثیر تصویر برند، انتظارات مشتریان و کیفیت خدمات بر رضایت مشتریان و وفاداری مشتریان با نقش میانجی ارزش درک شده (مورد مطالعه: شرکت ایران خودرو)
-
مدیریت رفاه و آرامش زندگی در دولت هخامنشی
-
بررسی میزان رعایت شرکت از الزامات محیط زیستی و بازاریابی سبز و رابطه آن با اعتبار شرکت از دیدگاه مشتریان
-
vinyl ester/c-mmt nanocomposites: investigation of mechanical and antimicrobial properties
سوال خود را در مورد این مقاله مطرح نمایید :