-
minimax pac bounds on the sample complexity of reinforcement learning with a generative model
جزئیات بیشتر مقاله- تاریخ ارائه: 1392/07/24
- تاریخ انتشار در تی پی بین: 1392/07/24
- تعداد بازدید: 1030
- تعداد پرسش و پاسخ ها: 0
- شماره تماس دبیرخانه رویداد: -
we consider the problems of learning the optimal action-value function and the optimal policy in discounted-reward markov decision processes (mdps). we prove new pac bounds on the sample-complexity of two well-known model-based reinforcement learning (rl) algorithms in the presence of a generative model of the mdp: value iteration and policy iteration. the first result indicates that for an mdp with n state-action pairs and the discount factor γ∈[0,1) only o(nlog(n/δ)/((1−γ)3 ε 2)) state-transition samples are required to find an ε-optimal estimation of the action-value function with the probability (w.p.) 1−δ. further, we prove that, for small values of ε, an order of o(nlog(n/δ)/((1−γ)3 ε 2)) samples is required to find an ε-optimal policy w.p. 1−δ. we also prove a matching lower bound of θ(nlog(n/δ)/((1−γ)3 ε 2)) on the sample complexity of estimating the optimal action-value function with ε accuracy. to the best of our knowledge, this is the first minimax result on the sample complexity of rl: the upper bounds match the lower bound in terms of n, ε, δ and 1/(1−γ) up to a constant factor. also, both our lower bound and upper bound improve on the state-of-the-art in terms of their dependence on 1/(1−γ).
مقالات جدیدترین رویدادها
-
استفاده از تحلیل اهمیت-عملکرد در ارائه الگوی مدیریت خلاقیت سازمانی و ارائه راهکار جهت بهبود
-
بررسی تاثیر ارزش وجوه نقد مازاد بر ساختار سرمایه شرکت های پذیرفته شده در بورس اوراق بهادار تهران
-
بررسی تأثیر سطح افشای ریسک بر قرارداد بدهی شرکت های پذیرفته شده در بورس اوراق بهادار تهران
-
بررسی تأثیر رتبه بندی اعتباری مبتنی بر مدل امتیاز بازار نوظهور بر نقد شوندگی سهام با تأکید بر خصوصی سازی شرکت ها
-
تأثیر آمیخته بازاریابی پوشاک ایرانی بر تصویر ذهنی مشتری پوشاک ایرانی (هاکوپیان)
-
آنالیز عدم قطعیت شیروانی های نامحدود به روش شبیه سازی مونت کارلو با در نظرگیری متغیرهای تصادفی چندگانه و همبسته
-
بررسی الگوی جریان پایین دست سازه های کنترل شیب با و بدون نشت روبه بالا با استفاده از مدل عددی
-
اپیدمیولوژی مالاریا در استان اردبیل، 79-1378
-
مقایسه نتایج شبکه عصبی مصنوعی و مدل های تجربی توزیع مکانی مثلثاتی، افزایش سطح، کاهش سطح و کاهش سطح اصلاح شده در تخمین رسوبگذاری تزارهای مختلف مخزن سد کرج
-
بررسی بیان ژن گیرنده های پروژسترون در نواحی مختلف رحم در اوایل آبستنی گوسفند افشاری
مقالات جدیدترین ژورنال ها
-
مدیریت و بررسی افسردگی دانش آموزان دختر مقطع متوسطه دوم در دروان کرونا در شهرستان دزفول
-
مدیریت و بررسی خرد سیاسی در اندیشه ی فردوسی در ادب ایران
-
واکاوی و مدیریت توصیفی قلمدان(جاکلیدی)ضریح در موزه آستان قدس رضوی
-
بررسی تاثیر خلاقیت، دانش و انگیزه کارکنان بر پیشنهادات نوآورانه کارکنان ( مورد مطالعه: هتل های 3 و 4 ستاره استان کرمان)
-
بررسی تاثیر کیفیت سیستم های اطلاعاتی بر تصمیم گیری موفق در شرکتهای تولیدی استان اصفهان (مورد مطالعه: مدیران شرکتهای تولیدی استان اصفهان)
-
نقش راهبردهای مقابله اسلامی در پیش بینی آمادگی به اعتیاد در دانشجویان دختر
-
سیاست های قانونی فناوری اطلاعات و ارتباطات درتوسعه آموزش و دانش در نظام آموزشی کشور
-
شرح و نقد رای وحدت رویه 652 دیوان عالی کشور مصوب 1380/1/28 با موضوع لغو معافیت دولت از پرداخت هزینه دادرسی
-
بررسی علل ارتکاب جرایم سازمان یافته شبکه ای توسط مجرمین یقه سفید
-
road pricing effect on the emission of traffic pollutants, a case study in tehran
سوال خود را در مورد این مقاله مطرح نمایید :