اخبار و رویدادها
ترکیب یادگیری مبتنی بر عادت و مبتنی بر مدل در زیرفضاهای سنسوری
ترکیب یادگیری مبتنی بر عادت و مبتنی بر مدل در زیرفضاهای سنسوری
با توجه به اینکه در یادگیری تقویتی مجموع پاداش دریافتی عامل در طول زندگی، نه در پایان آن اهمیت دارد، یافتن روشهایی که بتواند مقدار پشیمانی را کاهش و سرعت همگرایی به سیاست بهینه را افزایش دهد، حائز اهمیت است. از اینرو سعی داریم الگوریتمی پیشنهاد دهیم که عامل با بهرهگیری از تجربهی زندگیِ خود، به تدریج مدلی از محیط تخمین بزند تا در هر گام بتواند علاوه بر یادگیری مبتنی بر عادت، از یادگیری مبتنی بر مدل نیز استفاده نماید. همچنین در نظر داریم جهت افزایش سرعت همگرایی به سیاست بهینه، از یادگیری در زیرفضاهایِ ویژگی حالت استفاده کنیم تا ضمن سادهسازی یادگیری، از تعمیم تجربیات به ابعاد بالاترِ فضای ویژگیِ حالت در اوایل زندگی، بهره ببریم. | ![]() |
ارائه دهنده | |
![]() | مریم هاشم زاده پست الکترونیک: m.hashemzadeh.b@gmail.com عضو فعال |
استاد راهنما | |
![]() | مجید نیلی احمدآبادی استاد تمام اتاق: ساختمان جدید، 734 تلفن: 61114221 پست الکترونیکی: mnili [AT] ut.ac.ir |
آدرس کوتاه :