اخبار و رویدادها

ترکیب یادگیری مبتنی بر عادت و مبتنی بر مدل در زیرفضاهای سنسوری

ترکیب یادگیری مبتنی بر عادت و مبتنی بر مدل در زیرفضاهای سنسوری


با توجه به این‌که در یادگیری تقویتی مجموع پاداش دریافتی عامل در طول زندگی، نه در پایان آن اهمیت دارد، یافتن روش‌هایی که بتواند مقدار پشیمانی را کاهش و سرعت همگرایی به سیاست بهینه را افزایش دهد، حائز اهمیت است. از این‌رو سعی داریم الگوریتمی پیشنهاد دهیم که عامل با بهره‌گیری از تجربه‌ی زندگیِ خود، به تدریج مدلی از محیط تخمین بزند تا در هر گام بتواند علاوه بر یادگیری مبتنی بر عادت، از یادگیری مبتنی بر مدل نیز استفاده نماید. همچنین در نظر داریم جهت افزایش سرعت همگرایی به سیاست بهینه، از یادگیری در زیرفضاهایِ ویژگی حالت استفاده کنیم تا ضمن ساده‌سازی یادگیری، از تعمیم تجربیات به ابعاد بالاترِ فضای ویژگیِ حالت در اوایل زندگی، بهره ببریم.

 

ارائه دهنده
مریم هاشم زاده
پست الکترونیک: m.hashemzadeh.b@gmail.com
عضو فعال
استاد راهنما
مجید نیلی احمدآبادی
استاد تمام
اتاق: ساختمان جدید، 734
تلفن: 61114221
پست الکترونیکی: mnili [AT] ut.ac.ir

 

آدرس کوتاه :