بهبود ساخت درخت تصمیم در یادگیری تقویتی سلسله مراتبی با استفاده از سری فوریه

یک راه‌‌حل برای یادگیری تقویتی در فضای حالت پیوسته، گسسته‌سازی فضای حالت و استفاده از روش‌های مرسوم در فضای حالت گسسته مانند روش‌های جدولی است.  این روش‌ها نسبت به افزایش ابعاد، قابلیت  مقیاس‌پذیری مناسبی ندارند و با افزایش ابعاد مساله، زمان یادگیری به‌صورت نمایی افزایش می‌یابد. یکی از راه‌هایی که برای رفع این مشکل معرفی شده است،  استفاده از گسسته‌سازی ناهمگون است. به این صورت که در ناحیه‌هایی از فضای‌حالت که مهم‌تر هستند و تغییرات بیشتری در آ‌ن‌ها و‌جود دارد، فضا را بیشتر تقسیم  کرده ولی در نواحی ساده و با تغییرات کمتر،   فضا بزرگ‌تر در نظر  گرفته می‌شوند. با این‌کار سعی می‌شود تعادلی بین نیاز به دقت بالاتر برای افزایش پاداش و تعداد نواحی کم‌تر برای افزایش سرعت یادگیری برقرار کرد. درخت تصمیم یکی از مرسوم‌ترین روش‌ها برای گسسته‌سازی ناهمگون است اما کاربرد این‌ روش‌ در یادگیری تقویتی به دلیل ماهیت تعاملی و در حال تغییر مساله یادگیری تقویتی با مشکلاتی روبه‌رو است. روش‌های موجود سعی می‌کنند با تعیین یک ارزش به‌ازای هر نمونه براساس تابع ارزش مساله،  قابلیت تفکیکی بین نمونه‌های موجود ایجاد کنند. این‌کار دو مشکل بوجود می‌آورد، اول آنکه تشکیل نمونه‌های  با ارزش  تخمینی دقیق برای تقسیم، زمان‌بر و وابسته به تقسیمات قبلی است. دیگر آنکه تا زمانی که یادگیری  در  حد خوبی انجام  نشود،  ارزش نمونه‌ها دارای اعتبار محکمی نخواهند بود و تمام تقسیمات انجام شده بر اساس این نمونه‌ها می‌تواند نقض شود و یا بهبود یابد. عدم اعتبار و افزایش تدریجی اعتبار نمونه‌ها باعث می‌شود تعداد زیادی ناحیه بیهوده ایجاد شود که منجر به افزایش زمان یادگیری خواهد شد. در این پایان‌نامه ابتدا توسط یک روش مبتنی بر تخمین تابع خطی و  با استفاده از پایه‌های فوریه، یادگیری را  سریع‌تر و تعمیم یافته‌تر کرده و براساس آن به گسسته‌سازی ناهمگون فضای‌حالت می‌پردازیم. 

از طرفی  روش‌های تخمین تابع خطی نیازمند تعیین درجه آزادی تابع هستند تا بتوانند پیچیدگی‌های محیط را تخمین بزنند. برای رفع این مشکل، با شناسایی نواحی پیچیده در تخمین، اقدام به گسسته‌سازی فضا می‌کنیم و در هر زیر ناحیه یک تابع‌تخمین ساده با درجه آزادی کم، قرار می‌دهیم. با این‌کار تعدادی تابع تخمین  با درجه آزادی کم در فضای  گسسته‌سازی شده قرار می‌دهیم، به طوری‌که هر ناحیه پیچیده‌تر از تابع تخمین خطی متناظر با آن نباشد. با استفاده از این ایده به تدریج فضای حالت  را از  یک حالت پیوسته پیچیده و بزرگ به تعدادی حالات کوچک‌تر و ساده تقسیم کرده  و در یک  ساختار درختی  ذخیره می‌کنیم. در گام بعد این روش را روی مساله ماشین کوهستان آزمایش کرده‌ایم.  نتایج این آزمایش بیانگر این است که روش ارائه شده کارایی بهتری از نظر متوسط پاداش، پاداش لحظه‌ای و مدت زمان‌پردازش دارد.

 

ارائه دهنده پروژه

امین نیازی
پست الکترونیک: amin.niazi@gmail.com
عضو سابق
 

استاد راهنما

مسعود اسدپور
استادیار
اتاق: ساختمان جدید، 720
تلفن: 61114951
پست الکترونیکی: asadpour [AT] ut.ac.ir