اخبار و رویدادها
بهبود ساخت درخت تصمیم در یادگیری تقویتی سلسله مراتبی با استفاده از سری فوریه
بهبود ساخت درخت تصمیم در یادگیری تقویتی سلسله مراتبی با استفاده از سری فوریه
یک راهحل برای یادگیری تقویتی در فضای حالت پیوسته، گسستهسازی فضای حالت و استفاده از روشهای مرسوم در فضای حالت گسسته مانند روشهای جدولی است. این روشها نسبت به افزایش ابعاد، قابلیت مقیاسپذیری مناسبی ندارند و با افزایش ابعاد مساله، زمان یادگیری بهصورت نمایی افزایش مییابد. یکی از راههایی که برای رفع این مشکل معرفی شده است، استفاده از گسستهسازی ناهمگون است. به این صورت که در ناحیههایی از فضایحالت که مهمتر هستند و تغییرات بیشتری در آنها وجود دارد، فضا را بیشتر تقسیم کرده ولی در نواحی ساده و با تغییرات کمتر، فضا بزرگتر در نظر گرفته میشوند. با اینکار سعی میشود تعادلی بین نیاز به دقت بالاتر برای افزایش پاداش و تعداد نواحی کمتر برای افزایش سرعت یادگیری برقرار کرد. درخت تصمیم یکی از مرسومترین روشها برای گسستهسازی ناهمگون است اما کاربرد این روش در یادگیری تقویتی به دلیل ماهیت تعاملی و در حال تغییر مساله یادگیری تقویتی با مشکلاتی روبهرو است. روشهای موجود سعی میکنند با تعیین یک ارزش بهازای هر نمونه براساس تابع ارزش مساله، قابلیت تفکیکی بین نمونههای موجود ایجاد کنند. اینکار دو مشکل بوجود میآورد، اول آنکه تشکیل نمونههای با ارزش تخمینی دقیق برای تقسیم، زمانبر و وابسته به تقسیمات قبلی است. دیگر آنکه تا زمانی که یادگیری در حد خوبی انجام نشود، ارزش نمونهها دارای اعتبار محکمی نخواهند بود و تمام تقسیمات انجام شده بر اساس این نمونهها میتواند نقض شود و یا بهبود یابد. عدم اعتبار و افزایش تدریجی اعتبار نمونهها باعث میشود تعداد زیادی ناحیه بیهوده ایجاد شود که منجر به افزایش زمان یادگیری خواهد شد. در این پایاننامه ابتدا توسط یک روش مبتنی بر تخمین تابع خطی و با استفاده از پایههای فوریه، یادگیری را سریعتر و تعمیم یافتهتر کرده و براساس آن به گسستهسازی ناهمگون فضایحالت میپردازیم.
از طرفی روشهای تخمین تابع خطی نیازمند تعیین درجه آزادی تابع هستند تا بتوانند پیچیدگیهای محیط را تخمین بزنند. برای رفع این مشکل، با شناسایی نواحی پیچیده در تخمین، اقدام به گسستهسازی فضا میکنیم و در هر زیر ناحیه یک تابعتخمین ساده با درجه آزادی کم، قرار میدهیم. با اینکار تعدادی تابع تخمین با درجه آزادی کم در فضای گسستهسازی شده قرار میدهیم، به طوریکه هر ناحیه پیچیدهتر از تابع تخمین خطی متناظر با آن نباشد. با استفاده از این ایده به تدریج فضای حالت را از یک حالت پیوسته پیچیده و بزرگ به تعدادی حالات کوچکتر و ساده تقسیم کرده و در یک ساختار درختی ذخیره میکنیم. در گام بعد این روش را روی مساله ماشین کوهستان آزمایش کردهایم. نتایج این آزمایش بیانگر این است که روش ارائه شده کارایی بهتری از نظر متوسط پاداش، پاداش لحظهای و مدت زمانپردازش دارد.
ارائه دهنده پروژه
امین نیازی پست الکترونیک: amin.niazi@gmail.com عضو سابق |
استاد راهنما
![]() مسعود اسدپور استادیار اتاق: ساختمان جدید، 720 تلفن: 61114951 پست الکترونیکی: asadpour [AT] ut.ac.ir |