استخراج خودکار بخش‌های مختلف صفحات وب

در این پژوهش با ارائه راه‌کاری بهینه اطلاعات موجود در صفحات وب را استخراج و بخش‌های مختلف آن را مشخص کنیم. انتظار می‌رود با انجام دسته بندی صفحات وب دید بهتری نسبت به اطلاعات موجود در سایتها پیدا کرده و تحلیل‌ و بررسی‌های دقیق‌تر و کاراتری را بر روی آن‌ها انجام دهیم. براساس نوع هر کدام از صفحات وب در نظر داریم تا سیستم یادگیری مختص به آن را که با خصیصه‌های آن سازگاری بیشتری دارد طراحی کنیم. بعنوان مثال صفحات موجود در سایتهای خبری شامل بخشهایی همچون عنوان، متن خبر، تاریخ انتشار خبر، دسته خبر و کلمات کلیدی آن به اضافه احتمالا دیدگاه‌های کاربران بازدید کننده خواهد بود اما در صفحات شبکه‌های اجتماعی ممکن است علاوه بر متن اصلی و تاریخ انتشار، نظرات دوستان، تعداد پسند‌ها، کاربران پسند کرده و تعداد بازنشر دهندگان آنها را نیز مشاهده کنیم.

 

ارائه دهنده پروژه

مهدی یداللهی
پست الکترونیک: mehdiyadollahi68 [at] gmail.com
عضو سابق
 

استاد راهنما

مسعود اسدپور
استادیار
اتاق: ساختمان جدید، 720
تلفن: 61114951
پست الکترونیکی: asadpour [AT] ut.ac.ir