خلاصه سازی فارسی
گسترش استفاده از فناوریهای نوین و دردسترس قرار گرفتن دادههای زیاد و متنوع، لزوم وجود ابزارهای تسهیلکننده را برای سرعت بخشیدن به کسب اطلاعات مفید و مختصر بیشتر نمایان ساخته است. سامانههای خودکار خلاصهساز متن یکی از کاربردیترین ابزارهای پردازش زبان طبیعی است. در پژوهش پیش رو، یک سامانهی خلاصهساز استخراجی تکسندی معرفی شده است که با استفاده از روشهای تعبیهی متن، اجزای متن ورودی را به برداری از اعداد حقیقی تبدیل میکند و سپس جملات برتر را برای ایجاد خلاصه انتخاب میکند.این روند به صورت بدون ناظر و بدون استفاده از ویژگیهای متن انجام میشود. همچنین روشهای پیشنهادی در این پژوهش همگی مستقل از زبان هستند و قابلیت اعمال شدن در زبانهای مختلف را دارند.
فرآیند خلاصهسازی در سه مرحلهی پیشپردازش، تولید ماتریس شباهت جملات و انتخاب جملات خلاصه صورت میپذیرد. در مرحلهی پیشپردازش، نرمالسازی متن ورودی، اصلاح نویسهها و نشانهگذاری صورت گرفته است. برای مرحلهی تولید ماتریس شباهت جملات، هفت روش بر بستر تعبیهی واحدهای متنی شامل جملات، عبارات و کلمات پیشنهاد شده است. برای اعمال این روشها در زبان فارسی، مدلهای تعبیهی متن مورد نیاز ساخته شده است. ساخت این مدلها برای زبان فارسی پس از جمعآوری پیکرهی بدون برچسب مورد نیاز انجام شده است. پیکرهی جمعآوری شده و مدلهای ساخته شده در زبان فارسی (pretrained) در بخش منابع آزمایشگاه قابل دریافت هستند.
همچنین دو روش کاربردی برای انتخاب جملات خلاصه از میان جملات متن ورودی معرفی شده است. جهت ارزیابی این سامانه، از پیکرهی استاندارد پاسخ در زبان فارسی و پیکرهی SUMMAC در زبان انگلیسیاستفاده شده است. روشهای پیشنهادی روی این پیکرهها آزمایش شدند و بر اساس معیار استاندارد ROUGE با یکدیگر مورد مقایسه قرار گرفته اند. بهترین روشهای پیشنهادی، با سامانههای ایجاز و فارسیسام به عنوان دو سامانهی موفق فارسی مقایسه شده اند که نتایج نشاندهندهی افزایش فراخوانی حداقل دو درصدی سامانهی پیشنهادی بر اساس معیار ROUGE در زبان فارسی است.
نسخهی تحت وب این سامانه در summarize.ut.ac.ir قابل مشاهده است.