خلاصه سازی فارسی خلاصه سازی فارسی

گسترش استفاده از فناوری‌های نوین و دردسترس قرار گرفتن داده‌های زیاد و متنوع، لزوم وجود ابزارهای تسهیل‌کننده‌ را برای سرعت بخشیدن به کسب اطلاعات مفید و مختصر بیشتر نمایان ساخته است. سامانه‌های خودکار خلاصه‌ساز متن یکی از کاربردی‌ترین ابزارهای پردازش زبان طبیعی است. در پژوهش پیش‌ رو، یک سامانه‌ی خلاصه‌ساز استخراجی تک‌سندی معرفی شده است که با استفاده از روش‌های تعبیه‌ی متن، اجزای متن ورودی را به برداری از اعداد حقیقی تبدیل می‌کند و سپس جملات برتر را برای ایجاد خلاصه انتخاب می‌کند.این روند به صورت بدون ناظر و بدون استفاده از ویژگی‌های متن انجام می‌شود. هم‌چنین روش‌های پیشنهادی در این پژوهش همگی مستقل از زبان هستند و قابلیت اعمال شدن در زبان‌های مختلف را دارند.

فرآیند خلاصه‌سازی در سه مرحله‌ی پیش‌پردازش، تولید ماتریس شباهت جملات و انتخاب جملات خلاصه صورت می‌پذیرد. در مرحله‌ی پیش‌پردازش، نرمال‌سازی متن ورودی، اصلاح نویسه‌ها و نشانه‌گذاری صورت گرفته است. برای مرحله‌ی تولید ماتریس شباهت جملات، هفت روش بر بستر تعبیه‌ی واحد‌های متنی شامل جملات، عبارات و کلمات پیشنهاد شده است. برای اعمال این روش‌ها در زبان فارسی، مدل‌های تعبیه‌ی متن مورد نیاز ساخته شده است. ساخت این مدل‌ها برای زبان فارسی پس از جمع‌آوری پیکره‌ی بدون برچسب مورد نیاز انجام شده است. پیکره‌ی جمع‌آوری شده و مدل‌های ساخته شده در زبان فارسی (pretrained) در بخش منابع آزمایشگاه قابل دریافت هستند.

هم‌چنین دو روش کاربردی برای انتخاب جملات خلاصه از میان جملات متن ورودی معرفی شده است. جهت ارزیابی این سامانه، از پیکره‌ی استاندارد پاسخ در زبان فارسی و پیکره‌ی SUMMAC در زبان انگلیسیاستفاده شده است. روش‌های پیشنهادی روی این پیکره‌ها آزمایش شدند و بر اساس معیار استاندارد ROUGE با یکدیگر مورد مقایسه قرار گرفته اند. بهترین روش‌های پیشنهادی، با سامانه‌های ایجاز و فارسی‌سام به عنوان دو سامانه‌ی موفق فارسی مقایسه شده اند که نتایج نشان‌دهنده‌ی افزایش فراخوانی حداقل دو درصدی سامانه‌ی پیشنهادی بر اساس معیار ROUGE در زبان فارسی است.
نسخه‌ی تحت وب این سامانه در summarize.ut.ac.ir قابل مشاهده است.