نمایشگر دسته ای مطالب نمایشگر دسته ای مطالب

بازگشت به صفحه کامل

مسعود جلیلی ثابت

مسعود جلیلی ثابت


مسعود جلیلی ثابت

کارشناسی ارشد گرایش مهندسی نرم افزار

 

عنوان پایان‌نامه: ارائه یک مدل ترجمه با استفاده از جایگذاری طیفی واژگان

تحقیق‌های اخیر در حوزه نمایش برداری کلمات، افزایش توانایی این بردارها در دریافت بعد معنایی کلمات را نشان می‌دهند. از این رو، می‌توان از این نمایش‌های برداری در اندازه‌گیری شباهت کلمات در یک یا چند زبان بهره گرفت که این امر می‌تواند در تحقیقات حوزه پردازش زبان‌های طبیعی بسیار مفید باشد. سیستم‌های ترجمه ماشینی آماری عموماً عمل ترجمه را به دو یا چند بخش کوچک‌تر تقسیم می‌کنند و یکی از مهم‌ترین بخش‌های آن استخراج هم‌ترازی کلمات از روی یک پیکره موازی دوزبانه شامل جملات هم‌تراز شده است. یکی از روش‌های رایج استخراج هم‌ترازی کلمات از مدل ترجمه مولد بهره می‌گیرد که با ورودی گرفتن جمله‌ای در یک زبان، یک جمله در زبان دیگر تولید می‌کند. از آنجا که هم‌ترازسازی کلمات نیازمند نوعی مقایسه بین کلمات زبان مبدأ و زبان مقصد است، یک مدل ترجمه مناسب می‌تواند هم‌ترازی‌های به مراتب بهتری تولید کند. تولید مدل ترجمه مناسب نیازمند حجم بالای داده موازی شامل هم‌ترازی بین جملات است که در بسیاری از جفت زبان‌ها در دسترس نیست. در این پژوهش به کاربرد نمایش برداری کلمات در ساخت مدل‌های ترجمه پرداخته می‌شود. در این پژوهش به منظور ساخت مدل‌های ترجمه از نمایش‌های برداری تک‌زبانه و چندزبانه بهره گرفته می‌شود. از مدل ترجمه مبتنی بر نمایش چندزبانه به منظور امتیازدهی به صحت ترجمه در پاکسازی حافظه‌های ترجمه استفاده شده است. در مرحله بعدی، با استفاده از نمایش برداری تک‌زبانه یک مدل هم‌ترازی جدید بر پایه مدل هم‌ترازی IBM Model 1 ارائه شده است. این مدل به منظور مقابله با مشکل هم‌ترازسازی در جفت زبان‌های با منابع محدود و همچنین هم‌ترازی کلمات نادر طراحی شده است. بر اساس نتایج به دست آمده، مدل چندزبانه ارائه شده در پاکسازی حافظه‌های ترجمه کارایی مناسبی داشته است. همچنین مدل هم‌ترازسازی کلمات در پیکره‌های با ابعاد کوچک نتایج بهتری کسب کرده و دقت مدل ارائه شده در هم‌ترازسازی کلمات نادر نیز در مقایسه با روش پایه بیشتر است.