مجموعه داده‌ای: پیکره چندزبانه رایانامه‌ مجموعه داده‌ای: پیکره چندزبانه رایانامه‌

یکی از مسائلی که در مدیریت رایانامه‌ها مطرح می‌باشد، تعیین ریسمان‌های گفتگو است که برای بررسی کیفیت روش‌های ارائه شده برای حل این مسئله، وجود پیکره‌هایی که دارای برچسب ریسمان‌های گفتگو می‌باشند ضروری استبرای این مورد، مجموعه‌های تک زبانه به زبان انگلیسی موجود می‌باشند، اما پیکره‌ای که مربوط به محیط‌های چند‌زبانه ‌باشد وجود نداردپیکره چندزبانه رایانامه‌ها برای تشخیص ریسمان‌های گفتگوی چند زبانه در آزمایشگاه سیستم‌های هوشمند اطلاعات تهیه شده استنام این پیکره «Multilingual-BC3» می‌باشد که در حقیقت یک پیکره ساختگی چندزبانه است که حاصل از ترجمه بخشی از پیکره تک‌زبانه BC3، توسط عامل انسانی است.

 

پیکره اولیه BC3 به صورت تک‌زبانه و در زبان انگلیسی توسط آزمایشگاه هوش محاسباتی در دانشگاه British Columbia ساخته شده است.این پیکره، یک زیرمجموعه از پیکره W3C است که دارای برچسب‌های معنایی، نظیرحالت گفتار در سطح جمله و برچسب خلاصه‌سازی گفتگوها می‌باشدپیکرهConThread-BC3 یک نسخه از BC3 است که در آن‌، برچسب‌های نشان‌دهنده ساختار ریسمان‌های گفتگو و همچنین اطلاعات مربوط به برچسب متن اصلی و متن نقل‌قول رایانامه‌ها اضافه گردیده استپیکرهMultilingual-BC3، در دو نسخه تهیه گردیده که نسخه اول، گونه‌ای چند‌زبانه از نسخه اولیه BC3 و نسخه دوم گونه‌ای چند‌زبانه از ConThread-BC3 می‌باشدقابل ذکر است که اطلاعات برچسب‌های موجود در نسخه‌های تک‌زبانه مستقل از زبان بوده و قابل گسترش به Multilingual-BC3 خواهند بود.

 

ریسمان‌های گفتگو در پیکره Multilingual-BC3 به دو زبان فارسی و انگلیسی هستندبرای ساخت این پیکره، انتخاب قسمتی از پیکره BC3که به صورت دستی ترجمه شده است به گونه‌ای بوده که گفتگوهای واقعی چند‌زبانه در رایانامه‌ها شبیه‌سازی شوندبدین منظور، فرض گردیده که رایانامه‌های ارسالی توسط هریک از افرادی که به عنوان فرستنده‌های رایانامه‌ها در پیکره وجود دارند، تنها در یک زبان باشند.بدین‌ترتیب، تعدادی از افراد (۲۵ نفر از ۱۶۰ نفرانتخاب شده و تمامی رایانامه‌های ارسالی آن‌ها ترجمه گردیده‌انددر نتیجه این فرآیند، ۱۰۷ رایانامه از ۲۶۱ رایانامه موجود در پیکره اولیه ترجمه شده‌‌اندقابل ذکر است که زبان متون نقل قول نیز با توجه به رایانامه‌های ترجمه شده، بازاصلاح گردیده‌اند.

 

اطلاعات ارجاع

 

M. Dehghani, A. Shakery, M. Asadpour, and A. Koushkestani, "A Learning Approach for Email Conversation Thread Reconstruction", Journal of Information Science (JIS), Volume 39 Issue 6, 2013, pp. 846-863. 

 

سایر مستندات

 

مصطفی دهقانی. (۱۳۹۳). مدیریت رایانامه‌ها در محیط‌های چندزبانهپایان‌نامه کارشناسی ارشددانشگاه تهران.

 

این مجموعه داده‌ای به عنوان بخشی از پروژه «ایجاد و توسعه پیکره دادگان متنی مرجع در زبان فارسی»، تحت حمایت معاونت علمی و فناوری ریاست جمهوری، ستاد توسعه فناوری اطلاعات و ارتباطات توسعه داده شده است.

 

 

دانلود:

دریافت مجموعه داده‌ای پیکره چندزبانه رایانامه

توجه: برای استفاده از این مجموعه داده‌ای، لطفاً با ارسال ایمیل به سرپرست آزمایشگاه، پسورد مربوطه را دریافت نمایید.

 

ارائه دهنده پروژه

مصطفی دهقانی
پست الکترونیک: mo.dehghani [at] ut.ac.ir
عضو سابق
 

استاد راهنما

آزاده شاکری
استادیار
اتاق: ساختمان جدید، 517
تلفن: 61119722
پست الکترونیکی: shakery [AT] ut.ac.ir