مجموعه داده‌ای: پیکره تطبیقی UTPECC

پیکره‌های تطبیقی، اسنادی در دو زبان متفاوت هستند که موضوعات مشابهی را می‌پوشانندبه عنوان مثال اخبار منتشر شده بر روی وقایع مشترک در دو زبان مختلف نمونه‌ای از اینگونه پیکره‌ها می‌باشنداگرچه ممکن است منابع زبان‌شناسی غنی همانند واژه‌نامه‌ها و یا پیکره‌های موازی بین دو زبان نداشته‌ باشیم، ولی معمولا پیکره‌های تطبیقی بین دو زبان قابل ایجاد هستنددر نتیجه برترین مزیت این گونه از منابع در دسترس بودن آن‌ها است که باعث شده ایجاد و استفاده از پیکره‌های تطبیقی به عنوان زمینه معتبری در بازیابی اطلاعات بین زبانی مطرح باشد.

 

پیکره‌ تطبیقی فارسی-انگلیسی UTPECC  در آزمایشگاه سامانه‌های هوشمند اطلاعات توسعه داده شده است که نسخه اولیه آن در حال حاضر در دسترس می‌باشددر این نسخه اسناد مستقل از دامنه موضوعیشان جمع‌آوری شده و همتراز شده‌انددر نسخه‌های ‌بعدی این مجموعه تطبیقی، اسناد جمع‌آوری شده از وب با توجه به دامنه‌شان (از دامنه‌های متفاوتهم‌تراز با اسناد زبان دیگر در همان دامنه خواهند شد.

 

برای ساخت نسخه اول پیکره تطبیقی فارسی-انگلیسی از دو مجموعه اخبار متفاوت از دو مبدأ مجزا استفاده شده‌استمجموعه اسناد انگلیسی شامل اخبار منتشر شده توسط خبرگزاری بی‌بی‌سی و مجموعه اسناد فارسی شامل اخبار منتشر شده در روزنامه همشهری می‌باشدبازه زمانی انتشار اسناد ازژانویه ۲۰۰۲ تادسامبر ۲۰۰۶ بوده‌ است.

 

اخبار بی‌بی‌سی از روی وب سایت خبرگزاری بی‌بی‌سی خزش شده‌ و پس از پیش‌پردازش، به فرمت استاندارد درآمده‌اندهمچنین اخبار محلی انگلستان که به احتمال زیاد با هیچ یک از اسناد فارسی هم‌تراز نمی‌شده‌اند، در مرحله پیش پردازش حذف شده‌انداین مجموعه شامل۵۳،۶۹۷ سند با طول متوسط ۴۶۱ کلمه استدر این مجموعه اسناد، ۱۴،۸۱۹ کلمه‌ یکتا وجود دارداسناد همشهری نیز از پیکره‌ی همشهری که شامل اخبار منتشر شده در سال‌های ۱۹۹۶ تا ۲۰۰۷ است، استخراج شده‌انداین مجموعه شامل ۱۹۱،۴۴۰ سند با طول متوسط ۵۲۷ کلمه استتعداد کلمات یکتای موجود در این مجموعه ۵۲۸،۸۶۴ می‌باشد.

 

اطلاعات ارجاع

 

-Homa B. Hashemi, Azadeh Shakery, and Heshaam Faili, "Creating a Persian-English Comparable Corpus", in proceedings of Conference on Multilingual and Multimodal Information Access Evaluation (CLEF), Padua, Italy, pp. 27-39, 2010.

سایر مستندات

 

هما برادران هاشمی. (۱۳۸۹). استفاده از پیکره‌های تطبیقی برای بازیابی اطلاعات بین زبانی فارسی-انگلیسیپایان‌نامه کارشناسی ارشد.دانشگاه تهران.

 

 

این مجموعه داده‌ای به عنوان بخشی از پروژه «ایجاد و توسعه پیکره دادگان متنی مرجع در زبان فارسی»، تحت حمایت معاونت علمی و فناوری ریاست جمهوری، ستاد توسعه فناوری اطلاعات و ارتباطات توسعه داده شده است.

 

دانلود:

نسخه ۱.۰: ۷۵۸۰ همترازی، ۴۲۶۷ سند بی‌بی‌سی، ۳۴۸۸ سند همشهری

نسخه ۱.۱: ۱۰۲۴۷ همترازی، ۵۵۷۲ سند بی‌بی‌سی، ۴۵۹۸ سند همشهری

توجه: برای استفاده از این مجموعه داده‌ای، لطفاً با ارسال ایمیل به سرپرست آزمایشگاه، پسورد مربوطه را دریافت نمایید.

 

ارائه دهنده پروژه

هما برادران هاشمی
پست الکترونیک: h.b.hashemi [at] ece.ut.ac.ir
عضو سابق
 

استاد راهنما

آزاده شاکری
استادیار
اتاق: ساختمان جدید، 517
تلفن: 61119722
پست الکترونیکی: shakery [AT] ut.ac.ir