اخبار و رویدادها
مجموعه دادهای: پیکره تطبیقی UTPECC
مجموعه دادهای: پیکره تطبیقی UTPECC
پیکرههای تطبیقی، اسنادی در دو زبان متفاوت هستند که موضوعات مشابهی را میپوشانند. به عنوان مثال اخبار منتشر شده بر روی وقایع مشترک در دو زبان مختلف نمونهای از اینگونه پیکرهها میباشند. اگرچه ممکن است منابع زبانشناسی غنی همانند واژهنامهها و یا پیکرههای موازی بین دو زبان نداشته باشیم، ولی معمولا پیکرههای تطبیقی بین دو زبان قابل ایجاد هستند. در نتیجه برترین مزیت این گونه از منابع در دسترس بودن آنها است که باعث شده ایجاد و استفاده از پیکرههای تطبیقی به عنوان زمینه معتبری در بازیابی اطلاعات بین زبانی مطرح باشد.
پیکره تطبیقی فارسی-انگلیسی UTPECC در آزمایشگاه سامانههای هوشمند اطلاعات توسعه داده شده است که نسخه اولیه آن در حال حاضر در دسترس میباشد. در این نسخه اسناد مستقل از دامنه موضوعیشان جمعآوری شده و همتراز شدهاند. در نسخههای بعدی این مجموعه تطبیقی، اسناد جمعآوری شده از وب با توجه به دامنهشان (از دامنههای متفاوت) همتراز با اسناد زبان دیگر در همان دامنه خواهند شد.
برای ساخت نسخه اول پیکره تطبیقی فارسی-انگلیسی از دو مجموعه اخبار متفاوت از دو مبدأ مجزا استفاده شدهاست. مجموعه اسناد انگلیسی شامل اخبار منتشر شده توسط خبرگزاری بیبیسی و مجموعه اسناد فارسی شامل اخبار منتشر شده در روزنامه همشهری میباشد. بازه زمانی انتشار اسناد ازژانویه ۲۰۰۲ تادسامبر ۲۰۰۶ بوده است.
اخبار بیبیسی از روی وب سایت خبرگزاری بیبیسی خزش شده و پس از پیشپردازش، به فرمت استاندارد درآمدهاند. همچنین اخبار محلی انگلستان که به احتمال زیاد با هیچ یک از اسناد فارسی همتراز نمیشدهاند، در مرحله پیش پردازش حذف شدهاند. این مجموعه شامل۵۳،۶۹۷ سند با طول متوسط ۴۶۱ کلمه است. در این مجموعه اسناد، ۱۴،۸۱۹ کلمه یکتا وجود دارد. اسناد همشهری نیز از پیکرهی همشهری که شامل اخبار منتشر شده در سالهای ۱۹۹۶ تا ۲۰۰۷ است، استخراج شدهاند. این مجموعه شامل ۱۹۱،۴۴۰ سند با طول متوسط ۵۲۷ کلمه است. تعداد کلمات یکتای موجود در این مجموعه ۵۲۸،۸۶۴ میباشد.
اطلاعات ارجاع:
-Homa B. Hashemi, Azadeh Shakery, and Heshaam Faili, "Creating a Persian-English Comparable Corpus", in proceedings of Conference on Multilingual and Multimodal Information Access Evaluation (CLEF), Padua, Italy, pp. 27-39, 2010.
سایر مستندات:
- هما برادران هاشمی. (۱۳۸۹). استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی-انگلیسی. پایاننامه کارشناسی ارشد.دانشگاه تهران.
این مجموعه دادهای به عنوان بخشی از پروژه «ایجاد و توسعه پیکره دادگان متنی مرجع در زبان فارسی»، تحت حمایت معاونت علمی و فناوری ریاست جمهوری، ستاد توسعه فناوری اطلاعات و ارتباطات توسعه داده شده است.
دانلود:
نسخه ۱.۰: ۷۵۸۰ همترازی، ۴۲۶۷ سند بیبیسی، ۳۴۸۸ سند همشهری
نسخه ۱.۱: ۱۰۲۴۷ همترازی، ۵۵۷۲ سند بیبیسی، ۴۵۹۸ سند همشهری
توجه: برای استفاده از این مجموعه دادهای، لطفاً با ارسال ایمیل به سرپرست آزمایشگاه، پسورد مربوطه را دریافت نمایید.
ارائه دهنده پروژه
![]() هما برادران هاشمی پست الکترونیک: h.b.hashemi [at] ece.ut.ac.ir عضو سابق |
استاد راهنما
![]() آزاده شاکری استادیار اتاق: ساختمان جدید، 517 تلفن: 61119722 پست الکترونیکی: shakery [AT] ut.ac.ir |