English Version

مجموعه همشهری

مقدمه

مجموعه‌های متنی ابزارهای مهمی برای پیشبرد تحقیقات در تعدادی از شاخه‌های علوم کامپیوتر مانند بازیابی اطلاعات (Information Retrieval)، زبانشناسی پیکره‌ای (Corpus Linguistics) و زبانشناسی محاسباتی (Computational Linguistics) هستند. مجموعه آزمایش همشهری یکی از معتبرترین این منابع در زبان فارسی است. از این مجموعه در همایش‌های معتبر بین‌المللی Persian@CLEF2008 و Persian@CLEF2009 استفاده شده است. لازم به ذکر است که سایت قدیمی مجموعه همشهری از این آدرس قابل دسترسی است.

یک مجموعه آزمایش (Test Collection) دارای اجزاء زیر می‌باشد:

  • یک مجموعه استاندارد: باید به اندازه کافی بزرگ باشد تا بتوان آن را نماینده‌ای از متون فارسی در نظر گرفت و نتایج آزمایشات روی مجموعه را تعمیم داد.

  • مجموعه‌ای از پرس‌وجوها

  • داوری ارتباط اسناد مجموعه به پرس‌وجوها (Relevance Judgment)

در این پژوهش ما مجموعه آزمایش همشهری را ایجاد نموده‌ایم به نحوی که نیازمندی‌های فوق را تا حد ممکن برآورده سازد.

 

مجموعه همشهری

مجموعه اسناد همشهری با خزش (Crawl) وب سایت همشهری و چندین مرحله پیش‌پردازش و برچسب‌گذاری حاصل آمده است. نسخه 1 این مجموعه نمونه‌ای است که در همایش‌های CLEF در سال‌های 2008 و 2009 برای ارزیابی سامانه‌های ارزیابی سامانه‌های بازیابی اطلاعات تک‌منظوره (Ad Hoc) مورد استفاده قرار گرفته است. نسخه 2، آخرین نسخه مجموعه است که نسبت به نسخه 1 بزرگتر و جامع‌تر می‌باشد.

برای نسخه 1 مجموعه همشهری دو سری پرس‌و‌جوی استاندارد در همایش بین المللی CLEF در سال های 2008 و 2009 ایجاد شده‌اند. هر سری از پرس‌و‌جو ها شامل 50 موضوع به دو زبان انگلیسی و فارسی است که توسط 25 کاربر ساخته و ارزیابی شده‌اند. برای اینکار از سامانه DIRECT تهیه شده در گروه تحقیقاتی Information Management Systems در دانشگاه پادوا (ایتالیا) استفاده شده است. از این سامانه برای ایجاد موضوع، ارزیابی موضوع‌ها و دریافت نتایج شرکت کنندگان در CLEF استفاده می‌شود.

 

مشخصات مجموعه همشهری

جدول زیر مشخصات کمی نسخه‌های 1و 2 مجموعه همشهری را نشان می‌دهد.

 

معیار
نسخه ۱
نسخه ۲
حجم (یونیکد در قالب CLEF) 700 مگابایت 1400 مگابایت
تعداد اسناد 160 هزار 318 هزار
محدوده زمانی اسناد از 1375/2/4 1375/2/4
تا 1381/11/22 1386/2/23
طبقه‌بندی اسناد دارد دارد
پیوند به تصاویر ندارد دارد
پیوند به اصل صفحات در وب ندارد دارد
پرس‌و‌جو + داوری ارتباط دارد دارد

 

مقایسه نسخه‌های 1 و 2 مجموعه همشهری

  • متون در نسخه 2 از ساختار بهتری برخودار هستند.

  • حجم و تعداد اسناد در نسخه 2 تقریبا 2 برابر شده است و محدوده زمانی اخبار نیز از 7 سال به 12سال افزایش پیدا کرده است.

  • پیوند به صفحات اصلی در نسخه 2 (تحت برچسب‌های ORIGINALFILE) نگهداری شده‌اند. بدین صورت پژوهشگران در صورت نیاز می‌توانند صفحه اولیه اینترنتی خبر را دانلود نموده و پردازش‌های دلخواه خود را روی آن انجام دهند.

  • در نسخه 2 تصاویر موجود در اخبار استخراج و حفظ شده‌اند. تصاویر در بسته‌ای مجزا با نام HAM2-IMG قابل دریافت هستند (شامل 148,639 تصویر در قالب JPEG با حجم کلی 1900 مگابایت).

ویژگی‌های فوق، علاوه بر کاربرد‌های متداول بازیابی اطلاعات و طبقه‌بندی و کلاس‌بندی متون (Text Categorization & Classification)، نسخه ۲ مجموعه همشهری را برای تحقیقات و کاربرد‌های بازیابی تصاویر (Image Retrieval) نیز مناسب نموده است. با این وجود در حال حاضر تنها نسخه 1 مجموعه همشهری به تایید همایش بین‌المللی CLEF رسیده است.

 

کاربرد‌ها

مجموعه همشهری می‌تواند در بسیاری از زمینه‌های تحقیقاتی مربوط به بازیابی اطلاعات مورد استفاده قرار بگیرد، از جمله:

  • بررسی مؤلفه‌های مختلف موتورهای جستجو و الگوریتم‌های مختلف بازیابی اطلاعات مانند الگوریتم‌های شاخص‌گذاری و مدل‌های بازیابی.

  • تحلیل زبان فارسی: مجموعه‌ای که در این تحقیق ایجاد شده است را می‌توان برای تحلیل خصوصیات زبان فارسی نیز استفاده کرد.

  • الگوریتم‌های خوشه‌بندی و کلاس‌بندی اسناد فارسی: همه اسناد مجموعه همشهری دارای برچسب "Cat" هستند که نشان می‌دهد هر سند در چه رده‌ای است (اقتصادی، سیاسی و ...).

  • الگوریتم‌های ریشه‌یابی و تحلیل زبان فارسی: این دسته از الگوریتم‌ها از مهمترین الگوریتم‌ها هستند که در کاربردهای دیگر مانند بازیابی اطلاعات، ترجمه زبانی و غلط یاب کاربرد فراوانی دارند. مجموعه همشهری از متن روزنامه همشهری تهیه شده است که متنی منظم و بدون غلط است و این مطلب این مجموعه را برای الگوریتم‌های ریشه‌یابی و تحلیل زبان فارسی مناسب می‌کند. همچنین از این مجموعه برای ساخت ریشه‌یاب‌های آماری فارسی نیز می‌توان استفاده کرد.

 

حقوق مؤلفین

تمامی حقوق مادی و معنوی اخبار مجموعه همشهری متعلق به روزنامه همشهری می‌باشد. حقوق مادی و معنوی مجموعه و داده‌ها و ابزار‌های جنبی توسعه داده شده برای آن متعلق به مرکز تحقیقات مخابرات ایران می‌باشد. استفاده از مجموعه و ابزار‌های جنبی برای کاربرد‌های تحقیقاتی و غیر تجاری با ذکر منبع بلامانع است. لطفاً در صورت استفاده از مجموعه آزمایش همشهری و یا ابزارهای مرتبط از [1] جهت ارجاع استفاده نمایید.

 

تقدیر و تشکر

این پروژه توسط مرکز تحقیقات مخابرات ایران و آزمایشگاه پایگاه داده دانشگاه تهران پشتیبانی شده است که بدین وسیله مجریان پروژه مراتب سپاس‌گزاری خود را اعلام می‌نمایند.

 


  • » مجموعه همشهری
  • » دانلود
  • » لیست مقالات
  • » اعضای پروژه
  • » تماس با ما

پیوندها
  • پیکره بیژن‌خان «
  • dotIR مجموعه وب «
  • دانشگاه تهران «
  • DBRG «
  • TREC «
  • CAASL «
  • CLEF «

 

© Copyright 2009 University of Tehran, Database Research Group. All Rights Reserved.
Designed by Farzad Mahdikhani - Last update: 2010 Feb. 18