مجموعه همشهریمقدمهمجموعههای متنی ابزارهای مهمی برای پیشبرد تحقیقات در تعدادی از شاخههای علوم کامپیوتر مانند بازیابی اطلاعات (Information Retrieval)، زبانشناسی پیکرهای (Corpus Linguistics) و زبانشناسی محاسباتی (Computational Linguistics) هستند. مجموعه آزمایش همشهری یکی از معتبرترین این منابع در زبان فارسی است. از این مجموعه در همایشهای معتبر بینالمللی Persian@CLEF2008 و Persian@CLEF2009 استفاده شده است. لازم به ذکر است که سایت قدیمی مجموعه همشهری از این آدرس قابل دسترسی است. یک مجموعه آزمایش (Test Collection) دارای اجزاء زیر میباشد:
در این پژوهش ما مجموعه آزمایش همشهری را ایجاد نمودهایم به نحوی که نیازمندیهای فوق را تا حد ممکن برآورده سازد.
مجموعه همشهریمجموعه اسناد همشهری با خزش (Crawl) وب سایت همشهری و چندین مرحله پیشپردازش و برچسبگذاری حاصل آمده است. نسخه 1 این مجموعه نمونهای است که در همایشهای CLEF در سالهای 2008 و 2009 برای ارزیابی سامانههای ارزیابی سامانههای بازیابی اطلاعات تکمنظوره (Ad Hoc) مورد استفاده قرار گرفته است. نسخه 2، آخرین نسخه مجموعه است که نسبت به نسخه 1 بزرگتر و جامعتر میباشد. برای نسخه 1 مجموعه همشهری دو سری پرسوجوی استاندارد در همایش بین المللی CLEF در سال های 2008 و 2009 ایجاد شدهاند. هر سری از پرسوجو ها شامل 50 موضوع به دو زبان انگلیسی و فارسی است که توسط 25 کاربر ساخته و ارزیابی شدهاند. برای اینکار از سامانه DIRECT تهیه شده در گروه تحقیقاتی Information Management Systems در دانشگاه پادوا (ایتالیا) استفاده شده است. از این سامانه برای ایجاد موضوع، ارزیابی موضوعها و دریافت نتایج شرکت کنندگان در CLEF استفاده میشود.
مشخصات مجموعه همشهریجدول زیر مشخصات کمی نسخههای 1و 2 مجموعه همشهری را نشان میدهد.
مقایسه نسخههای 1 و 2 مجموعه همشهری
ویژگیهای فوق، علاوه بر کاربردهای متداول بازیابی اطلاعات و طبقهبندی و کلاسبندی متون (Text Categorization & Classification)، نسخه ۲ مجموعه همشهری را برای تحقیقات و کاربردهای بازیابی تصاویر (Image Retrieval) نیز مناسب نموده است. با این وجود در حال حاضر تنها نسخه 1 مجموعه همشهری به تایید همایش بینالمللی CLEF رسیده است.
کاربردهامجموعه همشهری میتواند در بسیاری از زمینههای تحقیقاتی مربوط به بازیابی اطلاعات مورد استفاده قرار بگیرد، از جمله:
حقوق مؤلفینتمامی حقوق مادی و معنوی اخبار مجموعه همشهری متعلق به روزنامه همشهری میباشد. حقوق مادی و معنوی مجموعه و دادهها و ابزارهای جنبی توسعه داده شده برای آن متعلق به مرکز تحقیقات مخابرات ایران میباشد. استفاده از مجموعه و ابزارهای جنبی برای کاربردهای تحقیقاتی و غیر تجاری با ذکر منبع بلامانع است. لطفاً در صورت استفاده از مجموعه آزمایش همشهری و یا ابزارهای مرتبط از [1] جهت ارجاع استفاده نمایید. تقدیر و تشکراین پروژه توسط مرکز تحقیقات مخابرات ایران و آزمایشگاه پایگاه داده دانشگاه تهران پشتیبانی شده است که بدین وسیله مجریان پروژه مراتب سپاسگزاری خود را اعلام مینمایند.
|
||||||||||||||||||||||||||||||||||||
