مجموعه محک وب dotIRمقدمهبازیابی اطلاعات وب (Web Information Retrieval) زمینه تحقیقاتی است که در آن از فنون حوزه بازیابی اطلاعات برای برطرفسازی یک نیاز اطلاعاتی در محیط وب استفاده میشود. در این نوع بازیابی علاوه بر متون میتوان از اطلاعات موجود در فراداده (Meta Data) و ساختار پیوندی اسناد نیز استفاده نمود. موتورهای جستجوی متداول در وب (مانند گوگل) در همین زمینه فعالیت مینمایند. در جهت پیشبرد تحقیقات در این زمینه و مخصوصاً برای ارزیابی اصولی سامانههایی که در این حوزه کار میکنند نیاز به مجموعه آزمایشی (Test Collection) است که علاوه بر متن ساختار پیوندی مشابه وب داشته باشد. یک مجموعه آزمایش استاندارد برای وب باید مشخصات زیر را داشته باشد:
مجموعه آزمایش استاندارد dotIRدر اين پژوهش مجموعه آزمايش dotIR به گونهای ايجاد شده است كه تا حد ممکن خصوصیات مطرح شده بالا را در بر داشته باشد. بدین منظور مجموعهای حاصل از خزش (Crawl) وب در حوزه ir. شامل یک میلیون سند ایجاد شد. سپس با استفاده از نرمافزار ابداعی UTIRE تعداد 50 پرسوجو توسط 25 کاربر ساخته شدند. این پرسوجوها برای جستجوی مجموعه مورد استفاده قرار گرفتند و صفحات بازیابی شده، شامل مجموع 18424 سند (بطور متوسط 369 سند برای هر پرسوجو)، توسط همان 25 کاربر مورد قضاوت قرار گرفتند. بدین ترتیب اسناد مرتبط با هر پرسوجو مشخص گردید. بعلاوه برای بررسی و مقایسه الگوریتمهای رتبهبندی در فعالیتی موازی تعداد 56 ویژگی (Feature) از اسناد بازیابی شده برای هر پرسوجو بر اساس استاندارد LETOR (ارائه شده توسط Microsoft Research Asia) استخراج شدند. محققان گرامی میتوانند از بردارهای مقدار ویژگی، ارتباط برای مقایسه الگوریتمهای پیشنهادی خود برای رتبهبندی و یا آموزش و تنظیم الگوریتمها سود ببرند [1].
حقوق مؤلفینمجموعه dotIR بر اساس خزشی از وب ساخته شده است. تمامی حقوق صفحات مجموعه متعلق به دارندگان وب سایتهای مورد استفاده میباشد. حقوق مادی و معنوی مجموعه و ابزارهای جنبی توسعه داده شده متعلق به مرکز تحقیقات مخابرات ایران میباشد. استفاده از مجموعه و ابزارهای جنبی برای کاربردهای تحقیقاتی و غیر تجاری با ذکر منبع بلامانع است. لطفاً در صورت استفاده از مجموعه dotIR و یا ابزارهای مرتبط از [1] جهت ارجاع استفاده نمایید. تقدیر و تشکراین پروژه توسط مرکز تحقیقات مخابرات ایران و آزمایشگاه پایگاه داده دانشگاه تهران پشتیبانی شده است که بدین وسیله مجریان پروژه مراتب سپاسگزاری خود را اعلام مینمایند.
|
