مجموعه محک وب dotIR

مقدمه

بازیابی اطلاعات وب (Web Information Retrieval) زمینه تحقیقاتی است که در آن از فنون حوزه بازیابی اطلاعات برای برطرف‌سازی یک نیاز اطلاعاتی در محیط وب استفاده می‌شود. در این نوع بازیابی علاوه بر متون می‌توان از اطلاعات موجود در فرا‌داده (Meta Data) و ساختار پیوندی اسناد نیز استفاده نمود. موتورهای جستجوی متداول در وب (مانند گوگل) در همین زمینه فعالیت می‌نمایند.

در جهت پیشبرد تحقیقات در این زمینه و مخصوصاً برای ارزیابی اصولی سامانه‌هایی که در این حوزه کار می‌کنند نیاز به مجموعه‌ آزمایشی (Test Collection) است که علاوه بر متن ساختار پیوندی مشابه وب داشته باشد. یک مجموعه آزمایش استاندارد برای وب باید مشخصات زیر را داشته باشد:

  • جستجوی وب واقعی را مدل کند، توسط:

    • یک مجموعه استاندارد: باید به اندازه کافی بزرگ و نماینده‌ واقعی از وب باشد تا بتوان نتایج آزمایشات روی مجموعه را تعمیم داد.

    • مجموعه‌ای از پرس‌وجوها

    • مجموعه‌ای کامل و کافی از داوری ارتباط اسناد مجموعه به پرس‌وجوها

  • بستری برای ارزیابی روش‌های بازیابی مبنی بر پیوند و رتبه‌بندی فراهم کند.

  • نه خیلی بزرگ و نه خیلی نامنظم باشد، تا استفاده از آن دلسرد کننده نباشد.

 

مجموعه آزمایش استاندارد dotIR

در اين پژوهش مجموعه آزمايش dotIR به گونه‌ای ايجاد شده است كه تا حد ممکن خصوصیات مطرح شده بالا را در بر داشته باشد. بدین منظور مجموعه‌ای حاصل از خزش (Crawl) وب در حوزه ir. شامل یک میلیون سند ایجاد شد. سپس با استفاده از نرم‌افزار ابداعی UTIRE تعداد 50 پرس‌و‌جو توسط 25 کاربر ساخته شدند. این پرس‌و‌جو‌ها برای جستجوی مجموعه مورد استفاده قرار گرفتند و صفحات بازیابی شده، شامل مجموع 18424 سند (بطور متوسط 369 سند برای هر پرس‌و‌جو)، توسط همان 25 کاربر مورد قضاوت قرار گرفتند. بدین ترتیب اسناد مرتبط با هر پرس‌و‌جو مشخص گردید.

بعلاوه برای بررسی و مقایسه الگوریتم‌های رتبه‌بندی در فعالیتی موازی تعداد 56 ویژگی (Feature) از اسناد بازیابی شده برای هر پرس‌و‌جو بر اساس استاندارد LETOR (ارائه شده توسط Microsoft Research Asia) استخراج شدند. محققان گرامی می‌توانند از بردارهای مقدار ویژگی، ارتباط برای مقایسه الگوریتم‌های پیشنهادی خود برای رتبه‌بندی و یا آموزش و تنظیم الگوریتم‌ها سود ببرند [1].

 

حقوق مؤلفین

مجموعه dotIR بر اساس خزشی از وب ساخته شده است. تمامی حقوق صفحات مجموعه متعلق به دارندگان وب سایت‌های مورد استفاده می‌باشد. حقوق مادی و معنوی مجموعه و ابزار‌های جنبی توسعه داده شده متعلق به مرکز تحقیقات مخابرات ایران می‌باشد. استفاده از مجموعه و ابزار‌های جنبی برای کاربرد‌های تحقیقاتی و غیر تجاری با ذکر منبع بلامانع است. لطفاً در صورت استفاده از مجموعه dotIR و یا ابزارهای مرتبط از [1] جهت ارجاع استفاده نمایید.

 

تقدیر و تشکر

این پروژه توسط مرکز تحقیقات مخابرات ایران و آزمایشگاه پایگاه داده دانشگاه تهران پشتیبانی شده است که بدین وسیله مجریان پروژه مراتب سپاس‌گزاری خود را اعلام می‌نمایند.

 

  • » مجموعه محک وب
  • » دانلود
  • » لیست مقالات
  • » اعضای پروژه
  • » تماس با ما

پیوندها
  • پیکره بیژن‌خان «
  • مجموعه همشهری «
  • دانشگاه تهران «
  • DBRG «
  • TREC «
  • CAASL «
  • CLEF «

 

© Copyright 2009 University of Tehran, Database Research Group. All Rights Reserved.
Designed by Farzad Mahdikhani - Last update: 2010 Feb. 18 Free counter and web stats