مجموعه داده‌ای: پیکره واژگان فارسی دارای برچسب قطبیت (مثبت/منفی/خنثی) مجموعه داده‌ای: پیکره واژگان فارسی دارای برچسب قطبیت (مثبت/منفی/خنثی)

یکی از نیازمندی‌های اولیه در تحلیل نظرات کاربران و اندیشه‌کاوی، وجود مجموعه واژگان حاوی قطبیت است. این مجموعه‌ها در سطوح مختلفی در برخی از زبان‌ها تولید شده‌اند. هر ورودی در این مجموعه‌ها می‌تواند یک کلمه یا عبارت باشد. برای هر ورودی در این مجموعه‌ها بار معنایی مثبت و یا منفی بودن تعیین می‌شود. در برخی موارد به هر کلمه یک عدد نسبت داده می‌شود که میزان قطبیت آن کلمه را تعیین می‌کند.

این مجموعه واژگان‌ها در کاربردهای مختلفی می‌توانند مورد استفاده قرار گیرند:

۱)جهت تحلیل و تعیین قطبیت جملات و اسناد

۲) به عنوان مجموعه تست (Gold Standard) برای توسعه مجموعه واژگان

با توجه به ضرورت چنین مجموعه‌هایی دو مجموعه داده‌ای برای زبان فارسی استخراج و تولید شده است :

۱مجموعه استخراج شده از صفت‌های برچسب خورده فارسی:

این مجموعه از روی مجموعه صفت‌های زبان فارسی استخراج شده از فارس‌نت ساخته شده است. هر ورودی در این مجموعه می‌تواند برچسب مثبت منفی و یا خنثی داشته باشد. برای این کار بیش از ۳۵۸۸ صفت استخراج و توسط چهار ارزیاب مستقل ارزیابی شده است. پس از تجمیع نظرات چهار ارزیاب سه مجموعه مثبت منفی و خنثی استخراج شده است که به ترتیب شامل ۹۶۸ ۹۶۲ ۱۵۷۲ کلمه می باشند. از بین صفت‌های ارزیابی شده تنها صفت‌هایی در مجموعه باقی مانده‌اند که یا توسط هر چهار ارزیاب برچسب یکسان گرفته‌اند و یا سه ارزیاب در مورد صفت نظر یکسان داشته‌اند و ارزیاب چهارم به این صفت برچسب مخالف نداده‌است.

۲. مجموعه صفت، فعل و اسم:

این مجموعه از روی مجموعه صفت‌ها، فعل‌ها و اسم‌های موجود در فارس‌نت استخراج شده‌اند. به هر کلمه از این مجموعه توسط یک روش مبتنی بر یادگیری ماشین نیمه ناظر یک مقدار عددی نسبت داده می‌شود. این عدد در‌واقع تعیین کننده میزان قطبیت هر کلمه است. به کلمات مثبت، عددی بزرگ‌تر از صفر و به اعداد منفی، عددی کوچکتر از صفر نسبت داده می‌شود. در این مجموعه، کلمات خنثی به صراحت تعیین نمی‌شوند و می‌توان کلمات خنثی را بر اساس یک حد آستانه بین کلمات مثبت و منفی تعیین کرد. این مجموعه شامل ۳۵۸۸ صفت ۴۰۷۳ فعل و ۷۳۲۵ اسم می باشد. قابل ذکر است که کلیه کلمات از روی نسخه ۱ فارس‌نت استخراج شده‌اند.

 

این مجموعه داده‌ای به عنوان بخشی از پروژه «ایجاد و توسعه پیکره دادگان متنی مرجع در زبان فارسی»، تحت حمایت معاونت علمی و فناوری ریاست جمهوری، ستاد توسعه فناوری اطلاعات و ارتباطات توسعه داده شده است.

 

دانلود:

دریافت مجموعه داده‌ای پیکره واژگان فارسی دارای برچسب قطبیت (مثبت/منفی/خنثی)

توجه: برای استفاده از این مجموعه داده‌ای، لطفاً با ارسال ایمیل به سرپرست آزمایشگاه، پسورد مربوطه را دریافت نمایید.

 

ارائه دهنده پروژه

ایمان دهدار بهبهانی
پست الکترونیک: i.dehdar [at] ut.ac.ir
عضو فعال
 
 

استاد راهنما

آزاده شاکری
استادیار
اتاق: ساختمان جدید، 517
تلفن: 61119722
پست الکترونیکی: shakery [AT] ut.ac.ir