• بهبود مبتنی بر تخصیص پنهان دریکله برای دسته بندی متون با استفاده از تکنیک های پردازش متن

    جزئیات بیشتر مقاله
    • تاریخ ارائه: 1396/11/30
    • تاریخ انتشار در تی پی بین: 1396/11/30
    • تعداد بازدید: 524
    • تعداد پرسش و پاسخ ها: 0
    • شماره تماس دبیرخانه رویداد: -

    فرایند داده کاوی به زیر شاخه های گوناگونی تقسیم می شود که یکی از این زیر شاخه ها فرایند داده کاوی از متن هاست که به نام پردازش متن نیز شناخته می شود. پردازش متن با استفاده از تکنیک های گوناگون، اطلاعات مفید را از داده های متنی غیرساخت یافته یا نیمه ساخت یافته استخراج می کند. از آن جا که پردازش متن در موقعیت های مختلفی به استخراج دانش از متن می پردازد، تکنیک های گوناگونی برای آن وجود دارد. یکی از این موارد تکنیک ngram است که از طریق پیشینه کلمه، به مدلسازی می پردازد. این تکنیک توانسته است به بهبود کاوش متن کمک کند. در این مقاله با استفاده از روش ngram، اقدام به ساخت مدل موضوعی نمودیم که همزمان با استخراج کلمه های کلیدی سند به دسته بندی آن ها می پردازد. در فرایند مدل سازی از پارامترهای مخفی استفاده می کنیم که این پارامترها شاخص هایی هستند که به مدل کمک می کنند تا با استفاده از پیشینه کلمات و جملات به دسته بندی مطلوب اسناد بپردازد. مجموعه دادهای که در این مقاله استفاده شده است شامل متون نظرسنجی می باشد که در سال 2015 نظرسنجی شده است که این داده ها یکی از داده های مشهور در زمینه دسته بندی متون می باشد. هدف، بهبود روش تخصیص پنهان دریکله است. نتایج روش های مشابه با روش پیشنهادی مقایسه شده است که روش پیشنهادی توانسته عمکرد بهتری را نسبت به روش های قبلی داشته باشد.

سوال خود را در مورد این مقاله مطرح نمایید :

با انتخاب دکمه ثبت پرسش، موافقت خود را با قوانین انتشار محتوا در وبسایت تی پی بین اعلام می کنم
مقالات جدیدترین رویدادها
مقالات جدیدترین ژورنال ها