• نشانه گذاری آماری متون فارسی برای استفاده در موتورهای جستجو

    جزئیات بیشتر مقاله
    • تاریخ ارائه: 1391/01/01
    • تاریخ انتشار در تی پی بین: 1391/01/01
    • تعداد بازدید: 726
    • تعداد پرسش و پاسخ ها: 0
    • شماره تماس دبیرخانه رویداد: -
    نشانه گذاری متن، یکی از فعالیت های اصلی در حوزه پردازش زبان های طبیعی است. اکثر برنامه های پردازش زبان های طبیعی به یک پیش پردازش برای استخراج کلمات متن و تشخیص نشانه ها احتیاج دارند. هدف اصلی و نهایی نشانه گذاری، بدست آوردن کلمات معنی دار همراه با پیشوندها و پسوندهایشان است. این فعالیت متناسب با زبان های طبیعی مختلف، می تواند سخت یا آسان باشد. در زبان فارسی با توجه به وجود فاصله و نیم فاصله، عدم توجه کاربران به فاصله گذاری ها و نبود قواعد دقیقی در نوشتن کلمات چند قسمتی، تشخیص و نشانه گذاری کلمات چند قسمتی و مرکب، با مشکلات و پیچیدگی های خاص خور روبه رو است. در این مقاله برآنیم یک روش اماری برای نشانه گذاری متون فارسی جهت استفاده در موتورهای جستجو، ارائه کنیم. برای این منظور از احتمال رخداد دو کلمه های موجود در پیکره استفاده شده است. الگوریتم پیشنهادی شامل 4 فاز است و با دقت 81.4% به نشانه گذاری کلمات متون فارسی می پردازد. نتایج آزمایشات نشان دادند این روش می تواند با نشانه گذاری بهتر کلمات، دقت اطلاعات بازیابی شده در موتور جستجو را بهبود بخشد.

سوال خود را در مورد این مقاله مطرح نمایید :

با انتخاب دکمه ثبت پرسش، موافقت خود را با قوانین انتشار محتوا در وبسایت تی پی بین اعلام می کنم
مقالات جدیدترین رویدادها