• جزئیات بیشتر مقاله
    • تاریخ ارائه: 1392/07/24
    • تاریخ انتشار در تی پی بین: 1392/07/24
    • تعداد بازدید: 1342
    • تعداد پرسش و پاسخ ها: 0
    • شماره تماس دبیرخانه رویداد: -
    یکی از حوزه های مهم در داده کاوی و یادگیری ماشین، حوزه شناسایی داده پرت می باشد. روش های بسیاری برای شناسایی داده پرت ارائه شده که همه آنها از فرض یکسان بودن توزیع احتمال داده های تست نسبت به داده های آموزش پیروی می کنند. اما در بسیاری از برنامه های کاربردی واقعی نظیر شناسایی اسپم یا تقلب، تفاوت توزیع داده های آموزش و تست یک امر رایج است. این حالت به شرایط تغییرتوزیع مجموعه داده معروف است. مطالعات ما نشان می دهد که هیچ یک از روش های موجود برای شناسایی داده پرت در شرایط تغییر توزیع مجموعه داده عملکرد مناسبی ندارند. مقاله حاضر یک روش نیمه نظارتی سه مرحله ای برای شناسایی داده پرت تحت شرایط تغییر مجموعه داده ارائه می نماید. در مرحله نخست با بکارگیری تکنیک تخمین نسبت چگالی که یک روش وزن دهی بر اساس اهمیت است، وزن نمونه های آموزش تعیین می شود. سپس با استفاده از یک روال نیمه نظارتی ابتکاری نمونه هایی از مجموعه آموزش که نماینگر توزیع واقعی داده های تست هستند، انتخاب می گردند. در مرحله آخر با استفاده از روش اصلاح شده شناسایی داده پرت بر مبنای داده های متعارف، داده های پرت موجود شناسایی می شوند. نتایج آزمایشات نشان می دهند که از نظر تطبیق با شرایط تغییر توزیع مجموعه داده روش پیشنهادی عملکرد بهتری نسبت به روش های موجود دارد.

سوال خود را در مورد این مقاله مطرح نمایید :

با انتخاب دکمه ثبت پرسش، موافقت خود را با قوانین انتشار محتوا در وبسایت تی پی بین اعلام می کنم
مقالات جدیدترین رویدادها
مقالات جدیدترین ژورنال ها