-
طراحی و تولید مجموعه دادگان اخبار فارسی ihu-persiannewsdataset-javadzade-et-al دانشگاه جامع امام حسین
جزئیات بیشتر مقاله- تاریخ ارائه: 1401/06/27
- تاریخ انتشار در تی پی بین: 1401/06/27
- تعداد بازدید: 260
- تعداد پرسش و پاسخ ها: 0
- شماره تماس ژورنال: 09050265032
طراحی و تولید مجموعه دادگان اخبار فارسی ihu-persiannewsdataset-javadzade-et-al دانشگاه جامع امام حسین
اگر چه کمبود داده برای تحقیقات در حوزه پردازش زبان طبیعی یکی از چالشها مهم است لیکن این چالش در خصوص زبان فارسی حادتر جلوه می کند، برای همین یافتن مجموعه دادگان باکیفیت و جامع در زبان فارسی کار دشواری است. علاوه بر آن دارا بودن برخی مشکالت از قبیل قابلیت دسته بندی و عدم رعایت استاندارد ذخیره سازی از نمونه مشکلات مجموعه دادگان موجود می باشد که هرکدام از این موارد می تواند بر میزان یادگیری مدل، نتایج و میزان خطا در آزمایش ها تاثیر بگذارد. به همین منظور تمامی این دلیل سبب شد که به دنبال جمع آوری و تهیه مجموعه دادگانی باشیم که تمام این گونه مشکلات را پوشش و میزان خطا هنگام به کارگیری داده ها در مدل های مختلف را کاهش دهد.
ما در این پژوهش خزشگری را در جهت جمع آوری دادگان متنی طراحی و استفاده نموده ایم که با خزش بر روی یکی از پایگاه های خبری توانسته است مجموعه ای از دادگان را در پنج ستون عنوان، خلاصه، متن، برچسب و تاریخ انتشار خبر جمع آوری نماید. داده های متنی به کمک یکی از کتابخانه های مخصوص زبان فارسی در زبان برنامه نویسی پایتون، نرمال سازی شده و در دو فرمت csv و xml ذخیره سازی شده و در اختیار پژوهشگران همکار قرار گرفته است. برچسبها در این مجموعه داده شامل 13 برچسب اصلی ورزشی، هنر و رسانه، فرهنگ، علم و پیشرفت، سیاسی، سیاست خارجی، زندگی، خانواده، جامعه، تعلیم و تربیت، بین الملل، اقتصادی و استان ها می باشد.
از جمله کارهایی که بر روی این مجموعه داده قابل انجام است میتوان به دسته بندی متن، استخراج متن، خلاصه سازی متن و تشخیص عنوان اشاره کرد. همچنین از ویژگیهای بارز این مجموعه داده میتوان به جامعیت، تعداد داده های مناسب، وجود ویژگی های مفید، دارا بودن ویژگیهای منحصربه فرد و همچنین ذخیره سازی در قالب استاندارد اشاره کرد. این مجموعه داده محصول گروه پردازش زبان دانشگاه جامع امام حسین (ع) می باشد و از طریق لینک مذکور در پانویس صفحه بعد و با رعایت حق کپیرایت قابل دریافت و استفاده می باشد.
حوزه های تحت پوشش ژورنال
مقالات جدیدترین رویدادها
-
استفاده از تحلیل اهمیت-عملکرد در ارائه الگوی مدیریت خلاقیت سازمانی و ارائه راهکار جهت بهبود
-
بررسی تاثیر ارزش وجوه نقد مازاد بر ساختار سرمایه شرکت های پذیرفته شده در بورس اوراق بهادار تهران
-
بررسی تأثیر سطح افشای ریسک بر قرارداد بدهی شرکت های پذیرفته شده در بورس اوراق بهادار تهران
-
بررسی تأثیر رتبه بندی اعتباری مبتنی بر مدل امتیاز بازار نوظهور بر نقد شوندگی سهام با تأکید بر خصوصی سازی شرکت ها
-
تأثیر آمیخته بازاریابی پوشاک ایرانی بر تصویر ذهنی مشتری پوشاک ایرانی (هاکوپیان)
-
تاثیر استفاده از پروبیوتیک و فایتوبیوتیک بر بهداشت و ضخامت پوسته تخم مرغ
-
استفاده از داده های ماهواره irs-1d جهت استخراج نقشه کاربری اراضی (مطالعه موردی حوزه آبخیز مندرجان اصفهان)
-
ارزیابی کلینیکی یک ساله ترمیم های آمالگام کلاس ii
-
بررسی رفتار ستونهای ناودانی با سخت کننده های مورب کناری تحت بارگذاری فشاری با استفاده از نرم افزار ansys
-
تعیین عوامل موثر بر انتخاب مدهای حمل و نقل در جابجایی کالا با استفاده از مدل انتخاب گسسته لاجیت (مطالعه موردی: بندر شهید رجایی)
مقالات جدیدترین ژورنال ها
-
مدیریت و بررسی افسردگی دانش آموزان دختر مقطع متوسطه دوم در دروان کرونا در شهرستان دزفول
-
مدیریت و بررسی خرد سیاسی در اندیشه ی فردوسی در ادب ایران
-
واکاوی و مدیریت توصیفی قلمدان(جاکلیدی)ضریح در موزه آستان قدس رضوی
-
بررسی تاثیر خلاقیت، دانش و انگیزه کارکنان بر پیشنهادات نوآورانه کارکنان ( مورد مطالعه: هتل های 3 و 4 ستاره استان کرمان)
-
بررسی تاثیر کیفیت سیستم های اطلاعاتی بر تصمیم گیری موفق در شرکتهای تولیدی استان اصفهان (مورد مطالعه: مدیران شرکتهای تولیدی استان اصفهان)
-
تحلیل و نقد دیدگاه شورای بازنگری قانون اساسی درباره سیاست های کلی نظام
-
ارتباط بین هوش هیجانی و کیفیت زندگی دانشجویان دانشگاه فردوسی مشهد
-
ﻛﺎوشی ﺑﺮ اﻟﮕﻮی طفره روی اجتماعی: ﻣﻄﺎلعه ترکیبی
-
بررسی نقش شخصیت برند بر ارزش آفرینی برند (مورد مطالعه شرکت بیمه ایران)
-
flocculation process and increasing sedimentation of total suspended solids in clarifier
سوال خود را در مورد این مقاله مطرح نمایید :