ارایهی یک روش خزندهی متمرکز مبتنی بر یادگیری ماشین با استفاده از راهکار شباهت محتوایی
چکیده:
حجم اطلاعات در شبکه جهانی وب بهسرعت در حال افزایش است بهطوریکه مدیریت و جستجو در این اطلاعات، همواره یک چالش بودهاست. کاربران وب برای یافتن اطلاعات موردنیاز از موتورهای جستجو استفاده میکنند. برای یافتن صفحات در وب موتور جستجو از خزنده وب استفاده میکند؛ بخش مهمی از موتور جستجو که با دنبالکردن لینکهای ارتباطی میان صفحات وب، کلیهی صفحات را بازیابی میکند. موتور جستجو از میان تمامی صفحات بازیابی شده، صفحات مرتبط با نیاز کاربر را استخراج و به او نشان میدهد. برای جستجوی بهتر موتور جستجو بر روی یک موضوع، خزنده میتواند بر روی آن موضوع متمرکز شده و صفحات مرتبط با آن را بازیابی نماید. به همین منظور، خزنده متمرکز تعریف شدهاست که یک موضوع از پیشتعریفشده را درنظرمیگیرد و سپس تمامی صفحات مرتبط با آن را بازیابی میکند. با این حال چالش اصلی یک خزنده متمرکز، افزایش صحت در بازیابی صفحات مرتبط و کاهش بارگیری صفحات نامرتبط است. این پژوهش، روشی جدید را ارایه کردهاست که در آن ویژگیهای استخراج شده از صفحه و یک الگوریتم مبتنی بر یادگیری ماشین برای طبقهبندی صفحات باهم ترکیب میشوند تا صحت بازیابی صفحات مرتبط را افزایش دهد. از جمله مزیتهای روش خزنده متمرکز پیشنهادی ارائه معیار شباهت ASM است که سعی بر استفاده از معیار شباهت محتوایی در کنار احتمال تعلق یک صفحه به طبقه موردنظر دارد. برای انجام آزمایشها، مجموعهداده بهدستآمده مورد بررسی قرارگرفت که در مقایسههای انجام شده، روش پیشنهادی به میزان صحت 98/0 دستیافت. همچنین در مقایسه با سایر روشها، روش پیشنهادی دارای دقت قابل قبولی است بهطوریکه نتایج نشان میدهد که با استفاده از روش پیشنهادی، صحت خزنده متمرکز نسبت به روش مقاله اول، 32 درصد افزایش مییابد و نسبت به روش مقاله دوم، 4 درصد افزایش مییابد.