یک روش خزنده متمرکز مبتنی بر تشخیص جوامع در شبکه ی وب

Authorsعطیه جبل عاملی فروشانی,مهدی وحیدی پور,ایوب باقری
Conference Titleچهارمین کنفرانس بین المللی مهندسی دانش بنیان و نوآوری
Holding Date of Conference۲۰۱۷-۱۲-۲۲ - ۲۰۱۷-۱۲-۲۲
Event Place1 - تهران
Presented byدانشگاه علم و صنعت
PresentationSPEECH
Conference LevelInternational Conferences

Abstract

خزنده وب اطلاعات وبسایت های اینترنت را به دست می آورد در حالی که خزنده متمرکز درباره موضوع خاصی اطلاعات را از صفحات وب جمع آوری می کند. خزنده متمرکز سنتی در محتوای صفحه، به جزئیات آن دقت می کند به طوری که با زیاد شدن صفحات در وب، خزنده متمرکز سنتی دارای مشکلاتی خواهد بود. صفحات وب مانند گرافی هستند که با لینک کردن به یکدیگر، یالی بین آنها به وجود می آید. حجم بالای این صفحات در گراف، باعث به وجود آمدن مشکل برای خزنده متمرکز در حین جمع آوری اطلاعات می شود. بنابراین با محدود کردن دامنه خزنده متمرکز، می توان کارایی را بهبود داد. در این مقاله با استفاده از الگوریتم تشخیص جامعه و تحلیل ساختار لینک در شبکه گراف صفحات، به خزنده گروهی از وب سایت ها داده می شود که باعث محدود کردن دامنه خزنده متمرکز می شود. همچنین برای بررسی شباهت صفحات به موضوع موردنظر، از روش پیشنهادی توسعه یافته استفاده شده انجام Score است. بررسی شباهت صفحات، داخل همین جامعه و با معیار می شود. نتایج نشان می دهد با استفاده از روش پیشنهای توسعه یافته، میانگین صفحات مرتبط، 0.2 افزایش یافت و با استفاده از الگوریتم تشخیص Score صفحات مرتبط، 0.15 بیشتر شد. درنتیجه هردو روش Score جامعه، میانگین باعث بهبود روش خزنده متمرکز گردید.

Paper URL

tags: تحلیل محتوا، تشخیص جامعه، خزنده متمرکز، شبکه پیچیده