یک روش خزنده متمرکز مبتنی بر تشخیص جوامع در شبکه ی وب

نویسندگانعطیه جبل عاملی فروشانی,مهدی وحیدی پور,ایوب باقری
همایشچهارمین کنفرانس بین المللی مهندسی دانش بنیان و نوآوری
تاریخ برگزاری همایش۲۰۱۷-۱۲-۲۲ - ۲۰۱۷-۱۲-۲۲
محل برگزاری همایش1 - تهران
ارائه به نام دانشگاهدانشگاه علم و صنعت
نوع ارائهسخنرانی
سطح همایشبین المللی

چکیده مقاله

خزنده وب اطلاعات وبسایت های اینترنت را به دست می آورد در حالی که خزنده متمرکز درباره موضوع خاصی اطلاعات را از صفحات وب جمع آوری می کند. خزنده متمرکز سنتی در محتوای صفحه، به جزئیات آن دقت می کند به طوری که با زیاد شدن صفحات در وب، خزنده متمرکز سنتی دارای مشکلاتی خواهد بود. صفحات وب مانند گرافی هستند که با لینک کردن به یکدیگر، یالی بین آنها به وجود می آید. حجم بالای این صفحات در گراف، باعث به وجود آمدن مشکل برای خزنده متمرکز در حین جمع آوری اطلاعات می شود. بنابراین با محدود کردن دامنه خزنده متمرکز، می توان کارایی را بهبود داد. در این مقاله با استفاده از الگوریتم تشخیص جامعه و تحلیل ساختار لینک در شبکه گراف صفحات، به خزنده گروهی از وب سایت ها داده می شود که باعث محدود کردن دامنه خزنده متمرکز می شود. همچنین برای بررسی شباهت صفحات به موضوع موردنظر، از روش پیشنهادی توسعه یافته استفاده شده انجام Score است. بررسی شباهت صفحات، داخل همین جامعه و با معیار می شود. نتایج نشان می دهد با استفاده از روش پیشنهای توسعه یافته، میانگین صفحات مرتبط، 0.2 افزایش یافت و با استفاده از الگوریتم تشخیص Score صفحات مرتبط، 0.15 بیشتر شد. درنتیجه هردو روش Score جامعه، میانگین باعث بهبود روش خزنده متمرکز گردید.

لینک ثابت مقاله

کلیدواژه‌ها: تحلیل محتوا، تشخیص جامعه، خزنده متمرکز، شبکه پیچیده