نویسندگان | عطیه جبل عاملی فروشانی,مهدی وحیدی پور,ایوب باقری |
---|---|
همایش | چهارمین کنفرانس بین المللی مهندسی دانش بنیان و نوآوری |
تاریخ برگزاری همایش | ۲۰۱۷-۱۲-۲۲ - ۲۰۱۷-۱۲-۲۲ |
محل برگزاری همایش | 1 - تهران |
ارائه به نام دانشگاه | دانشگاه علم و صنعت |
نوع ارائه | سخنرانی |
سطح همایش | بین المللی |
چکیده مقاله
خزنده وب اطلاعات وبسایت های اینترنت را به دست می آورد در حالی که خزنده متمرکز درباره موضوع خاصی اطلاعات را از صفحات وب جمع آوری می کند. خزنده متمرکز سنتی در محتوای صفحه، به جزئیات آن دقت می کند به طوری که با زیاد شدن صفحات در وب، خزنده متمرکز سنتی دارای مشکلاتی خواهد بود. صفحات وب مانند گرافی هستند که با لینک کردن به یکدیگر، یالی بین آنها به وجود می آید. حجم بالای این صفحات در گراف، باعث به وجود آمدن مشکل برای خزنده متمرکز در حین جمع آوری اطلاعات می شود. بنابراین با محدود کردن دامنه خزنده متمرکز، می توان کارایی را بهبود داد. در این مقاله با استفاده از الگوریتم تشخیص جامعه و تحلیل ساختار لینک در شبکه گراف صفحات، به خزنده گروهی از وب سایت ها داده می شود که باعث محدود کردن دامنه خزنده متمرکز می شود. همچنین برای بررسی شباهت صفحات به موضوع موردنظر، از روش پیشنهادی توسعه یافته استفاده شده انجام Score است. بررسی شباهت صفحات، داخل همین جامعه و با معیار می شود. نتایج نشان می دهد با استفاده از روش پیشنهای توسعه یافته، میانگین صفحات مرتبط، 0.2 افزایش یافت و با استفاده از الگوریتم تشخیص Score صفحات مرتبط، 0.15 بیشتر شد. درنتیجه هردو روش Score جامعه، میانگین باعث بهبود روش خزنده متمرکز گردید.
کلید واژه ها: تحلیل محتوا، تشخیص جامعه، خزنده متمرکز، شبکه پیچیده