پروژه دوم

نمونه کد

پروژه دوم

زمان تحویل: سه شنبه سوم دی ماه 1398

هدف از انجام این پروژه اجرای دو الگوریتم K-Means و Fuzzy C-Means بر روی داده های مربوط به نفوذ به شبکه (KDD CUP99) و مقایسه نتایج آنها می باشد. هر دانشجو می بایست با دانلود داده ها که در همین صفحه بارگذاری شده است دو الگوریتم مورد نظر را بررسی نماید. داده ها حدود 500 هزار نمونه را شامل می شوند. باید 30 درصد آن را برای فاز تست جدا کنید. داده ها دارای برچسب هستند در خوشه بندی به برچسب نیازی نیست منتها در فاز تست برای بررسی دقت الگوریتم ها نیاز به برچسب ها دارید.

نکته بعدی اینکه برخی از داده ها در این مجموعه داده عددی نیستند بلکه اسمی هستند. باید آنها را ابتدا تبدیل به عدد کرده و سپس خوشه بندی را بر روی آنها اجار کنید. به عنوان مثال اگر یک ویژگی شامل سه مقدار A, B, C باشد می توانید آن را با اعداد 0 و 0.5 و 1 مشخص کنید. سعی کنید اعدادی که جایگزین میکنید در بازه 0 و 1 قرار داشته باشد هر چند الزامی به این کار نیست.

برای پیاده سازی می توانید از کتابخانه های آماده نیز استفاده کنید. توصیه می شود برنامه را در متلب بنویسید اما اجباری در این کار نیست.


لینک دانلود فایل