استخراج، بررسی و مقایسه باهم آیی کلمه‌ها از متن خبرهای وب‌گاه انگلیسی رادیوی صدا و سیما

نویسندگاناحمد یوسفان-دانیال ابراهیم‌زاده-مسعود عباسیان
همایشسومین کنفرانس ملی کامپیوتر ، فناوری اطلاعات و کاربردهای هوش مصنوعی
تاریخ برگزاری همایش۲۰۲۰-۰۲-۰۵
محل برگزاری همایشاهواز
نوع ارائهسخنرانی
سطح همایشملی

چکیده مقاله

باهم آیی عبارتی است که برای رساندن یک مفهوم یا معنی استفاده شده و شامل بیش از یک کلمه است. در این پژوهش به روش‌های گوناگون به استخراج، بررسی و مقایسۀ باهم‌آیی‌های کلمه‌ها و دسته‌بندی آن‌ها از روی بخشی از بایگانی خبرهای وب‌گاه صدا و سیمای جمهوری اسلامی ایران پرداختیم. پس از گرفتن پایگاه دادۀ خبرها از وب‌گاه صدا و سیمای جمهوری اسلامی ایران، آن‌ها را پردازش کردیم و داده‌های غیر‌خبری را از آن مجموعه حذف کردیم. سپس برچسب‌های HTML موجود در هر خبر را اصلاح کرده و با استفاده از تابع‌های آماده موجود در زبان برنامه‌نویسی پایتون، برچسب‌های HTML اصلاح‌شده را از متن اصلی اخبار جدا کردیم. در ادامه کلمه‌های متن‌های پالایش شده را به کمک بستۀ NLTK بر پایۀ نقش آن‌ها در جمله، برچسب‌گذاری و ریشه‌یابی نمودیم. سپس باهم‌آیی‌های کلمه‌ها را بر پایۀ معیارهای تناظر به دست آوردیم و بعد مقایسه و تحلیل کردیم. همچنین در این کار اثراتِ کلمه‌های ایست‌واژه موجود در متن خبر‌ها را در استخراجِ باهم‌آیی‌ها، مورد بررسی و تحلیل قرار دادیم. در این پژوهش از میانِ روش‌های موجود در این زمینه، مهم‌ترین و کم‌خطا‌ترین روش‌ها را برگزیده و ترکیب کردیم و به نتیجه‌های سودمندی و مفیدی برای باهم‌آیی‌های کلمه‌ها در متن خبرهای این وب‌گاه دست یافتیم.

فایل چکیده مقاله

کلید واژه ها: باهم‌آیی، ایست‌واژه، معیار تناظر نقش کلمات در جمله، NLTK