استخراج، بررسی و مقایسه باهم آیی کلمه‌ها از متن خبرهای وب‌گاه انگلیسی رادیوی صدا و سیما

Authorsاحمد یوسفان-دانیال ابراهیم‌زاده-مسعود عباسیان
Conference Titleسومین کنفرانس ملی کامپیوتر ، فناوری اطلاعات و کاربردهای هوش مصنوعی
Holding Date of Conference۲۰۲۰-۰۲-۰۵
Event Placeاهواز
PresentationSPEECH
Conference LevelNational Conferences

Abstract

باهم آیی عبارتی است که برای رساندن یک مفهوم یا معنی استفاده شده و شامل بیش از یک کلمه است. در این پژوهش به روش‌های گوناگون به استخراج، بررسی و مقایسۀ باهم‌آیی‌های کلمه‌ها و دسته‌بندی آن‌ها از روی بخشی از بایگانی خبرهای وب‌گاه صدا و سیمای جمهوری اسلامی ایران پرداختیم. پس از گرفتن پایگاه دادۀ خبرها از وب‌گاه صدا و سیمای جمهوری اسلامی ایران، آن‌ها را پردازش کردیم و داده‌های غیر‌خبری را از آن مجموعه حذف کردیم. سپس برچسب‌های HTML موجود در هر خبر را اصلاح کرده و با استفاده از تابع‌های آماده موجود در زبان برنامه‌نویسی پایتون، برچسب‌های HTML اصلاح‌شده را از متن اصلی اخبار جدا کردیم. در ادامه کلمه‌های متن‌های پالایش شده را به کمک بستۀ NLTK بر پایۀ نقش آن‌ها در جمله، برچسب‌گذاری و ریشه‌یابی نمودیم. سپس باهم‌آیی‌های کلمه‌ها را بر پایۀ معیارهای تناظر به دست آوردیم و بعد مقایسه و تحلیل کردیم. همچنین در این کار اثراتِ کلمه‌های ایست‌واژه موجود در متن خبر‌ها را در استخراجِ باهم‌آیی‌ها، مورد بررسی و تحلیل قرار دادیم. در این پژوهش از میانِ روش‌های موجود در این زمینه، مهم‌ترین و کم‌خطا‌ترین روش‌ها را برگزیده و ترکیب کردیم و به نتیجه‌های سودمندی و مفیدی برای باهم‌آیی‌های کلمه‌ها در متن خبرهای این وب‌گاه دست یافتیم.

Paper Abstract

tags: باهم‌آیی، ایست‌واژه، معیار تناظر نقش کلمات در جمله، NLTK