Authors | احمد یوسفان-دانیال ابراهیمزاده-مسعود عباسیان |
---|---|
Conference Title | سومین کنفرانس ملی کامپیوتر ، فناوری اطلاعات و کاربردهای هوش مصنوعی |
Holding Date of Conference | ۲۰۲۰-۰۲-۰۵ |
Event Place | اهواز |
Presentation | SPEECH |
Conference Level | National Conferences |
Abstract
باهم آیی عبارتی است که برای رساندن یک مفهوم یا معنی استفاده شده و شامل بیش از یک کلمه است. در این پژوهش به روشهای گوناگون به استخراج، بررسی و مقایسۀ باهمآییهای کلمهها و دستهبندی آنها از روی بخشی از بایگانی خبرهای وبگاه صدا و سیمای جمهوری اسلامی ایران پرداختیم. پس از گرفتن پایگاه دادۀ خبرها از وبگاه صدا و سیمای جمهوری اسلامی ایران، آنها را پردازش کردیم و دادههای غیرخبری را از آن مجموعه حذف کردیم. سپس برچسبهای HTML موجود در هر خبر را اصلاح کرده و با استفاده از تابعهای آماده موجود در زبان برنامهنویسی پایتون، برچسبهای HTML اصلاحشده را از متن اصلی اخبار جدا کردیم. در ادامه کلمههای متنهای پالایش شده را به کمک بستۀ NLTK بر پایۀ نقش آنها در جمله، برچسبگذاری و ریشهیابی نمودیم. سپس باهمآییهای کلمهها را بر پایۀ معیارهای تناظر به دست آوردیم و بعد مقایسه و تحلیل کردیم. همچنین در این کار اثراتِ کلمههای ایستواژه موجود در متن خبرها را در استخراجِ باهمآییها، مورد بررسی و تحلیل قرار دادیم. در این پژوهش از میانِ روشهای موجود در این زمینه، مهمترین و کمخطاترین روشها را برگزیده و ترکیب کردیم و به نتیجههای سودمندی و مفیدی برای باهمآییهای کلمهها در متن خبرهای این وبگاه دست یافتیم.
tags: باهمآیی، ایستواژه، معیار تناظر نقش کلمات در جمله، NLTK