نویسندگان | احمد یوسفان-دانیال ابراهیمزاده-مسعود عباسیان |
---|---|
همایش | سومین کنفرانس ملی کامپیوتر ، فناوری اطلاعات و کاربردهای هوش مصنوعی |
تاریخ برگزاری همایش | ۲۰۲۰-۰۲-۰۵ |
محل برگزاری همایش | اهواز |
نوع ارائه | سخنرانی |
سطح همایش | ملی |
چکیده مقاله
باهم آیی عبارتی است که برای رساندن یک مفهوم یا معنی استفاده شده و شامل بیش از یک کلمه است. در این پژوهش به روشهای گوناگون به استخراج، بررسی و مقایسۀ باهمآییهای کلمهها و دستهبندی آنها از روی بخشی از بایگانی خبرهای وبگاه صدا و سیمای جمهوری اسلامی ایران پرداختیم. پس از گرفتن پایگاه دادۀ خبرها از وبگاه صدا و سیمای جمهوری اسلامی ایران، آنها را پردازش کردیم و دادههای غیرخبری را از آن مجموعه حذف کردیم. سپس برچسبهای HTML موجود در هر خبر را اصلاح کرده و با استفاده از تابعهای آماده موجود در زبان برنامهنویسی پایتون، برچسبهای HTML اصلاحشده را از متن اصلی اخبار جدا کردیم. در ادامه کلمههای متنهای پالایش شده را به کمک بستۀ NLTK بر پایۀ نقش آنها در جمله، برچسبگذاری و ریشهیابی نمودیم. سپس باهمآییهای کلمهها را بر پایۀ معیارهای تناظر به دست آوردیم و بعد مقایسه و تحلیل کردیم. همچنین در این کار اثراتِ کلمههای ایستواژه موجود در متن خبرها را در استخراجِ باهمآییها، مورد بررسی و تحلیل قرار دادیم. در این پژوهش از میانِ روشهای موجود در این زمینه، مهمترین و کمخطاترین روشها را برگزیده و ترکیب کردیم و به نتیجههای سودمندی و مفیدی برای باهمآییهای کلمهها در متن خبرهای این وبگاه دست یافتیم.
کلید واژه ها: باهمآیی، ایستواژه، معیار تناظر نقش کلمات در جمله، NLTK