مدل دو مرحله ای شکاف- گلچین برای نمایه سازی خودکار متون فارسی

توکلی زاده راوری, محمد

دوره 21، شماره 1 - ( 3-1394 ) دوره 21 شماره 1 صفحات 40-13 | برگشت به فهرست نسخه ها

‎ 20.1001.1.26455730.1394.21.1.2.6

Mendeley

Zotero

RefWorks

Tavakolizadeh-Ravari M. Two Steps Break-Cull Model for Automatic Indexing of Persian Texts. Research on Information Science and Public Libraries 2015; 21 (1) :13-40
URL: http://publij.ir/article-1-966-fa.html

توکلی زاده راوری محمد. مدل دو مرحله ای شکاف- گلچین برای نمایه سازی خودکار متون فارسی. تحقیقات اطلاع‌رسانی و كتابخانه‌های عمومی. 1394; 21 (1) :13-40

URL: http://publij.ir/article-1-966-fa.html

مدل دو مرحله ای شکاف- گلچین برای نمایه سازی خودکار متون فارسی

محمد توکلی زاده راوری^*

دانشگاه یزد ، tavakoli@yazd.ac.ir

چکیده: (7291 مشاهده)

هدف: به علت خاص بودن برخی از مسائل زبانی، لازم است که مدل‎‎های بومی نمایه‎سازی خودکار را با توجه به ویژگی‎های هر زبان طراحی کرد. این مدل‎ها باید به‎گونه‎ای طراحی شود که جامعیت و مانعیت نمایه‎سازی مورد توجه باشد. هدف این مقاله معرفی و سنجش توانمندی مدل دو مرحله‎ای شکاف – گلچین برای نمایه‎سازی خودکار مقالات فارسی است. ابتدا الگوریتم کار به تفصیل توضیح داده می‎شود و سپس همخوانی نتایج حاصل از این الگوریتم با کلیدواژه‎های نویسنده سنجیده خواهد شد.
روش: مدل نمایه‎سازی خودکار فارسی به‎همراه توضیح مراحل و مسائل مرتبط با آن معرفی خواهد شد. ارزیابی مدل از طریق شاخص دربردارندگی انجام می‌شود که برای تعیین درصد همخوانی بین نمایه‎سازان مورد استفاده قرار می‎گیرد. برای این کار، میزان همخوانی اصطلاحات نمایه‌ای که از پیاده‎سازی الگوریتم این مدل حاصل شده‎اند، با کلیدواژه‎های نویسندگان مقالات بررسی می‎گردد.
یافته‌ها: یافته‎ها نشان داد که در 90 درصد از موارد، اصطلاحی که این مدل در یک مقاله به‎عنوان پروزن‎ترین اصطلاح تشخیص داده است، مشابه اولین کلیدواژۀ نویسنده آن مقاله است. در کل، بین نتایج این مدل و کلیدواژه‎های نویسندگان 76 درصد همخوانی وجود داشت که در مقایسه با کارهای قبلی، قابل قبول به نظر می‎رسد.
اصالت/ارزش: ارزش اولیۀ این کار پرداختن به نمایه‎سازی خودکار با توجه به ویژگی‎های زبان فارسی است. برای پیاده‎سازی مدل ارائه شده، فرض بر استفاده از زبان عبارات الگودار است که توسط بسیاری از زبان‎های برنامه‎نویسی پشتیبانی می‎شود و نیاز به نصب و استفاده از جدول‎های بانک اطلاعاتی را برای پردازش متن کاهش می‎دهد. همچنین، مشکل تعیین آستانۀ بالایی اصطلاحات اصلی را حل می‎کند. علاوه بر آن، با الگوریتمی خاص، حد پایینی را نیز تعیین می‎کند؛ به‎گونه‎ای که دیگر تعداد اصطلاحات گلچین شده به طول متن بستگی ندارد. این امکان، جامعیت و مانعیت نمایه‎سازی را تضمین می‎کند.

واژه‌های کلیدی: نمایه‎سازی خودکار، زبان فارسی، مدل شکاف – گلچین.

متن کامل [PDF 1442 kb] (2854 دریافت)

نوع مطالعه: كمّي |
دریافت: 1392/8/3 | پذیرش: 1394/3/16 | انتشار: 1394/3/16

ارسال پیام به نویسنده مسئول

بازنشر اطلاعات
	این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.

پایگاه های مرتبط

کلمات کلیدی

علم اطلاعات و دانش‌شناسي، تحقیقات اطلاع‌رسانی، كتابخانه‌هاي عمومي، كتابداري و اطلاع‌رساني، خواندن.

نظرسنجی

کلیه حقوق این وب سایت متعلق به تحقیقات اطلاع‌رسانی و کتابخانه‌های عمومی می باشد.

طراحی و برنامه نویسی : یکتاوب افزار شرق

Designed & Developed by : Yektaweb