بالاترین سوالات
زمانبندی
چت
دیدگاه
Named-entity recognition
از ویکیپدیا، دانشنامه آزاد
Remove ads
شناسایی موجودیتهای نامدار (NER) یکی از مراحل استخراج اطلاعات است که موجودیتهای نامدار را در متن بدون ساختار شناسایی و به دستههایی مانند نام افراد، سازمانها، مکانها و غیره طبقهبندی میکند. برای مثال، در جمله «علی در سال 1386، 300 سهم از شرکت کاله را خرید»، NER برچسبهای «[علی]فرد»، «[کاله]سازمان» و «[1386]زمان» را مشخص میکند. در این مثال، سه کلمه دستهبندی شدهاند[۱].
قویترین سیستمهای پیشرفته NER در زبان انگلیسی عملکردی نزدیک به انسان دارند[۲].
Remove ads
پلتفرمهای NER
مهمترین پلتفرمهای برجسته NER شامل:
- GATE بهطور پیشفرض از تشخیص موجودیت نامگذاریشده (NER) در زبانها و حوزههای گوناگون پشتیبانی میکند. این قابلیت از طریق یک رابط گرافیکی کاربرپسند و API جاوا در دسترس است و بهراحتی قابل استفاده میباشد؛
- OpenNLP که از دو روش قاعدهمحور و روش آماری برای تشخیص موجودیت نامگذاریشده (NER) بهره میبرد؛
- SpaCy از یک NER آماری سریع استفاده میکند و همچنین دارای یک ابزار متنباز بصری برای نمایش موجودیتهای شناساییشده در متن است؛
- Transformers که از یادگیری عمیق برای طبقهبندی توکنها استفاده میکند[۳][۴].
Remove ads
ارزیابی
برای ارزیابی عملکرد یک سیستم تشخیص موجودیت نامگذاریشده (NER)، معیارهای مختلفی تعریف شدهاند که از جمله رایجترین آنها، دقت (precision)، بازخوانی (recall) و امتیاز F1 هستند. بااینحال، چالشهایی در نحوه دقیق محاسبه این مقادیر وجود دارد که ارزیابی را پیچیده میکند.
این معیارهای آماری معمولاً در تشخیص خطاهای سیستم عملکرد قابل قبولی دارند. بااینحال، NER ممکن است به روشهای متعددی دچار خطا شود—هرچند بسیاری از این خطاها، کاملا خطا نیستند و نباید بهعنوان خطای کامل ارزیابی شوند.
Remove ads
رویکردها
سیستمهای NER از دو رویکرد اصلی استفاده میکنند: روشهای مبتنی بر قوانین ادبی که دقت بالایی دارن اما این رویکرد پوشش کمی دارد و نیاز به ماهها کار تخصصی دارد. رویکرد دوم، مدلهای آماری است که به مجموعههای دادهای بزرگ که بصورت دستی برچسبگذاری شده باشند وابستهاند. روشهای نیمهنظارتی نیز برای کاهش نیاز به برچسبگذاری دستی توسعه یافتهاند[۵][۶].
مساله حوزه کاری
سیستمهای NER در حوزههای مختلف عملکرد متفاوتی دارند و سیستمی که برای یک حوزه آموزش دیده است، در حوزههای دیگر عملکرد خوبی نخواهد داشت[۷]. مثلا در حوزههایی مانند روزنامهنگاری یا گزارشهای نظامی که برای آنها آموزش دیدهاند، بهترین نتیجه را میدهند، اما در حوزههای دیگر ضعیف عمل میکنند. از دهه 1990، توجه از متون خبری به متون غیررسمی مانند وبلاگها و رسانههای اجتماعی و همچنین حوزههای تخصصی مانند بیوانفورماتیک، که در آن شناسایی نامهای ژنها و مواد شیمیایی اهمیت دارد، معطوف شده است[۸].
Remove ads
چالشها و پژوهشهای کنونی
با وجود پیشرفتهای چشمگیر در امتیازات MUC-7، مسئله NER همچنان حلنشده باقی مانده است. پژوهشها بر یادگیری نیمهنظارتی، بهبود عملکرد در حوزههای مختلف و شناسایی دقیقتر انواع موجودیتها متمرکز شدهاند. جمعسپاری به تولید برچسبنویسیهای با کیفیت کمک کرده[۹]، اما متون پرنویز مانند توییتر همچنان چالشبرانگیز هستند[۱۰]. رویکردهای جدید شامل مدلهای مبتنی بر گراف[۱۱] و «ویکیسازی»[۱۲] است که متن را به صفحات ویکیپدیا پیوند میدهد تا شناسایی موجودیتها دقیقتر شود.
Remove ads
منابع
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads