رد کردن پیوندها

طراحی و توسعه سامانه هوشمند پردازش متون و تولید پیکره دادگان فارسی

موضوع پروژه:
تاریخ شروع پروژه:

1402

مدت زمان اجرا:

12 ماه

مجری

معاونت متولی:

راهکارهای دیجیتال و هوشمندسازی

معرفی

متن‌کاوی به فرایند تحلیل و اکتشاف انبوهی از متون غیرساخت‌یافته به وسیله نرم‌افزار به منظور شناسایی مفاهیم، الگوها، موضوعات، کلیدواژه‌ها و دیگر ویژگی‌های داده‌های متنی گفته می‌شود. به عبارت دیگر هدف متن‌کاوی، کشف معنا (مفهوم و هدف) و استخراج اطلاعات نهفته (برای مثال موجودیت‌ها و روابط) در داده‌های متنی است. مرکز تحقیق و توسعه همراه اول در راستای ارتقا خدمات حوزه پردازش زبان طبیعی، تحلیل متن، توسعه بازار و سرویس‌های وابسته به آن در نظر دارد سامانه پردازش متن فارسی را به صورت بومی توسعه و راه‌اندازی کند. این سامانه باید برای مجموعه داده متنی گفتگو محور علی‌الخصوص در حوزه ICT به طور اختصاصی آموزش داده شده باشد.

هدف

هدف از انجام این پروژه و توسعة این سامانه، تحلیل متون زبان فارسی و پردازش زبان به صورت هوشمند و همچنین ساخت مجموعه دادة متنی از ویدیو و گفتگوی افراد می‌باشد که بتوان از آن در نرم‌افزارهای مختلف همراه اول مانند سامانه خودنویس (تبدیل گفتار به نوشتار بومی همراه اول)، برقراری جلسات آنلاین و همچنین سایر گزارشات موجود در سازمان استفاده کرد. همچنین این سامانه می‌تواند در مراحل بعدی در قالب خدمات برای سایر افراد، سازمان‌ها و شرکت‌های مختلف ارایه شود.

ضرورت

دستاوردها

  • ماژول‌های استانداردسازی متون (اصلاح نویسه‌ها)
  • برچسب گذاری نقش ادات سخن
  • تصحیح اشتباهات تایپی
  • تجزیه نحوی متن
  • ریشه‌یابی واژه‌ها
  • تحلیل حس
  • شناسایی موجودیت‌های نامدار
  • معادل‌یابی کلمات غیر فارسی
  • شناسایی عبارات توهین آمیز
  • معادل‌سازی واژگان تخصصی
  • ترسیم ابر کلمات
  • مدل‌سازی عنوان
  • تبدیل متن محاوره به رسمی
  • شناسایی عبارات کلیدی همراه با اشتباهات تایپی
  • جستجوی غیر دقیق سریع در متن
  • ویراستاری و غلط‌یابی
  • تقطیع جملات و واژه ها به صورت پیش نیاز
  • خلاصه‌ساز خودکار استخراجی
  • درک مطلب
  • هم مرجع‌یابی
  • نقل بیان

حوزه های قابل بهره برداری