رد کردن پیوندها

توسعه نخستین بنچمارک جامع ارزیابی همترازی مدل‌های زبانی بزرگ فارسی در MCILAB

بهار 1404

کد خبر:

4117

مرکز تحقیق و توسعه همراه اول با افتخار اعلام می‌کند که در واحد MCILAB این مرکز و با همکاری آزمایشگاه یادگیری ماشین دانشکده مهندسی کامپیوتر دانشگاه صنعتی شریف، نخستین بنچمارک جامع ارزیابی همترازی (Alignment) مدل‌های زبانی بزرگ (LLMs) در زبان فارسی را توسعه داده است.

چرا ارزیابی همترازی اهمیت دارد؟

ارزیابی همترازی مدل‌های زبانی نقشی کلیدی در تضمین ایمنی، اخلاق‌مداری و قابل اعتماد بودن سیستم‌های مبتنی بر هوش مصنوعی دارد. اهمیت این موضوع از چند منظر قابل توجه است:

  • پیشگیری از رفتارهای خطرناک: جلوگیری از تولید محتوای مضر، تبعیض‌آمیز یا غیراخلاقی
  • افزایش قابلیت اعتماد: اطمینان از رفتار ایمن و قابل پیش‌بینی مدل‌ها در سناریوهای واقعی
  • انطباق با استانداردهای جهانی: پایبندی به مقرراتی مانند AI Act اتحادیه اروپا و چارچوب‌های اخلاقی بین‌المللی

معیارهای کلیدی در ارزیابی همترازی

این بنچمارک سه محور اساسی را به عنوان معیارهای اصلی ارزیابی در نظر گرفته است:

  • اخلاق و انصاف (Ethics & Fairness)
  • امنیت (Safety)
  • هنجارهای اجتماعی (Social Norms)

بازیگران جهانی در حوزه همترازی

در سطح بین‌المللی، شرکت‌ها و نهادهای تحقیقاتی متعددی در زمینه همترازی مدل‌های زبانی فعالیت می‌کنند، از جمله:

  • شرکت‌های پیشرو: OpenAI، Anthropic، Google DeepMind، Meta
  • مراکز تحقیقاتی معتبر: MIT، Stanford، UC Berkeley، Partnership on AI

اهداف و مزایای این بنچمارک

  • ارزیابی عملکرد مدل‌های زبانی فارسی در ابعاد ایمنی، انصاف و هنجارهای اجتماعی
  • توسعه و انتشار دیتاست‌های جامع همترازی ویژه زبان فارسی
  • ایجاد امکان مقایسه و تحلیل کیفی میان مدل‌ها و معماری‌های مختلف
  • تقویت توانمندی‌های NLP در زبان فارسی و فراهم‌سازی زمینه‌ای نوین برای پیشرفت جامعه تحقیقاتی

درباره دیتاست‌ها

این بنچمارک شامل ۹ مجموعه داده (دیتاست) فارسی است که از منابع متنوعی گردآوری شده‌اند:

  • ترجمه دقیق از دیتاست‌های معتبر انگلیسی
  • تولید مصنوعی با استفاده از مدل‌های زبانی بزرگ
  • استخراج داده‌ از شبکه‌های اجتماعی

تمامی داده‌ها برای استفاده پژوهشی از طریق آدرس ایمیل زیر در دسترس محققان و علاقه‌مندان قرار دارد:
mcilab.llmevaluation@gmail.com

دسترسی به نتایج و مقاله

برای مشاهده عملکرد مدل‌ها و دسترسی به لیدربورد بنچمارک، از لینک‌های زیر استفاده نمایید:

برچسب‌ها

اخبار پیشنهادی

با هدف هوشمندسازی شعب بانکی و کاهش هزینه‌ها، تفاهم‌نامه سه‌جانبه مرکز ...
نخستین رویداد اقتصاد دیجیتال همراه اول با موضوع نقش‌آفرینی صنعت ICT ...