توسعه نخستین بنچمارک جامع ارزیابی همترازی مدل‌های زبانی بزرگ فارسی در MCILAB

بهار 1404

کد خبر:

4117

بازدید: 19

مرکز تحقیق و توسعه همراه اول با افتخار اعلام می‌کند که در واحد MCILAB این مرکز و با همکاری آزمایشگاه یادگیری ماشین دانشکده مهندسی کامپیوتر دانشگاه صنعتی شریف، نخستین بنچمارک جامع ارزیابی همترازی (Alignment) مدل‌های زبانی بزرگ (LLMs) در زبان فارسی را توسعه داده است.

چرا ارزیابی همترازی اهمیت دارد؟

ارزیابی همترازی مدل‌های زبانی نقشی کلیدی در تضمین ایمنی، اخلاق‌مداری و قابل اعتماد بودن سیستم‌های مبتنی بر هوش مصنوعی دارد. اهمیت این موضوع از چند منظر قابل توجه است:

پیشگیری از رفتارهای خطرناک: جلوگیری از تولید محتوای مضر، تبعیض‌آمیز یا غیراخلاقی
افزایش قابلیت اعتماد: اطمینان از رفتار ایمن و قابل پیش‌بینی مدل‌ها در سناریوهای واقعی
انطباق با استانداردهای جهانی: پایبندی به مقرراتی مانند AI Act اتحادیه اروپا و چارچوب‌های اخلاقی بین‌المللی

معیارهای کلیدی در ارزیابی همترازی

این بنچمارک سه محور اساسی را به عنوان معیارهای اصلی ارزیابی در نظر گرفته است:

اخلاق و انصاف (Ethics & Fairness)
امنیت (Safety)
هنجارهای اجتماعی (Social Norms)

بازیگران جهانی در حوزه همترازی

در سطح بین‌المللی، شرکت‌ها و نهادهای تحقیقاتی متعددی در زمینه همترازی مدل‌های زبانی فعالیت می‌کنند، از جمله:

شرکت‌های پیشرو: OpenAI، Anthropic، Google DeepMind، Meta
مراکز تحقیقاتی معتبر: MIT، Stanford، UC Berkeley، Partnership on AI

اهداف و مزایای این بنچمارک

ارزیابی عملکرد مدل‌های زبانی فارسی در ابعاد ایمنی، انصاف و هنجارهای اجتماعی
توسعه و انتشار دیتاست‌های جامع همترازی ویژه زبان فارسی
ایجاد امکان مقایسه و تحلیل کیفی میان مدل‌ها و معماری‌های مختلف
تقویت توانمندی‌های NLP در زبان فارسی و فراهم‌سازی زمینه‌ای نوین برای پیشرفت جامعه تحقیقاتی

درباره دیتاست‌ها

این بنچمارک شامل ۹ مجموعه داده (دیتاست) فارسی است که از منابع متنوعی گردآوری شده‌اند:

ترجمه دقیق از دیتاست‌های معتبر انگلیسی
تولید مصنوعی با استفاده از مدل‌های زبانی بزرگ
استخراج داده‌ از شبکه‌های اجتماعی

تمامی داده‌ها برای استفاده پژوهشی از طریق آدرس ایمیل زیر در دسترس محققان و علاقه‌مندان قرار دارد:
mcilab.llmevaluation@gmail.com

دسترسی به نتایج و مقاله

برای مشاهده عملکرد مدل‌ها و دسترسی به لیدربورد بنچمارک، از لینک‌های زیر استفاده نمایید:

لیدربورد MCILAB در Hugging Face:
https://huggingface.co/spaces/MCILAB/LLM_Alignment_Evaluation
مقاله کامل پروژه:
https://arxiv.org/abs/2504.12553

بازگشت به لیست مطالب

برچسب‌ها

گزارش خرابی

اخبار پیشنهادی

همکاری همراه اول و بانک پارسیان در پیاده‌سازی سامانه هوش مصنوعی سه‌بعدی

با هدف هوشمندسازی شعب بانکی و کاهش هزینه‌ها، تفاهم‌نامه سه‌جانبه مرکز ...

برگزاری نخستین رویداد اقتصاد دیجیتال همراه اول

نخستین رویداد اقتصاد دیجیتال همراه اول با موضوع نقش‌آفرینی صنعت ICT ...