ارزیابی ساده برای بنچمارکینگ حقوقی

Name: ارزیابی ساده برای بنچمارکینگ حقوقی
Author: Adam Janes

Adam Janes

تاریخ ایجاد: ۱۴۰۴/۳/۱۶•تعداد بازدید: ۲۲۵•مشاهده صفحه مرجع

مهندسی

ارزیابی خودکار مدل‌های زبانی با n8n و گوگل شیت

این قالب ورک‌فلو به شما امکان می‌دهد به سادگی ارزیابی (Evals) مدل‌های زبانی را با استفاده از مجموعه‌ای از کیس‌های تست ذخیره‌شده در Google Sheets انجام دهید. برای نمونه، در این ورک‌فلو، ۶ مدل زبانی مختلف (LLM) روی ۱۸ کیس تست از یک دیتاست استخراج اطلاعات، بررسی شده‌اند.

ویژگی‌های کلیدی:

سازگاری با گوگل شیت: به راحتی تست‌های خود را در یک فایل اکسل آنلاین مدیریت و بروزرسانی کنید.
ارزیابی خودکار: هر ردیف (یا همان تست) با کمک مدل هوشمند GPT-4.1 بررسی می‌شود و نتیجه (قبول/رد به همراه توضیح) به صورت خودکار استخراج و ثبت می‌گردد.
گزارش‌گیری در لحظه: نتایج هر تست بلافاصله به همان گوگل شیت منتقل می‌شود تا همیشه وضعیت آخرین تست‌ها را داشته باشید.
فرصت سفارشی‌سازی: با کپی‌کردن فایل نمونه و درج تست‌های خودتان، می‌توانید ارزیابی را برای مدل‌ها و داده‌های مختص کسب‌وکار خود انجام دهید.
رعایت محدودیت API: با توقف کوتاه بین درخواست‌ها، مشکلات احتمالی محدودیت OpenAI به حداقل می‌رسد.

مراحل راه‌اندازی:

افزودن دسترسی‌های Google Sheets و Google Drive و OpenRouter
کپی‌کردن نمونه دیتاست در Google Sheets برای استفاده و شخصی‌سازی داده‌ها
تنظیم ورک‌فلو جهت خواندن و بروزرسانی نتایج در شیت اختصاصی‌تان

این قالب برای کسب‌وکارهای کوچک و افرادی که به ارزیابی سریع و قابل اطمینان عملکرد مدل‌های زبانی نیاز دارند، انتخابی هوشمندانه است.

یکپارچه‌سازی‌های به کار رفته

این فرآیند با استفاده از پلتفرم n8n طراحی شده و قابلیت خودکارسازی بسیاری از فعالیت‌های دیجیتال را فراهم می‌کند.

با دانلود فایل JSON این قالب، می‌توانید آن را به راحتی در محیط n8n خود وارد کرده و تغییرات لازم را انجام دهید. مناسب برای توسعه‌دهندگان، مارکترها و تمام کسب‌وکارهایی که به دنبال خودکارسازی وظایف روزمره هستند.