ارزیابی ساده برای بنچمارکینگ حقوقی
مهندسی
ارزیابی خودکار مدلهای زبانی با n8n و گوگل شیت
این قالب ورکفلو به شما امکان میدهد به سادگی ارزیابی (Evals) مدلهای زبانی را با استفاده از مجموعهای از کیسهای تست ذخیرهشده در Google Sheets انجام دهید. برای نمونه، در این ورکفلو، ۶ مدل زبانی مختلف (LLM) روی ۱۸ کیس تست از یک دیتاست استخراج اطلاعات، بررسی شدهاند.
ویژگیهای کلیدی:
- سازگاری با گوگل شیت: به راحتی تستهای خود را در یک فایل اکسل آنلاین مدیریت و بروزرسانی کنید.
- ارزیابی خودکار: هر ردیف (یا همان تست) با کمک مدل هوشمند GPT-4.1 بررسی میشود و نتیجه (قبول/رد به همراه توضیح) به صورت خودکار استخراج و ثبت میگردد.
- گزارشگیری در لحظه: نتایج هر تست بلافاصله به همان گوگل شیت منتقل میشود تا همیشه وضعیت آخرین تستها را داشته باشید.
- فرصت سفارشیسازی: با کپیکردن فایل نمونه و درج تستهای خودتان، میتوانید ارزیابی را برای مدلها و دادههای مختص کسبوکار خود انجام دهید.
- رعایت محدودیت API: با توقف کوتاه بین درخواستها، مشکلات احتمالی محدودیت OpenAI به حداقل میرسد.
مراحل راهاندازی:
- افزودن دسترسیهای Google Sheets و Google Drive و OpenRouter
- کپیکردن نمونه دیتاست در Google Sheets برای استفاده و شخصیسازی دادهها
- تنظیم ورکفلو جهت خواندن و بروزرسانی نتایج در شیت اختصاصیتان
این قالب برای کسبوکارهای کوچک و افرادی که به ارزیابی سریع و قابل اطمینان عملکرد مدلهای زبانی نیاز دارند، انتخابی هوشمندانه است.
یکپارچهسازیهای به کار رفته
این فرآیند با استفاده از پلتفرم n8n طراحی شده و قابلیت خودکارسازی بسیاری از فعالیتهای دیجیتال را فراهم میکند.
با دانلود فایل JSON این قالب، میتوانید آن را به راحتی در محیط n8n خود وارد کرده و تغییرات لازم را انجام دهید. مناسب برای توسعهدهندگان، مارکترها و تمام کسبوکارهایی که به دنبال خودکارسازی وظایف روزمره هستند.