सामग्री पर जाएं
AIAn Alian Software company

AI glossary

मूल्यांकन / मूल्यांकन सुइट

एक टेस्ट केस सेट जो AI सिस्टम के विरुद्ध साप्ताहिक चलाया जाता है ताकि यूज़र्स से पहले क्वालिटी रिग्रेशन पकड़ी जा सके। प्रोडक्शन के लिए अनिवार्य। हम हर शिप किए गए सिस्टम के लिए एक बनाते हैं।

The longer version

लॉन्च पर 20+ test cases, production failures के साथ साप्ताहिक वृद्धि। प्रत्येक case में expected behavior (न कि केवल expected output), scoring rubric, और pass threshold होता है। हर prompt परिवर्तन पर CI में run करें। eval fail होने पर merge block हो जाता है। client side पर named owner। पूर्ण pattern के लिए /playbooks/eval-suite देखें।

Want to talk about how this applies to your stack?