AI glossary

मूल्यांकन / मूल्यांकन सुइट

एक टेस्ट केस सेट जो AI सिस्टम के विरुद्ध साप्ताहिक चलाया जाता है ताकि यूज़र्स से पहले क्वालिटी रिग्रेशन पकड़ी जा सके। प्रोडक्शन के लिए अनिवार्य। हम हर शिप किए गए सिस्टम के लिए एक बनाते हैं।

The longer version

लॉन्च पर 20+ test cases, production failures के साथ साप्ताहिक वृद्धि। प्रत्येक case में expected behavior (न कि केवल expected output), scoring rubric, और pass threshold होता है। हर prompt परिवर्तन पर CI में run करें। eval fail होने पर merge block हो जाता है। client side पर named owner। पूर्ण pattern के लिए /playbooks/eval-suite देखें।