Mô tả công việc Thiết lập hệ thống AI Evaluation (Evals) để đo lường độ chính xác và mức độ ảo giác của AI. Xây dựng và quản lý Golden Dataset phục vụ việc kiểm thử AI. Thiết lập hệ thống Observability và Tracing để theo dõi hành vi của AI Agent. Giám sát và phát hiện các vấn đề như: Hallucination,