Você melhora o prompt pra resolver um caso e, sem perceber, piora outros três. Sem eval, você descobre isso pelo cliente reclamando. Com eval, descobre em 10 minutos, antes do deploy.
Eval aqui não é benchmark acadêmico, é teste de regressão de comportamento:
- Monte um conjunto de conversas de teste a partir de casos reais: a objeção de preço, o cliente confuso, o pedido de reembolso, o grosso, o apressado
- Rode o agente contra esse conjunto a cada mudança de prompt ou modelo
- Avalie com critérios explícitos: resolveu? manteve o tom? inventou informação? respeitou as regras do negócio?
- Compare com a rodada anterior. Piorou em algo? Investiga antes de subir.
Dá pra usar um modelo forte como juiz das respostas, com rubrica clara. Não é perfeito, mas pega a maioria das regressões por uma fração do custo de revisão humana.
Começa pequeno: 20 conversas de teste já mudam sua vida. O pior eval é o que não existe, e o segundo pior é o que ninguém roda porque é chato. Automatiza no CI e esquece.
Aula 10 é inteira sobre isso, com código.