Run Evaluation

Run model and agent evaluations against test cases and rubrics.

Provider	Cost	Latency	Reliability	Trust	Risk	Permissions
Anthropic planned MCP Verified	$1.4	35s	96%	94/100	low	READ_DATA

{
  "capability": "run-evaluation",
  "example_agent_query": "Find providers for run-evaluation",
  "providers": [
    "anthropic"
  ]
}