llm-agentsFeatured

llm-evaluation

5.2k starsUpdated 2025-12-28

GitHub 查看完整技能

Compatible with:claudecodex

描述

使用自动化指标、人工反馈和基准测试为 LLM 应用实施全面的评估策略。

如何使用

访问 GitHub 仓库获取 SKILL.md 文件
将文件复制到您的项目根目录或 .cursor/rules 目录
重启您的 AI 助手或编辑器以应用新技能

完整技能说明

name

llm-evaluation

description

Implement comprehensive evaluation strategies for LLM applications using automated metrics, human feedback, and benchmarking. Use when testing LLM performance, measuring AI application quality, or establishing evaluation frameworks.

关于 llm-evaluation

llm-evaluation 是一个 llm-agents 类别的 AI 技能，旨在帮助开发者和用户更高效地使用 AI 工具。使用自动化指标、人工反馈和基准测试为 LLM 应用实施全面的评估策略。

该技能在 GitHub 上获得了 5,200 个 star，表明它在社区中受到广泛认可。它兼容 claude、codex 等平台。

核心能力

✓llm

✓evaluation

✓testing

为什么使用 llm-evaluation

将 llm-evaluation 添加到您的 AI 工作流中可以显著提升在 llm-agents 领域的工作效率。通过预定义的提示模板和最佳实践，这个技能可以帮助 AI 助手更好地理解您的需求并提供更准确的响应。

无论您使用 claude 还是 codex，都可以轻松集成此技能到您现有的开发环境中。

探索更多 llm-agents 技能

发现更多 llm-agents 类别的 AI 技能，帮助您构建全面的 AI 技能栈。

agent-identifier47.9k configured-agent47.9k command-name47.9k claude-opus-4-5-migration47.9k PPTX creation, editing, and analysis31.9k

llm-evaluation

描述

如何使用

完整技能说明

Tags

关于 llm-evaluation

核心能力

为什么使用 llm-evaluation

探索更多 llm-agents 技能

相关技能

agent-identifier

configured-agent

command-name

claude-opus-4-5-migration

PPTX creation, editing, and analysis