ProjDevBench(项目开发基准)是一个用于评估AI编码智能体端到端项目开发任务的基准平台。与现有专注于问题级漏洞修复的基准不同,ProjDevBench 会评估智能体根据高层级规范构建完整、可执行的软件仓库的能力。
最近更新: 12天前AgentEval 是一款全面的 .NET 工具包,用于 AI 智能体评估——涵盖工具使用验证、检索增强生成(RAG)质量指标、随机评估和模型对比等功能——最初为微软智能体框架(MAF)和 Microsoft.Extensions.AI 打造。它之于 .NET,正如 RAGAS、PromptF...
最近更新: 12天前agentevals 是一个基于 OpenTelemetry 追踪的框架无关型评估解决方案;agentevals 从 OpenTelemetry 跟踪数据中评估性能和推理质量。
最近更新: 12天前ShopAgent(AI 选品搜索代理,轻量) 架构:前后端分离;后端 Python/Flask;前端 Bootstrap;API 驱动 API:RESTful,支持 11 + 平台数据接口,可自定义采集规则 核心选品能力: 跨平台(Amazon/eBay/Walmart/AliExpress...
最近更新: 25天前