Skip to main content

评估

使用语言模型构建应用程序涉及许多移动部件。其中最关键的组件之一是确保您的模型生成的结果在广泛的输入范围内可靠和有用,并且与应用程序的其他软件组件配合良好。确保可靠性通常归结为应用程序设计、测试和评估以及运行时检查的组合。

本部分的指南介绍了LangChain提供的API和功能,帮助您更好地评估您的应用程序。在考虑部署LLM应用程序时,评估和测试都是至关重要的,因为生产环境需要可重复和有用的结果。

LangChain提供了各种类型的评估器,帮助您在不同数据上衡量性能和完整性,我们希望鼓励社区创建和共享其他有用的评估器,以便每个人都可以改进。这些文档将介绍评估器类型、如何使用它们以及它们在实际场景中的使用示例。

LangChain中的每种评估器类型都带有可直接使用的实现和可扩展的API,可以根据您的独特需求进行定制。以下是我们提供的一些评估器类型:

  • 字符串评估器:这些评估器评估给定输入的预测字符串,通常将其与参考字符串进行比较。
  • 轨迹评估器:用于评估代理动作的整个轨迹。
  • 比较评估器:这些评估器旨在比较对同一输入的两次运行的预测。

这些评估器可以在各种场景中使用,并可应用于LangChain库中的不同链和LLM实现。

我们还致力于共享指南和示例,演示如何在实际场景中使用这些评估器,例如:

  • 链比较:此示例使用比较评估器来预测首选输出。它介绍了如何测量置信区间,以选择不同模型或提示之间的聚合偏好分数的统计显著差异。

参考文档

有关可用评估器的详细信息,包括如何实例化、配置和自定义它们,请直接查阅参考文档