评估
使用语言模型构建应用程序涉及许多移动部件。其中最关键的组件之一是确保您的模型生成的结果在广泛的输入范围内可靠和有用,并且与应用程序的其他软件组件配合良好。确保可靠性通常归结为应用程序设计、测试和评估以及运行时检查的组合。
本部分的指南介绍了LangChain提供的API和功能,帮助您更好地评估您的应用程序。在考虑部署LLM应用程序时,评估和测试都是至关重要的,因为生产环境需要可重复和有用的结果。
LangChain提供了各种类型的评估器,帮助您在不同数据上衡量性能和完整性,我们希望鼓励社区创建和共享其他有用的评估器,以便每个人都可以改进。这些文档将介绍评估器类型、如何使用它们以及它们在实际场景中的使用示例。
LangChain中的每种评估器类型都带有可直接使用的实现和可扩展的API,可以根据您的独特需求进行定制。以下是我们提供的一些评估器类型:
这些评估器可以在各种场景中使用,并可应用于LangChain库中的不同链和LLM实现。
我们还致力于共享指南和示例,演示如何在实际场景中使用这些评估器,例如:
- 链比较:此示例使用比较评估器来预测首选输出。它介绍了如何测量置信区间,以选择不同模型或提示之间的聚合偏好分数的统计显著差异。
参考文档
有关可用评估器的详细信息,包括如何实例化、配置和自定义它们,请直接查阅参考文档。
📄️ 字符串评估器
字符串评估器是LangChain中的一个组件,设计用于通过将其生成的输出(预测)与参考字符串或输入进行比较,来评估语言模型的性能。这种比较是评估语言模型的关键步骤,提供了生成文本的准确性或质量的度量。
📄️ 示例
🚧 文档正在建设中 🚧
📄️ Agent Benchmarking: Search + Calculator
Here we go over how to benchmark performance of an agent on tasks where it has access to a calculator and a search tool.
📄️ Agent VectorDB Question Answering Benchmarking
Here we go over how to benchmark performance on a question answering task using an agent to route between multiple vectordatabases.
📄️ 基准模板
这是一个示例笔记本,可用于为您选择的任务创建基准笔记本。评估非常困难,因此我们非常欢迎任何可以使人们更容易进行实验的贡献
📄️ index
---
📄️ Data Augmented Question Answering
This notebook uses some generic prompts/language models to evaluate an question answering system that uses other sources of data besides what is in the model. For example, this can be used to evaluate a question answering system over your proprietary data.
📄️ Generic Agent Evaluation
Good evaluation is key for quickly iterating on your agent's prompts and tools. Here we provide an example of how to use the TrajectoryEvalChain to evaluate your agent.
📄️ 使用Hugging Face Datasets
这个示例展示了如何使用Hugging Face数据集来评估模型。具体来说,我们展示了如何加载示例以评估来自Hugging Face数据集包的模型。
📄️ LLM数学
评估会做数学的链。
📄️ Evaluating an OpenAPI Chain
This notebook goes over ways to semantically evaluate an OpenAPI Chain, which calls an endpoint defined by the OpenAPI specification using purely natural language.
📄️ 问题回答基准测试:Paul Graham Essay
在这里,我们将介绍如何在Paul Graham的文章上对问题回答任务的性能进行基准测试。
📄️ 问题回答基准测试: 国情咨文
在这里,我们将介绍如何对国情咨文上的问题回答任务进行性能基准测试。
📄️ QA生成
本笔记本展示了如何使用QAGenerationChain来生成特定文档的问题-答案对。
📄️ Question Answering
This notebook covers how to evaluate generic question answering problems. This is a situation where you have an example containing a question and its corresponding ground truth answer, and you want to measure how well the language model does at answering those questions.
📄️ SQL 问题回答基准测试:Chinook
在这里,我们将介绍如何对 SQL 数据库上的问题回答任务进行性能基准测试。