字符串评估器
字符串评估器是LangChain中的一个组件,设计用于通过将其生成的输出(预测)与参考字符串或输入进行比较,来评估语言模型的性能。这种比较是评估语言模型的关键步骤,提供了生成文本的准确性或质量的度量。
在实践中,字符串评估器通常用于评估预测的字符串与给定的输入,如问题或提示。通常,提供参考标签或上下文字符串来定义正确或理想的响应应该是什么样的。这些评估器可以定制,以便将评估过程适应于您的应用程序的特定要求。
要创建自定义字符串评估器,从StringEvaluator
类继承并实现_evaluate_strings
方法。如果你需要异步支持,也要实现_aevaluate_strings
方法。
以下是与字符串评估器相关的关键属性和方法的概述:
evaluation_name
:指定评估的名称。requires_input
:布尔属性,指示评估器是否需要输入字符串。如果为True,当未提供输入时,评估器将引发错误。如果为False,如果提供了输入,将记录一个警告,表明它将不会在评估中考虑。requires_reference
:布尔属性,指定评估器是否需要参考标签。如果为True,当未提供参考时,评估器将引发错误。如果为False,如果提供了参考,将记录一个警告,表明它将不会在评估中考虑。
字符串评估器还实现了以下方法:
aevaluate_strings
:异步评估Chain或Language Model的输出,支持可选的输入和标签。evaluate_strings
:同步评估Chain或Language Model的输出,支持可选的输入和标签。
以下部分提供了关于可用的字符串评估器实现以及如何创建自定义字符串评估器的详细信息。
📄️ 字符串评估器
字符串评估器是LangChain中的一个组件,设计用于通过将其生成的输出(预测)与参考字符串或输入进行比较,来评估语言模型的性能。这种比较是评估语言模型的关键步骤,提供了生成文本的准确性或质量的度量。
📄️ 示例
🚧 文档正在建设中 🚧
📄️ Agent Benchmarking: Search + Calculator
Here we go over how to benchmark performance of an agent on tasks where it has access to a calculator and a search tool.
📄️ Agent VectorDB Question Answering Benchmarking
Here we go over how to benchmark performance on a question answering task using an agent to route between multiple vectordatabases.
📄️ 基准模板
这是一个示例笔记本,可用于为您选择的任务创建基准笔记本。评估非常困难,因此我们非常欢迎任何可以使人们更容易进行实验的贡献
📄️ index
---
📄️ Data Augmented Question Answering
This notebook uses some generic prompts/language models to evaluate an question answering system that uses other sources of data besides what is in the model. For example, this can be used to evaluate a question answering system over your proprietary data.
📄️ Generic Agent Evaluation
Good evaluation is key for quickly iterating on your agent's prompts and tools. Here we provide an example of how to use the TrajectoryEvalChain to evaluate your agent.
📄️ 使用Hugging Face Datasets
这个示例展示了如何使用Hugging Face数据集来评估模型。具体来说,我们展示了如何加载示例以评估来自Hugging Face数据集包的模型。
📄️ LLM数学
评估会做数学的链。
📄️ Evaluating an OpenAPI Chain
This notebook goes over ways to semantically evaluate an OpenAPI Chain, which calls an endpoint defined by the OpenAPI specification using purely natural language.
📄️ 问题回答基准测试:Paul Graham Essay
在这里,我们将介绍如何在Paul Graham的文章上对问题回答任务的性能进行基准测试。
📄️ 问题回答基准测试: 国情咨文
在这里,我们将介绍如何对国情咨文上的问题回答任务进行性能基准测试。
📄️ QA生成
本笔记本展示了如何使用QAGenerationChain来生成特定文档的问题-答案对。
📄️ Question Answering
This notebook covers how to evaluate generic question answering problems. This is a situation where you have an example containing a question and its corresponding ground truth answer, and you want to measure how well the language model does at answering those questions.
📄️ SQL 问题回答基准测试:Chinook
在这里,我们将介绍如何对 SQL 数据库上的问题回答任务进行性能基准测试。