Skip to main content

基准模板

这是一个示例笔记本,可用于为您选择的任务创建基准笔记本。评估非常困难,因此我们非常欢迎任何可以使人们更容易进行实验的贡献

强烈建议您在启用跟踪的情况下进行任何评估/基准测试。有关跟踪是什么以及如何设置它的解释,请参见这里

# 如果您不使用跟踪,请注释掉此行
import os

os.environ["LANGCHAIN_HANDLER"] = "langchain"

加载数据

首先,让我们加载数据。

# 此笔记本应该展示如何从Hugging Face的LangChainDatasets加载数据集

# 请将您的数据集上传到https://huggingface.co/LangChainDatasets

# `load_dataset` 中传递的值不应具有`LangChainDatasets/`前缀
from langchain.evaluation.loading import load_dataset

dataset = load_dataset("TODO")

设置链

接下来的部分应该有一个设置可以在该数据集上运行的链的示例。


进行预测

首先,我们可以逐个数据点进行预测。以这种粒度进行预测允许我们详细探索输出,而且比运行多个数据点要便宜得多

# 在这里放置在单个数据点上运行链的示例(`dataset[0]`)

进行多次预测

现在我们可以进行预测。

# 在这里放置在多个预测上运行链的示例

# 有时只需简单地使用 `chain.apply(dataset)`

# 其他情况下,您可能需要编写一个for循环来捕获错误

评估性能

任何关于以更系统的方式评估性能的指南都在这里。