基准模板

这是一个示例笔记本，可用于为您选择的任务创建基准笔记本。评估非常困难，因此我们非常欢迎任何可以使人们更容易进行实验的贡献

强烈建议您在启用跟踪的情况下进行任何评估/基准测试。有关跟踪是什么以及如何设置它的解释，请参见这里

# 如果您不使用跟踪，请注释掉此行
import os

os.environ["LANGCHAIN_HANDLER"] = "langchain"

加载数据

首先，让我们加载数据。

# 此笔记本应该展示如何从Hugging Face的LangChainDatasets加载数据集

# 请将您的数据集上传到https://huggingface.co/LangChainDatasets

# `load_dataset` 中传递的值不应具有`LangChainDatasets/`前缀
from langchain.evaluation.loading import load_dataset

dataset = load_dataset("TODO")

设置链

接下来的部分应该有一个设置可以在该数据集上运行的链的示例。

进行预测

首先，我们可以逐个数据点进行预测。以这种粒度进行预测允许我们详细探索输出，而且比运行多个数据点要便宜得多

# 在这里放置在单个数据点上运行链的示例（`dataset[0]`）

进行多次预测

现在我们可以进行预测。

# 在这里放置在多个预测上运行链的示例

# 有时只需简单地使用 `chain.apply(dataset)`

# 其他情况下，您可能需要编写一个for循环来捕获错误

评估性能

任何关于以更系统的方式评估性能的指南都在这里。

基准模板

加载数据​

设置链​

进行预测​

进行多次预测​

评估性能​

加载数据

设置链

进行预测

进行多次预测

评估性能