Skip to main content

Diffbot

Diffbot 是一个读取网页的服务。与传统的网页抓取工具不同, Diffbot 不需要任何规则来读取页面上的内容。 它从计算机视觉开始,将页面分类为 20 种可能的类型之一。然后,根据页面的类型,使用机器学习模型来解释内容,并识别出关键属性。 结果是将网站转化为干净结构化的数据(如 JSON 或 CSV),可以直接供您的应用程序使用。

安装和设置

阅读 说明 获取 Diffbot API 令牌。

文档加载器

查看一个 使用示例

from langchain.document_loaders import DiffbotLoader