🕷️ ScrapeGraphAI: 你只需采集一次

English | 中文 | 日本語 | 한국어 | Русский | Türkçe

ScrapeGraphAI 是一个使用大语言模型（LLM）和直接图形逻辑的网络数据采集Python库，专为构建网站和本地文档（如XML、HTML、JSON、Markdown等）的数据采集管道而设计。

只需告诉它你想提取的信息，这个库就会为你完成任务！

🚀 快速安装

Scrapegraph-ai 的参考页面可以在PyPI的官方网站上找到: pypi。

bash

pip install scrapegraphai

# 重要提示（用于获取网站内容）
playwright install

注意: 建议在虚拟环境中安装该库以避免与其他库的冲突 🐱

💻 用法

可以使用多种标准的数据采集管道从网站（或本地文件）中获取信息。

最常用的是 SmartScraperGraph，它能够根据用户的提示与源网址提取单个页面信息。

python

from scrapegraphai.graphs import SmartScraperGraph

# 定义数据采集管道的配置
graph_config = {
    "llm": {
        "api_key": "YOUR_OPENAI_API_KEY",
        "model": "openai/gpt-4o-mini",
    },
    "verbose": True,
    "headless": False,
}

# 创建 SmartScraperGraph 实例
smart_scraper_graph = SmartScraperGraph(
    prompt="提取网页上的有用信息，包括公司所做的事情的描述、创始人及社交媒体链接",
    source="https://scrapegraphai.com/",
    config=graph_config
)

# 运行管道
result = smart_scraper_graph.run()

import json
print(json.dumps(result, indent=4))

输出将会是类似如下的字典：

python

{
    "description": "ScrapeGraphAI 将网站转换为干净、组织良好的数据，供 AI 代理和数据分析使用。它提供了一个由 AI 驱动的 API，用于轻松且高效地提取数据。",
    "founders": [
        {
            "name": "Marco Perini",
            "role": "创始人 & 技术负责人",
            "linkedin": "https://www.linkedin.com/in/perinim/"
        },
        {
            "name": "Marco Vinciguerra",
            "role": "创始人 & 软件工程师",
            "linkedin": "https://www.linkedin.com/in/marco-vinciguerra-7ba365242/"
        },
        {
            "name": "Lorenzo Padoan",
            "role": "创始人 & 产品工程师",
            "linkedin": "https://www.linkedin.com/in/lorenzo-padoan-4521a2154/"
        }
    ],
    "social_media_links": {
        "linkedin": "https://www.linkedin.com/company/101881123",
        "twitter": "https://x.com/scrapegraphai",
        "github": "https://github.com/ScrapeGraphAI/Scrapegraph-ai"
    }
}

还有其他管道可用于从多个页面提取信息、生成Python脚本，甚至是音频文件。

管道名称	描述
SmartScraperGraph	单页采集器，只需用户提示和输入源。
SearchGraph	一个多页采集器，从搜索引擎的前n个搜索结果中提取信息。
SpeechGraph	单页采集器，从网站提取信息并生成音频文件。
ScriptCreatorGraph	单页采集器，从网站中提取信息并生成一个Python脚本。
SmartScraperMultiGraph	多页采集器，可在提供单一提示和多个来源的情况下提取多页面信息。
ScriptCreatorMultiGraph	多页采集器，用于生成从多个页面和源中提取信息的Python脚本。

每种图都有多重版本，允许并行调用大语言模型（LLM）。

可以通过API使用不同的大语言模型，比如 OpenAI、Groq、Azure 和 Gemini，或使用 Ollama 进行本地模型调用。

如果你想使用本地模型，请确保已安装 Ollama 并使用 ollama pull 命令下载模型。

📖 文档

ScrapeGraphAI的文档可以在此处找到。也请查看 Docusaurus 此处。

🔗 ScrapeGraph API & SDKs

如果你正在寻找将ScrapeGraph快速集成到你的系统中的解决方案，请查看我们强大的API这里！

我们提供了Python和Node.js的SDK，使集成到你的项目中变得简单。可以在以下位置查看：

SDK	语言	GitHub 链接
Python SDK	Python	scrapegraph-py
Node.js SDK	Node.js	scrapegraph-js

官方API文档可以在这里找到。

🎓 引用

如果你在研究中使用了我们的库，请引用我们，参考如下：

text

  @misc{scrapegraph-ai,
    author = {Marco Perini, Lorenzo Padoan, Marco Vinciguerra},
    title = {Scrapegraph-ai},
    year = {2024},
    url = {https://github.com/VinciGit00/Scrapegraph-ai},
    note = {一个利用大语言模型的数据采集Python库}
  }

作者

	联系信息
Marco Vinciguerra
Marco Perini
Lorenzo Padoan

📜 许可证

ScrapeGraphAI 采用 MIT 许可证。请查看 LICENSE 文件以获取更多信息。

🕷️ ScrapeGraphAI: 你只需采集一次

English | 中文 | 日本語 | 한국어 | Русский | Türkçe

只需告诉它你想提取的信息，这个库就会为你完成任务！

🚀 快速安装

Scrapegraph-ai 的参考页面可以在PyPI的官方网站上找到: pypi。

bash

pip install scrapegraphai

# 重要提示（用于获取网站内容）
playwright install

注意: 建议在虚拟环境中安装该库以避免与其他库的冲突 🐱

💻 用法

可以使用多种标准的数据采集管道从网站（或本地文件）中获取信息。

最常用的是 SmartScraperGraph，它能够根据用户的提示与源网址提取单个页面信息。

python

from scrapegraphai.graphs import SmartScraperGraph

# 定义数据采集管道的配置
graph_config = {
    "llm": {
        "api_key": "YOUR_OPENAI_API_KEY",
        "model": "openai/gpt-4o-mini",
    },
    "verbose": True,
    "headless": False,
}

# 创建 SmartScraperGraph 实例
smart_scraper_graph = SmartScraperGraph(
    prompt="提取网页上的有用信息，包括公司所做的事情的描述、创始人及社交媒体链接",
    source="https://scrapegraphai.com/",
    config=graph_config
)

# 运行管道
result = smart_scraper_graph.run()

import json
print(json.dumps(result, indent=4))

输出将会是类似如下的字典：

python

{
    "description": "ScrapeGraphAI 将网站转换为干净、组织良好的数据，供 AI 代理和数据分析使用。它提供了一个由 AI 驱动的 API，用于轻松且高效地提取数据。",
    "founders": [
        {
            "name": "Marco Perini",
            "role": "创始人 & 技术负责人",
            "linkedin": "https://www.linkedin.com/in/perinim/"
        },
        {
            "name": "Marco Vinciguerra",
            "role": "创始人 & 软件工程师",
            "linkedin": "https://www.linkedin.com/in/marco-vinciguerra-7ba365242/"
        },
        {
            "name": "Lorenzo Padoan",
            "role": "创始人 & 产品工程师",
            "linkedin": "https://www.linkedin.com/in/lorenzo-padoan-4521a2154/"
        }
    ],
    "social_media_links": {
        "linkedin": "https://www.linkedin.com/company/101881123",
        "twitter": "https://x.com/scrapegraphai",
        "github": "https://github.com/ScrapeGraphAI/Scrapegraph-ai"
    }
}

还有其他管道可用于从多个页面提取信息、生成Python脚本，甚至是音频文件。

管道名称	描述
SmartScraperGraph	单页采集器，只需用户提示和输入源。
SearchGraph	一个多页采集器，从搜索引擎的前n个搜索结果中提取信息。
SpeechGraph	单页采集器，从网站提取信息并生成音频文件。
ScriptCreatorGraph	单页采集器，从网站中提取信息并生成一个Python脚本。
SmartScraperMultiGraph	多页采集器，可在提供单一提示和多个来源的情况下提取多页面信息。
ScriptCreatorMultiGraph	多页采集器，用于生成从多个页面和源中提取信息的Python脚本。

每种图都有多重版本，允许并行调用大语言模型（LLM）。

可以通过API使用不同的大语言模型，比如 OpenAI、Groq、Azure 和 Gemini，或使用 Ollama 进行本地模型调用。

如果你想使用本地模型，请确保已安装 Ollama 并使用 ollama pull 命令下载模型。

📖 文档

ScrapeGraphAI的文档可以在此处找到。也请查看 Docusaurus 此处。

🔗 ScrapeGraph API & SDKs

如果你正在寻找将ScrapeGraph快速集成到你的系统中的解决方案，请查看我们强大的API这里！

我们提供了Python和Node.js的SDK，使集成到你的项目中变得简单。可以在以下位置查看：

SDK	语言	GitHub 链接
Python SDK	Python	scrapegraph-py
Node.js SDK	Node.js	scrapegraph-js

官方API文档可以在这里找到。

🎓 引用

如果你在研究中使用了我们的库，请引用我们，参考如下：

text

  @misc{scrapegraph-ai,
    author = {Marco Perini, Lorenzo Padoan, Marco Vinciguerra},
    title = {Scrapegraph-ai},
    year = {2024},
    url = {https://github.com/VinciGit00/Scrapegraph-ai},
    note = {一个利用大语言模型的数据采集Python库}
  }

作者

	联系信息
Marco Vinciguerra
Marco Perini
Lorenzo Padoan

📜 许可证

ScrapeGraphAI 采用 MIT 许可证。请查看 LICENSE 文件以获取更多信息。

Scrapegraph-ai

项目详情

🕷️ ScrapeGraphAI: 你只需采集一次

🚀 快速安装

💻 用法

📖 文档

🔗 ScrapeGraph API & SDKs

🎓 引用

作者

📜 许可证

相关项目

crawl4ai

Scrapegraph-ai

项目详情

🕷️ ScrapeGraphAI: 你只需采集一次

🚀 快速安装

💻 用法

📖 文档

🔗 ScrapeGraph API & SDKs

🎓 引用

作者

📜 许可证

相关项目

crawl4ai