项目详情
深入了解 Scrapegraph-ai 的功能与特性
🕷️ ScrapeGraphAI: 你只需采集一次
English | 中文 | 日本語 | 한국어 | Русский | Türkçe
ScrapeGraphAI 是一个使用大语言模型(LLM)和直接图形逻辑的网络数据采集Python库,专为构建网站和本地文档(如XML、HTML、JSON、Markdown等)的数据采集管道而设计。
只需告诉它你想提取的信息,这个库就会为你完成任务!
🚀 快速安装
Scrapegraph-ai 的参考页面可以在PyPI的官方网站上找到: pypi。
pip install scrapegraphai
# 重要提示(用于获取网站内容)
playwright install
注意: 建议在虚拟环境中安装该库以避免与其他库的冲突 🐱
💻 用法
可以使用多种标准的数据采集管道从网站(或本地文件)中获取信息。
最常用的是 SmartScraperGraph,它能够根据用户的提示与源网址提取单个页面信息。
from scrapegraphai.graphs import SmartScraperGraph
# 定义数据采集管道的配置
graph_config = {
"llm": {
"api_key": "YOUR_OPENAI_API_KEY",
"model": "openai/gpt-4o-mini",
},
"verbose": True,
"headless": False,
}
# 创建 SmartScraperGraph 实例
smart_scraper_graph = SmartScraperGraph(
prompt="提取网页上的有用信息,包括公司所做的事情的描述、创始人及社交媒体链接",
source="https://scrapegraphai.com/",
config=graph_config
)
# 运行管道
result = smart_scraper_graph.run()
import json
print(json.dumps(result, indent=4))
输出将会是类似如下的字典:
{
"description": "ScrapeGraphAI 将网站转换为干净、组织良好的数据,供 AI 代理和数据分析使用。它提供了一个由 AI 驱动的 API,用于轻松且高效地提取数据。",
"founders": [
{
"name": "Marco Perini",
"role": "创始人 & 技术负责人",
"linkedin": "https://www.linkedin.com/in/perinim/"
},
{
"name": "Marco Vinciguerra",
"role": "创始人 & 软件工程师",
"linkedin": "https://www.linkedin.com/in/marco-vinciguerra-7ba365242/"
},
{
"name": "Lorenzo Padoan",
"role": "创始人 & 产品工程师",
"linkedin": "https://www.linkedin.com/in/lorenzo-padoan-4521a2154/"
}
],
"social_media_links": {
"linkedin": "https://www.linkedin.com/company/101881123",
"twitter": "https://x.com/scrapegraphai",
"github": "https://github.com/ScrapeGraphAI/Scrapegraph-ai"
}
}
还有其他管道可用于从多个页面提取信息、生成Python脚本,甚至是音频文件。
| 管道名称 | 描述 |
|---|---|
| SmartScraperGraph | 单页采集器,只需用户提示和输入源。 |
| SearchGraph | 一个多页采集器,从搜索引擎的前n个搜索结果中提取信息。 |
| SpeechGraph | 单页采集器,从网站提取信息并生成音频文件。 |
| ScriptCreatorGraph | 单页采集器,从网站中提取信息并生成一个Python脚本。 |
| SmartScraperMultiGraph | 多页采集器,可在提供单一提示和多个来源的情况下提取多页面信息。 |
| ScriptCreatorMultiGraph | 多页采集器,用于生成从多个页面和源中提取信息的Python脚本。 |
每种图都有多重版本,允许并行调用大语言模型(LLM)。
可以通过API使用不同的大语言模型,比如 OpenAI、Groq、Azure 和 Gemini,或使用 Ollama 进行本地模型调用。
如果你想使用本地模型,请确保已安装 Ollama 并使用 ollama pull 命令下载模型。
📖 文档
ScrapeGraphAI的文档可以在此处找到。也请查看 Docusaurus 此处。
🔗 ScrapeGraph API & SDKs
如果你正在寻找将ScrapeGraph快速集成到你的系统中的解决方案,请查看我们强大的API这里!
我们提供了Python和Node.js的SDK,使集成到你的项目中变得简单。可以在以下位置查看:
| SDK | 语言 | GitHub 链接 |
|---|---|---|
| Python SDK | Python | scrapegraph-py |
| Node.js SDK | Node.js | scrapegraph-js |
官方API文档可以在这里找到。
🎓 引用
如果你在研究中使用了我们的库,请引用我们,参考如下:
@misc{scrapegraph-ai,
author = {Marco Perini, Lorenzo Padoan, Marco Vinciguerra},
title = {Scrapegraph-ai},
year = {2024},
url = {https://github.com/VinciGit00/Scrapegraph-ai},
note = {一个利用大语言模型的数据采集Python库}
}
作者
| 联系信息 | |
|---|---|
| Marco Vinciguerra | |
| Marco Perini | |
| Lorenzo Padoan |
📜 许可证
ScrapeGraphAI 采用 MIT 许可证。请查看 LICENSE 文件以获取更多信息。