AI 爬虫开源技术

Scrapegraph-ai

作者头像
项目作者ScrapeGraphAI

Python scraper based on AI

Scrapegraph-ai 预览图

Scrapegraph-ai 介绍

了解项目的详细信息和使用方法

🕷️ ScrapeGraphAI: 你只需采集一次

English | 中文 | 日本語 | 한국어 | Русский | Türkçe

VinciGit00%2FScrapegraph-ai | Trendshift

ScrapeGraphAI 是一个使用大语言模型(LLM)和直接图形逻辑的网络数据采集Python库,专为构建网站和本地文档(如XML、HTML、JSON、Markdown等)的数据采集管道而设计。

只需告诉它你想提取的信息,这个库就会为你完成任务!

🚀 快速安装

Scrapegraph-ai 的参考页面可以在PyPI的官方网站上找到: pypi

bash
1pip install scrapegraphai 2 3# 重要提示(用于获取网站内容) 4playwright install

注意: 建议在虚拟环境中安装该库以避免与其他库的冲突 🐱

💻 用法

可以使用多种标准的数据采集管道从网站(或本地文件)中获取信息。

最常用的是 SmartScraperGraph,它能够根据用户的提示与源网址提取单个页面信息。

python
1from scrapegraphai.graphs import SmartScraperGraph 2 3# 定义数据采集管道的配置 4graph_config = { 5 "llm": { 6 "api_key": "YOUR_OPENAI_API_KEY", 7 "model": "openai/gpt-4o-mini", 8 }, 9 "verbose": True, 10 "headless": False, 11} 12 13# 创建 SmartScraperGraph 实例 14smart_scraper_graph = SmartScraperGraph( 15 prompt="提取网页上的有用信息,包括公司所做的事情的描述、创始人及社交媒体链接", 16 source="https://scrapegraphai.com/", 17 config=graph_config 18) 19 20# 运行管道 21result = smart_scraper_graph.run() 22 23import json 24print(json.dumps(result, indent=4))

输出将会是类似如下的字典:

python
1{ 2 "description": "ScrapeGraphAI 将网站转换为干净、组织良好的数据,供 AI 代理和数据分析使用。它提供了一个由 AI 驱动的 API,用于轻松且高效地提取数据。", 3 "founders": [ 4 { 5 "name": "Marco Perini", 6 "role": "创始人 & 技术负责人", 7 "linkedin": "https://www.linkedin.com/in/perinim/" 8 }, 9 { 10 "name": "Marco Vinciguerra", 11 "role": "创始人 & 软件工程师", 12 "linkedin": "https://www.linkedin.com/in/marco-vinciguerra-7ba365242/" 13 }, 14 { 15 "name": "Lorenzo Padoan", 16 "role": "创始人 & 产品工程师", 17 "linkedin": "https://www.linkedin.com/in/lorenzo-padoan-4521a2154/" 18 } 19 ], 20 "social_media_links": { 21 "linkedin": "https://www.linkedin.com/company/101881123", 22 "twitter": "https://x.com/scrapegraphai", 23 "github": "https://github.com/ScrapeGraphAI/Scrapegraph-ai" 24 } 25}

还有其他管道可用于从多个页面提取信息、生成Python脚本,甚至是音频文件。

管道名称描述
SmartScraperGraph单页采集器,只需用户提示和输入源。
SearchGraph一个多页采集器,从搜索引擎的前n个搜索结果中提取信息。
SpeechGraph单页采集器,从网站提取信息并生成音频文件。
ScriptCreatorGraph单页采集器,从网站中提取信息并生成一个Python脚本。
SmartScraperMultiGraph多页采集器,可在提供单一提示和多个来源的情况下提取多页面信息。
ScriptCreatorMultiGraph多页采集器,用于生成从多个页面和源中提取信息的Python脚本。

每种图都有多重版本,允许并行调用大语言模型(LLM)。

可以通过API使用不同的大语言模型,比如 OpenAIGroqAzureGemini,或使用 Ollama 进行本地模型调用。

如果你想使用本地模型,请确保已安装 Ollama 并使用 ollama pull 命令下载模型。

📖 文档

Open In Colab

ScrapeGraphAI的文档可以在此处找到。也请查看 Docusaurus 此处

🔗 ScrapeGraph API & SDKs

如果你正在寻找将ScrapeGraph快速集成到你的系统中的解决方案,请查看我们强大的API这里!

ScrapeGraph API Banner

我们提供了Python和Node.js的SDK,使集成到你的项目中变得简单。可以在以下位置查看:

SDK语言GitHub 链接
Python SDKPythonscrapegraph-py
Node.js SDKNode.jsscrapegraph-js

官方API文档可以在这里找到。

🎓 引用

如果你在研究中使用了我们的库,请引用我们,参考如下:

text
1 @misc{scrapegraph-ai, 2 author = {Marco Perini, Lorenzo Padoan, Marco Vinciguerra}, 3 title = {Scrapegraph-ai}, 4 year = {2024}, 5 url = {https://github.com/VinciGit00/Scrapegraph-ai}, 6 note = {一个利用大语言模型的数据采集Python库} 7 }

作者

作者标志

联系信息
Marco VinciguerraLinkedin 徽章
Marco PeriniLinkedin 徽章
Lorenzo PadoanLinkedin 徽章

📜 许可证

ScrapeGraphAI 采用 MIT 许可证。请查看 LICENSE 文件以获取更多信息。

Stars
21.3k
Forks
1.8k
Watch
134
版本 v1.62.0
MIT License
更新于 2025年8月13日
ai, ai-scraping, automated-scraper, crawler, html-to-markdown, llm, markdown, rag, scraping, scraping-python, web-crawler, web-crawlers, web-scraping
免责声明:本站大资源来自网络收集整理,小部分资源来自原创,如有侵权等,请联系处理。

相关项目

探索更多类似的开源项目