AI软件下载
有趣网站推荐及实用软件下载

Crawl4AI:基于AI大语言模型的网络爬虫和数据抓取工具整合包软件下载

Crawl4AI是一款基于AI大语言模型能力的网络爬虫和数据抓取软件,可以将网页转换为简洁、符合 LLM 规范的 Markdown 格式,适用于 RAG、代理和数据管道。它速度快、可控性强。

Crawl4AI官方介绍

开源的 LLM 友好型网络爬虫和抓取工具。

Crawl4AI 将网页转换为简洁、符合 LLM 规范的 Markdown 格式,适用于 RAG、代理和数据管道。它速度快、可控性强,并经过超过 5 万名用户组成的强大社区的实战检验。

✨ v0.7.7 版本新增功能:完整的自托管平台,支持实时监控!企业级监控仪表盘、全面的 REST API、WebSocket 流媒体、智能浏览器池管理以及生产就绪的可观测性。全面掌控您的爬虫基础设施。

/crawl/job✨ 最新 v0.7.6 版本:完善的 Docker 作业队列 API Webhook 基础架构!支持所有端点的实时通知,/llm/job并具备指数退避重试机制、自定义请求头和灵活的发送模式。告别轮询!

✨ 上一版本 v0.7.5:Docker Hooks 系统,提供基于函数的 API 以进行流水线定制;增强了 LLM 与自定义提供程序的集成;支持 HTTPS 协议;并修复了多个社区反馈的错误

Crawl4AI特点

Markdown 生成

  • 🧹 Clean Markdown:生成格式准确、结构清晰的 Markdown 文档。
  • 🎯 Fit Markdown:基于启发式的过滤,去除噪声和无关部分,以便进行 AI 友好的处理。
  • 🔗引文和参考文献:将页面链接转换为带有清晰引文的编号参考文献列表。
  • 🛠️自定义策略:用户可以创建自己的 Markdown 生成策略,以满足特定需求。
  • 📚 BM25 算法:采用基于 BM25 的过滤方法来提取核心信息并去除无关内容。

结构化数据提取

  • 🤖 LLM 驱动提取:支持所有 LLM(开源和专有)进行结构化数据提取。
  • 🧱分块策略:实施分块(基于主题、正则表达式、句子级别)以进行有针对性的内容处理。
  • 🌌余弦相似度:根据用户查询查找相关的内容块,以进行语义提取。
  • 🔎基于 CSS 的数据提取:使用 XPath 和 CSS 选择器快速提取基于模式的数据。
  • 🔧模式定义:定义自定义模式,用于从重复模式中提取结构化 JSON。

浏览器集成

  • 🖥️管理型浏览器:使用用户拥有的浏览器,完全控制,避免被机器人检测。
  • 🔄远程浏览器控制:连接到 Chrome 开发者工具协议,用于远程、大规模数据提取。
  • 👤浏览器分析器:创建和管理具有已保存身份验证状态、cookie 和设置的持久配置文件。
  • 🔒会话管理:保存浏览器状态并将其重用于多步骤爬取。
  • 🧩代理支持:无缝连接代理服务器,并通过身份验证实现安全访问。
  • ⚙️完全浏览器控制:修改标头、cookie、用户代理等,以实现定制化的爬虫设置。
  • 🌍多浏览器支持:兼容 Chromium、Firefox 和 WebKit。
  • 📐动态视口调整:自动调整浏览器视口以匹配页面内容,确保所有元素的完整渲染和捕获。

爬取与抓取

  • 🖼️媒体支持:提取图像、音频、视频和响应式图像格式,例如srcsetpicture
  • 🚀动态爬取:执行 JS 并等待异步或同步以提取动态内容。
  • 📸屏幕截图:在爬取过程中捕获页面屏幕截图,以便进行调试或分析。
  • 📂原始数据爬取:直接处理原始 HTML ( raw:) 或本地文件 ( file://)。
  • 🔗全面链接提取:提取内部链接、外部链接和嵌入式 iframe 内容。
  • 🛠️可自定义钩子:在每个步骤定义钩子以自定义爬取行为(支持基于字符串和函数的 API)。
  • 💾缓存:缓存数据以提高速度并避免重复获取。
  • 📄元数据提取:从网页中检索结构化元数据。
  • 📡 IFrame 内容提取:从嵌入式 iframe 内容中无缝提取。
  • 🕵️延迟加载处理:等待图像完全加载,确保不会因延迟加载而丢失任何内容。
  • 🔄全页扫描:模拟滚动以加载和捕获所有动态内容,非常适合无限滚动页面。

Crawl4AI整合包使用说明

首先将网盘内的软件压缩包下载到本地电脑上并解压。

双击启动软件.bat,稍等一会就会打开webui操作界面

操作界面做的比较简单,主要做了html转markdown和数据查询功能,但是Crawl4AI本身功能很复杂很强大,后续我还会继续丰富支持的功能

输入URL链接,点击网页转Markdown即可将网页保存为.md格式文档

输入URL链接和任务内容描述,即可在给定的URL及关联URL中查找任务描述内容,结果返回查找内容所在的URL。当前默认快速查找模式,只适合精确匹配内容的知识库类内容查找。AI模式可根据AI的分析智能查找相关内容,无需精确匹配页面关键词,还在优化中暂时未开放。

后台模式控制是否显示执行任务的浏览器窗口

注意事项

整合包只支持windows 10和11

Crawl4AI网络爬虫和数据抓取工具整合包下载链接

https://pan.quark.cn/s/60ceb3fa9a2d

Crawl4AI在线一键启动版

点击使用云镜像>>


AI软件用不了?2元爽玩4090: 立即体验>>

软件催更及1对1人工答疑支持: https://nuowa.net/1806
赞(0) 打赏
软件无法使用?点击查看常见问题说明>>

最近更新

UV包管理器用法基础教程

UV是一个用 Rust 编写的高性能工具,旨在替代 Python 传统的包管理工具链,速度比 pip 和 Conda 快数十甚至上百倍。 安装 uv 你可以通过一条命令安装 uv: 安装后,...

觉得文章对你有帮助就打赏一下作者

非常感谢你的打赏,我将有更多的动力继续提供优质内容,让我们一起创建更加美好的世界!

支付宝扫一扫

微信扫一扫