AI在线 AI在线

Firecrawl推出LLM.txt API:提供网址即可生成任意网站的LLM.txt

作者:AI在线
2025-03-10 09:48
近日,Firecrawl 推出了一项全新的功能 ——LLMs.txt 生成器接口(Alpha 版),旨在帮助用户将任何网站的内容转化为清晰、适用于大语言模型(LLM)训练的文本文件。 用户只需提供一个网站的 URL,Firecrawl 便会对该网站及其链接页面进行抓取,生成两种格式的文本文件:llms.txt 和 llms-full.txt,便于后续的分析和训练。 该生成器的工作流程相对简单。

近日,Firecrawl 推出了一项全新的功能 ——LLMs.txt 生成器接口(Alpha 版),旨在帮助用户将任何网站的内容转化为清晰、适用于大语言模型(LLM)训练的文本文件。用户只需提供一个网站的 URL,Firecrawl 便会对该网站及其链接页面进行抓取,生成两种格式的文本文件:llms.txt 和 llms-full.txt,便于后续的分析和训练。

QQ_1741571298119.png

该生成器的工作流程相对简单。用户只需提供一个网址,系统便会自动爬取该网站的内容,提取出干净且有意义的文本信息。生成的文件分为两种类型:llms.txt 是对网站内容的简明总结,包含关键的信息;而 llms-full.txt 则是更为详细的完整文本内容,适合需要深入分析的用户。

在使用过程中,用户可以设置一些关键参数。首先是 “url”,即希望生成 LLMs.txt 文件的网址。用户还可以选择 “maxUrls” 参数,控制最多爬取的页面数量,范围在1到100之间,默认值为10。此外,用户还可以选择是否生成 llms-full.txt,默认设置为不生成。

值得注意的是,LLMs.txt 生成器的工作是异步进行的,用户可以发起请求并实时监测生成状态。系统会提供状态更新,例如 “正在进行中” 或 “已完成”,方便用户随时掌握进度。

然而,由于目前处于 Alpha 阶段,该功能也存在一些已知限制。首先,仅支持公开可访问的页面,登录保护或付费墙内容无法处理。其次,在 Alpha 阶段,处理的网站数量上限为5000个 URL。此外,作为一项 Alpha 特性,输出格式和处理流程可能会根据用户反馈进行调整。

在计费方面,使用 LLMs.txt 生成器的费用是基于处理的 URL 数量,基本费用为每处理一个 URL 消耗1个积分。用户可以通过设置 maxUrls 参数来控制费用。

入口:https://docs.firecrawl.dev/features/alpha/llmstxt

划重点:

🌐 提供网站 URL,即可快速生成适用于 LLM 的文本文件。

📝 生成两种文本格式,便于不同需求的用户选择使用。

🔒 仅支持公开页面处理,且 Alpha 阶段有数量限制。

相关资讯

LLMs.txt生成器 v2发布:网站文本转换速度提升10倍

近日,LLMs.txt生成器迎来重大升级,正式推出v2版本。 这一工具能够将任何网站内容快速转化为可供人工智能代理或大型语言模型(LLM)使用的文本文件,为AI应用的开发者和使用者带来了极大便利。 新版本由@firecrawl_dev团队开发,并得到其官方llmstxt端点的全力支持,相较于上一代,处理速度提升了惊人的10倍。
3/12/2025 10:53:00 AM
AI在线

Firecrawl推出FIRE-1:具备网页智能交互能力的AI数据抓取工具

Firecrawl宣布推出其最新AI数据抓取工具FIRE-1,这标志着网页数据抓取技术迈向智能化新阶段。 FIRE-1不仅延续了Firecrawl在高效数据提取领域的优势,还通过集成先进的AI交互能力,实现了对复杂网站结构的智能导航与动态内容处理。 FIRE-1:超越传统网页抓取传统网页抓取工具通常依赖静态HTML解析或手动配置,面对JavaScript驱动的动态网页或需要交互(如点击按钮、填写表单)的页面时,往往显得力不从心。
4/16/2025 5:01:05 PM
AI在线

Firecrawl推出FIRE-1智能交互AI数据抓取工具,革新网页数据提取体验

人工智能驱动的网页数据抓取技术迎来新突破。 AIbase从社交媒体获悉,Firecrawl于2025年4月15日正式发布全新AI数据抓取工具FIRE-1,该工具不仅能提取静态网页内容,还具备智能网页交互能力,可执行点击按钮、填写表单、处理模态窗口等操作,深入挖掘隐藏在动态交互背后的数据。 这一创新标志着Firecrawl从传统抓取工具向智能化、自动化解决方案的转型。
4/16/2025 6:01:15 PM
AI在线