FirecrawlLLMs.txt生成器：快速抓取网站内容，构建LLM训练文本

Firecrawl近期推出了一项创新功能——LLMs.txt生成器接口（Alpha版），旨在辅助用户将网站内容转化为适用于大语言模型（LLM）训练的文本文件。用户仅需提供网站URL，Firecrawl便会对该网站及其链接页面进行抓取，生成llms.txt和llms-full.txt两种格式的文本文件，便于后续分析和训练。

该生成器的操作流程十分简便。用户只需输入网址，系统便会自动抓取网站内容，提取出纯净且具有意义的文本信息。生成的文件分为两种：llms.txt是对网站内容的简洁总结，包含关键信息；llms-full.txt则是更为详尽的完整文本内容，适合需要深度分析的用户。

用户在使用过程中可以设置一些关键参数。首先是“url”，即生成LLMs.txt文件的网址。用户还可以选择“maxUrls”参数，控制最多爬取的页面数量，范围在1到100之间，默认值为10。此外，用户还可以选择是否生成llms-full.txt，默认设置为不生成。

值得注意的是，LLMs.txt生成器的工作是异步进行的，用户可以发起请求并实时监控生成状态。系统会提供状态更新，如“正在进行中”或“已完成”，方便用户随时掌握进度。

然而，由于目前处于Alpha阶段，该功能也存在一些已知限制。首先，仅支持公开可访问的页面，登录保护或付费墙内容无法处理。其次，在Alpha阶段，处理的网站数量上限为5000个URL。此外，作为一项Alpha特性，输出格式和处理流程可能会根据用户反馈进行调整。

在计费方面，使用LLMs.txt生成器的费用基于处理的URL数量，基本费用为每处理一个URL消耗1个积分。用户可以通过设置maxUrls参数来控制费用。

详情入口：https://docs.firecrawl.dev/features/alpha/llmstxt

划重点：

🌐 提供网站URL，快速生成适用于LLM的文本文件。

📝 生成两种文本格式，满足不同用户需求。

🔒 仅支持公开页面处理，Alpha阶段有数量限制。

FirecrawlLLMs.txt生成器：快速抓取网站内容，构建LLM训练文本

LanPaint：零训练图像修复工具，简单高效

Heygem：离线视频合成，克隆外貌声音，多语言支持

暂无评论

发表评论取消回复

LanPaint：零训练图像修复工具，简单高效

Heygem：离线视频合成，克隆外貌声音，多语言支持

相关推荐

暂无评论

发表评论 取消回复

搜索

FirecrawlLLMs.txt生成器：快速抓取网站内容，构建LLM训练文本

发表评论取消回复