FirecrawlLLMs.txt生成器:快速抓取网站内容,构建LLM训练文本

Firecrawl近期推出了一项创新功能——LLMs.txt生成器接口(Alpha版),旨在辅助用户将网站内容转化为适用于大语言模型(LLM)训练的文本文件。用户仅需提供网站URL,Firecrawl便会对该网站及其链接页面进行抓取,生成llms.txt和llms-full.txt两种格式的文本文件,便于后续分析和训练。

QQ_1741571298119.png

该生成器的操作流程十分简便。用户只需输入网址,系统便会自动抓取网站内容,提取出纯净且具有意义的文本信息。生成的文件分为两种:llms.txt是对网站内容的简洁总结,包含关键信息;llms-full.txt则是更为详尽的完整文本内容,适合需要深度分析的用户。

用户在使用过程中可以设置一些关键参数。首先是“url”,即生成LLMs.txt文件的网址。用户还可以选择“maxUrls”参数,控制最多爬取的页面数量,范围在1到100之间,默认值为10。此外,用户还可以选择是否生成llms-full.txt,默认设置为不生成。

值得注意的是,LLMs.txt生成器的工作是异步进行的,用户可以发起请求并实时监控生成状态。系统会提供状态更新,如“正在进行中”或“已完成”,方便用户随时掌握进度。

然而,由于目前处于Alpha阶段,该功能也存在一些已知限制。首先,仅支持公开可访问的页面,登录保护或付费墙内容无法处理。其次,在Alpha阶段,处理的网站数量上限为5000个URL。此外,作为一项Alpha特性,输出格式和处理流程可能会根据用户反馈进行调整。

在计费方面,使用LLMs.txt生成器的费用基于处理的URL数量,基本费用为每处理一个URL消耗1个积分。用户可以通过设置maxUrls参数来控制费用。

详情入口:https://docs.firecrawl.dev/features/alpha/llmstxt

划重点:

🌐 提供网站URL,快速生成适用于LLM的文本文件。

📝 生成两种文本格式,满足不同用户需求。

🔒 仅支持公开页面处理,Alpha阶段有数量限制。

相关推荐

暂无评论

发表评论