“Bluesky 用户数据被抓取：100 万公开帖子助力 AI 训练”

最近，社交媒体平台 Bluesky 遭遇了一起重大的数据抓取事件。机器学习图书管理员丹尼尔·范斯特林（Daniel van Strien）利用 Bluesky 的 API 接口抓取了超过一百万条公开用户帖子，并将这些数据上传到 AI 公司 Hugging Face。

此次数据集包括了用户的去中心化标识符（DID），以及多种用于搜索特定用户内容的功能。范斯特林表示，这个数据集的主要目的是推动语言模型和自然语言处理的开发，同时也用于社交媒体趋势分析、内容审核和发布模式的研究。

这项数据抓取行动引发了广泛的关注，因为 Bluesky 的用户并未对此内容使用表示同意。尽管平台并未明确禁止此类数据抓取行为，其火灾 API 依旧提供了一个“聚合的、按时间顺序排列的公共数据流”，其中包含帖子、点赞、关注以及账号变更等信息。因此，理论上，Bluesky 的内容是对第三方开发者开放的。

对此，Bluesky 的一位代表表示：“Bluesky 是一个开放和公共的社交网络，类似于互联网上的其他网站。虽然 robots.txt 文件并不能绝对阻止外部公司抓取这些网站，但情况是相似的。我们希望找到一种方式，让 Bluesky 用户能够通知外部组织或开发者他们是否同意使用其数据，并希望外部组织能尊重用户的同意，我们正在积极讨论如何实现这一目标。”

这一事件引起了用户的担忧，尤其是考虑到许多用户是由于竞争平台 X 的新 AI 训练政策而转向 Bluesky 的。值得注意的是，在报道发布后不久，范斯特林已将该数据集从 Hugging Face 中删除。

他在 Bluesky 上表示：“我已从该仓库中删除 Bluesky 数据。虽然我希望支持该平台的工具开发，但我意识到这种做法违反了数据收集中的透明度和同意原则。对此，我深感抱歉。”

重点总结:

🌐1. 一位机器学习专家抓取了超过一百万条 Bluesky 的公开帖子，并将其上传至 AI公司 Hugging Face，目的是为机器学习研究提供数据。

🔍2. Bluesky 用户并未同意其数据被使用，且平台没有明确禁止数据抓取行为。

🚫3. 数据抓取事件引发了用户的担忧，范斯特林已从 Hugging Face 删除相关数据，并对此表示歉意。

“Bluesky 用户数据被抓取：100 万公开帖子助力 AI 训练”

突破性AI技术：仅两小时访谈完美复刻个性，准确率高达85%！

智谱AI AutoGLM升级：开启大规模内测，支持执行超过54步操作

暂无评论

发表评论取消回复

突破性AI技术：仅两小时访谈完美复刻个性，准确率高达85%！

智谱AI AutoGLM升级：开启大规模内测，支持执行超过54步操作

相关推荐

暂无评论

发表评论 取消回复

搜索

“Bluesky 用户数据被抓取：100 万公开帖子助力 AI 训练”

发表评论取消回复