最近,社交媒体平台 Bluesky 遭遇了一起重大的数据抓取事件。机器学习图书管理员丹尼尔·范斯特林(Daniel van Strien)利用 Bluesky 的 API 接口抓取了超过一百万条公开用户帖子,并将这些数据上传到 AI 公司 Hugging Face。
此次数据集包括了用户的去中心化标识符(DID),以及多种用于搜索特定用户内容的功能。范斯特林表示,这个数据集的主要目的是推动语言模型和自然语言处理的开发,同时也用于社交媒体趋势分析、内容审核和发布模式的研究。
这项数据抓取行动引发了广泛的关注,因为 Bluesky 的用户并未对此内容使用表示同意。尽管平台并未明确禁止此类数据抓取行为,其火灾 API 依旧提供了一个“聚合的、按时间顺序排列的公共数据流”,其中包含帖子、点赞、关注以及账号变更等信息。因此,理论上,Bluesky 的内容是对第三方开发者开放的。
对此,Bluesky 的一位代表表示:“Bluesky 是一个开放和公共的社交网络,类似于互联网上的其他网站。虽然 robots.txt 文件并不能绝对阻止外部公司抓取这些网站,但情况是相似的。我们希望找到一种方式,让 Bluesky 用户能够通知外部组织或开发者他们是否同意使用其数据,并希望外部组织能尊重用户的同意,我们正在积极讨论如何实现这一目标。”
这一事件引起了用户的担忧,尤其是考虑到许多用户是由于竞争平台 X 的新 AI 训练政策而转向 Bluesky 的。值得注意的是,在报道发布后不久,范斯特林已将该数据集从 Hugging Face 中删除。
他在 Bluesky 上表示:“我已从该仓库中删除 Bluesky 数据。虽然我希望支持该平台的工具开发,但我意识到这种做法违反了数据收集中的透明度和同意原则。对此,我深感抱歉。”
重点总结:
🌐1. 一位机器学习专家抓取了超过一百万条 Bluesky 的公开帖子,并将其上传至 AI公司 Hugging Face,目的是为机器学习研究提供数据。
🔍2. Bluesky 用户并未同意其数据被使用,且平台没有明确禁止数据抓取行为。
🚫3. 数据抓取事件引发了用户的担忧,范斯特林已从 Hugging Face 删除相关数据,并对此表示歉意。
暂无评论