近期直播对话中,特斯拉及SpaceX首席执行官埃隆・马斯克透露,训练人工智能模型所需的数据资源在现实世界中几乎已经消耗殆尽。此次对话的另一方是Stagwell董事会主席马克・佩恩。马斯克指出,这一现象主要发生在去年,我们现在已经消耗掉了几乎所有人类知识的积累,用于人工智能训练的数据。

马斯克的这一看法与去年12月NeurIPS会议上前OpenAI首席科学家伊利亚・苏茨克弗提出的“数据峰值”理论相呼应。苏茨克弗提到,AI行业正面临数据短缺的挑战,未来缺乏足够的训练数据将迫使AI模型开发方式发生改变。

为应对这一挑战,马斯克认为合成数据将是可行的替代方案。他强调,通过合成数据,即人工智能自身生成训练数据,是补充现实世界数据的唯一途径。马斯克认为,AI可以通过自我评估和持续优化来提升性能。

目前,包括微软、Meta、OpenAI和Anthropic在内的许多科技公司已经开始利用合成数据来训练其核心AI模型。据Gartner预测,到2024年,用于人工智能和数据分析项目的60%数据将是合成生成的。

合成数据的一大优势是能够显著降低开发成本。然而,马斯克和其他专家也指出,合成数据并非无风险。研究表明,合成数据可能导致模型性能下降,输出结果可能缺乏创新性,并可能受到偏见的影响。若合成数据本身存在局限,最终模型的输出结果也将受到这些问题的影响。

重点提示:

🌍 现实世界中用于训练AI的数据几乎耗尽,马斯克对此表示担忧。

💡 合成数据被视为未来的关键解决方案,许多科技公司已开始采用。

💰 利用合成数据可大幅降低开发成本,但也存在导致模型性能下降的风险。