在数字化浪潮中,短文本成为网络沟通的基石。但这类文本普遍缺乏共通词汇和背景知识,给人工智能(AI)的分析带来了不少难题。悉尼大学英语文学研究生兼数据科学家贾斯汀・米勒(Justin Miller)提出了一种新策略,通过运用大型语言模型(LLMs)深入解析短文本。

米勒的研究聚焦于如何高效地对大量短文本进行分类,例如社交媒体资料、顾客评价或灾难事件的在线评论。他研发的AI工具能将数万条Twitter用户简介聚类为十个清晰类别,仅在2020年9月的两天内就成功分析了近40,000条与美国总统特朗普相关的Twitter用户简介。这种分类有助于识别用户的职业、政治立场,甚至他们使用的表情符号。

推特 (3)

米勒指出,该研究的亮点在于以人为本的设计理念。LLMs生成的分类方法不仅计算效率高,还能与人类的直观理解相吻合。研究还发现,ChatGPT等生成式AI在某些情况下提供的分类名称比人工审查更为清晰、一致,尤其在从噪声中辨识有意义模式时。

米勒的工具具有广泛的应用前景。其研究表明,大规模数据集可以被简化为易于管理的有意义分组。例如,在俄乌战争相关项目中,他将超过100万条社交媒体帖子聚类,识别出包括俄罗斯虚假信息运动、动物在人道救援中的象征性使用等十个不同主题。通过聚类分析,组织、政府和企业在决策时能获得有价值的见解。

米勒总结说:“这种AI的双重用途应用不仅减少了昂贵且主观的人工审查依赖,还提供了一种可扩展的理解大量文本数据的新方式。从社交媒体趋势分析到危机监控和客户洞察,这种方法结合了机器的高效性和人类的理解力,为数据的组织和解释开辟了新路径。”