近期,浙江大学与阿里巴巴达摩院携手推出了一项重大研究成果,即通过制作教学视频,打造高品质的多模态教科书。这一创新项目不仅为大规模语言模型(VLMs)的训练带来了新的视角,还有望革新教育资源的运用方式。
随着人工智能技术的飞速进步,VLMs的预训练数据主要来源于图文结合的数据和图文交织语料。但现行的这些数据大多源自网络,文本与图像的关联性较弱,知识密度也相对较低,难以支撑复杂的视觉推理。
针对这一挑战,研究团队从互联网上收集了超过15.9万的教学视频,经过精心筛选和处理,最终保留了75,000个高质量视频,涵盖数学、物理、化学等多个学科,总时长超过22,000小时。
研究者们设计了一套复杂的“视频转教科书”处理流程。首先,运用自动语音识别(ASR)技术将视频中的讲解内容转录成文本,然后通过图像分析和文字匹配,筛选出与知识点高度相关的片段。最后,这些经过处理的关键帧、OCR文本和转录文本被有机地组合,形成了一个内容丰富、结构严谨的多模态教科书。
初步结果显示,与传统的网页数据集相比,新生成的教科书数据集在知识密度和图像关联性方面有显著提升,为VLMs的学习提供了更为坚实的支撑。此外,这一研究也引起了学术界的广泛关注,相关数据集在Hugging Face平台上迅速成为热门,短短两周内下载量就超过7000次。
通过这一创新尝试,研究者们期望不仅能促进VLMs的发展,还能在教育资源的整合与应用上开辟新的可能性。
论文链接:https://arxiv.org/pdf/2501.00958
暂无评论