浙江大学AI创新：打造高质量多模态教科书

2025-01-20

近期，浙江大学与阿里巴巴达摩院携手推出了一项重大研究成果，即通过制作教学视频，打造高品质的多模态教科书。这一创新项目不仅为大规模语言模型（VLMs）的训练带来了新的视角，还有望革新教育资源的运用方式。

随着人工智能技术的飞速进步，VLMs的预训练数据主要来源于图文结合的数据和图文交织语料。但现行的这些数据大多源自网络，文本与图像的关联性较弱，知识密度也相对较低，难以支撑复杂的视觉推理。

针对这一挑战，研究团队从互联网上收集了超过15.9万的教学视频，经过精心筛选和处理，最终保留了75,000个高质量视频，涵盖数学、物理、化学等多个学科，总时长超过22,000小时。

研究者们设计了一套复杂的“视频转教科书”处理流程。首先，运用自动语音识别（ASR）技术将视频中的讲解内容转录成文本，然后通过图像分析和文字匹配，筛选出与知识点高度相关的片段。最后，这些经过处理的关键帧、OCR文本和转录文本被有机地组合，形成了一个内容丰富、结构严谨的多模态教科书。

初步结果显示，与传统的网页数据集相比，新生成的教科书数据集在知识密度和图像关联性方面有显著提升，为VLMs的学习提供了更为坚实的支撑。此外，这一研究也引起了学术界的广泛关注，相关数据集在Hugging Face平台上迅速成为热门，短短两周内下载量就超过7000次。

通过这一创新尝试，研究者们期望不仅能促进VLMs的发展，还能在教育资源的整合与应用上开辟新的可能性。

论文链接：https://arxiv.org/pdf/2501.00958

标签：Education · multimodal教科书 · VLMs

暂无评论

发表评论取消回复

要发表评论，您必须先登录。