近期,南京大学携手字节跳动和西南大学共同研发出一项前沿技术——STAR(Spatial-Temporal Augmentation with Text-to-Video Models),该技术旨在通过文本到视频模型,对现实世界的视频进行超分辨率处理,显著提升低分辨率视频的画面质量,尤其适用于在视频分享平台下载的画质较低的影片。

image.png

为了方便研究者与开发者应用,研究团队已在GitHub上发布了STAR模型的预训练版本,包括I2VGen-XL和CogVideoX-5B两种型号,以及相应的推理代码。这一举措标志着视频处理领域的重要突破。

使用STAR模型的过程十分简便。用户首先需从HuggingFace下载预训练的STAR模型,并放置于指定文件夹。随后,准备待处理的视频文件,并选择合适的文本提示选项,如无提示、自动生成或手动输入提示。通过调整脚本中的路径设置,用户即可轻松实现视频的超分辨率处理。

项目针对不同程度的视频降质处理,特别设计了两种基于I2VGen-XL的模型,以满足多样化的需求。同时,CogVideoX-5B模型支持720x480的输入格式,为特定应用场景提供了更多选择。

STAR研究不仅为视频超分辨率技术的发展提供了新思路,还为相关领域的研究者开辟了新的研究方向。研究团队对I2VGen-XL、VEnhancer、CogVideoX和OpenVid-1M等前沿技术表示感激,认为这些技术为他们的项目奠定了坚实基础。

项目入口:https://github.com/NJU-PCALab/STAR

划重点:

🌟 STAR新技术融合文本到视频模型,实现视频超分辨率,大幅提升画质。

🛠️ 研究团队已发布预训练模型和推理代码,使用便捷易懂。

📩 提供联系方式,欢迎用户与团队交流探讨。