RECLIP：通过小图像训练实现资源高效的CLIP-arXiv论文预印本中文版

RECLIP：通过小图像训练实现资源高效的CLIP

摘要：资源高效的CLIP（RECLIP）：一种简单的方法，可以最小化CLIP（对比性语言图像预训练）的计算资源占用。受计算机视觉中的粗到精的概念启发，我们利用小图像有效地从大规模语言监督中学习，并最终用高分辨率数据微调模型。由于视觉变换器的复杂度严重依赖于输入图像大小，我们的方法在理论和实践上显著减少了训练资源需求。在相同的批处理大小和训练周期下，RECLIP以6至8倍的计算资源和7至9倍的FLOPs与基线相比，实现了高度竞争力的零样本分类和图像-文本检索准确性。与最先进的对比学习方法相比，RECLIP在保持高竞争力的零样本分类和检索性能的同时，节省了5至59倍的训练资源。最后，RECLIP在开放词汇检测任务的迁移学习中与最先进的方法相当，实现了32的APr在LVIS上。我们希望这项工作能为更广泛的研究社区在资源友好环境中探索语言监督预训练铺平道路。

作者：Runze Li, Dahun Kim, Bir Bhanu, Weicheng Kuo

论文ID：2304.06028

分类：Computer Vision and Pattern Recognition

分类简称：cs.CV

提交时间：2023-09-01

PDF 下载： 英文版中文版pdf翻译中