【天天時快訊】最大CLIP！LAION發(fā)布CLIP的擴增定律

2022-12-22 16:46:27 來源：程序員客棧

(資料圖片)

點藍色字關(guān)注“機器學習算法工程師”

設(shè)為星標，干貨直達！

近日，LAION等機構(gòu)在Reproducible scaling laws for contrastive language-image learning發(fā)布了CLIP的擴增定律（scaling law），其中最大的CLIP為ViT-H/14，基于LAION-2B數(shù)據(jù)集訓練，可以在ImageNet1K數(shù)據(jù)集上到78.0%的zero-shot準確度，性能超過OpenAI目前開源的CLIP L/14，和Meta AI的FLIP Huge模型性能相當，但是模型已經(jīng)開源在https://github.com/LAION-AI/scaling-laws-openclip。

論文的實驗采用開源數(shù)據(jù)集LAION-400M和LAION-2B數(shù)據(jù)集，訓練框架采用開源的OpenCLIP，所以論文的實驗是可以復現(xiàn)的。

訓練在1520 NVIDIA A100 GPUs上進行，采用PyTorch DDP分布式訓練策略，采用混合精度（但是fp16會不穩(wěn)定，所以采用bf16，或者基于TF32的float32），訓練的batch size在 86-88K之間。

實驗的總體結(jié)論是：擴增定律也明顯適用CLIP，當擴增模型，訓練數(shù)據(jù)和算力時，模型在下游任務上有一致性的提升。但是不同的訓練數(shù)據(jù)集表現(xiàn)出不同的擴增系數(shù)：OpenCLIP的模型（基于LAION-2B數(shù)據(jù)集）在圖文檢索任務上有較大的擴增系數(shù)，而OpenAI CLIP模型（基于私有的WebImageText 400M數(shù)據(jù)集）在zero-shot分類任務上有較強的擴增系數(shù)。

這個結(jié)論和FLIP的結(jié)論比較吻合，這說明訓練數(shù)據(jù)集對CLIP的性能確實有比較大的影響。用論文結(jié)論的一句話來說就是：Scaling behavior depends on task type and pre-training dataset。

更多內(nèi)容可見論文：https://arxiv.org/abs/2212.07143

關(guān)鍵詞：機器學習是不同的