Tag: cs.Multimodal

Total 10 articles

2023-04-04

WACV-2023 MixGen：A New Multi-Modal Data Augmentation

CL CV cs.Multimodal

2023-01-15

NIPS-2022 Image as a Foreign Language：BEiT Pretraining for All Vision and Vision-Language Tasks

CL CV cs.Multimodal ···

2023-01-15

NIPS-2022 CoCa：Contrastive Captioners are Image-Text Foundation Models

CL CV cs.Multimodal ···

2023-01-14

ICML-2022 BLIP：Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

CL CV cs.Multimodal

2022-12-14

NIPS-2021 VLMo：Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts

cs.Transformer CL CV ···

2022-12-12

NIPS-2021 Align before Fuse：Vision and Language Representation Learning with Momentum Distillation

cs.Transformer CL CV ···

2022-09-17

DeepAI-2022 Can Language Understand Depth？

CL CV cs.Multimodal ···

2022-09-17

arXiv-2021 How Much Can CLIP Benefit Vision-and-Language Tasks？

CL CV cs.Multimodal

2022-09-05

arXiv-2022 GLIPv2：Unifying Localization and Vision-Language Understanding

CL CV cs.Multimodal ···

2022-09-05

ICLR-2022 Open-vocabulary Object Detection via Vision and Language Knowledge Distillation

CL CV cs.Multimodal ···