#

multimodal

Here are 239 public repositories matching this topic...

jina

jina-ai / jina

🔮 The most advanced MLOps platform for multimodal AI on the cloud · Neural Search · Creative AI · Cloud Native

kubernetes workflow machine-learning airflow microservices framework deep-learning pipeline grpc cloud-native semantic-search creative-ai aiops multimodal mlops fastapi neural-search vector-search-engine crossmodal

Updated Nov 28, 2022
Python

facebookresearch / mmf

A modular framework for vision & language multimodal research from Facebook AI Research (FAIR)

deep-learning dialog pytorch vqa pretrained-models captioning multimodal multi-tasking textvqa hateful-memes

Updated Nov 22, 2022
Python

discoart

jina-ai / discoart

🪩 Create Disco Diffusion artworks in one line

generative-art cross-modal diffusion prompts creative-ai creative-art multimodal clip-guided-diffusion dalle disco-diffusion midjourney imgen discodiffusion latent-diffusion stable-diffusion

Updated Oct 1, 2022
Python

Stability-AI / stability-sdk

SDK for interacting with stability.ai APIs (e.g. stable diffusion inference)

generative-art multimodal ai-art latent-diffusion stable-diffusion

Updated Nov 28, 2022
Jupyter Notebook

docarray

docarray / docarray

🧬 The data structure for unstructured multimodal data · Neural Search · Vector Search · Document Store

graphql elasticsearch deep-learning protobuf sqlite data-structures nearest-neighbor-search cross-modal multi-modal semantic-search unstructured-data multimodal nested-data weaviate dataclass vector-search neural-search qdrant docarray

Updated Nov 28, 2022
Python

OFA-Sys / OFA

Official repository of OFA (ICML 2022). Paper: OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework

prompt chinese image-captioning pretrained-models visual-question-answering multimodal text-to-image-synthesis vision-language pretraining referring-expression-comprehension prompt-tuning

Updated Nov 26, 2022
Python

rom1504 / img2dataset

Easily turn large sets of image urls to an image dataset. Can download, resize and package 100M urls in 20h on one machine.

image big-data deep-learning dataset image-dataset download-images multimodal

Updated Nov 26, 2022
Python

Awesome-Multimodal-Research

Eurus-Holmes / Awesome-Multimodal-Research

A curated list of Multimodal Related Research.

awesome multimodal-learning multimodal multimodal-research

Updated Oct 30, 2022
Python

Fengshenbang-LM

IDEA-CCNL / Fengshenbang-LM

Fengshenbang-LM(封神榜大模型)是IDEA研究院认知计算与自然语言研究中心主导的大模型开源体系，成为中文AIGC和认知智能的基础设施。

transformers pytorch chinese-nlp pretrained-models distributed-training multimodal aigc

Updated Nov 21, 2022
Python

rom1504 / clip-retrieval

Easily compute clip embeddings and build a clip retrieval system with them

ai deep-learning clip knn semantic-search multimodal

Updated Nov 20, 2022
Jupyter Notebook

google-research-datasets / wit

WIT (Wikipedia-based Image Text) Dataset is a large multimodal multilingual dataset comprising 37M+ image-text sets with 11M+ unique images across 100+ languages.

multilingual nlp machine-learning wikipedia multimodal cc-by-sa-3

Updated Sep 30, 2022

lyndonzheng / Pluralistic-Inpainting

CVPR 2019: "Pluralistic Image Completion"

generative-adversarial-networks inpainting image-completion multimodal

Updated Jul 29, 2022
Python

microsoft / torchscale

Transformers at any scale

machine-learning natural-language-processing translation computer-vision transformer speech-processing multimodal pretrained-language-model

Updated Nov 27, 2022
Python

lucidrains / CoCa-pytorch

Sponsor

Implementation of CoCa, Contrastive Captioners are Image-Text Foundation Models, in Pytorch

deep-learning transformers artificial-intelligence image-to-text attention-mechanism multimodal contrastive-learning

Updated Jul 16, 2022
Python

njustkmg / OMML

Multi-Modal learning toolkit based on PaddlePaddle and PyTorch, supporting multiple applications such as multi-modal classification, cross-modal retrieval and image caption.

python pytorch classification paddlepaddle imagecaptioning multimodal-learning multimodal crossmodal-retrieval

Updated Nov 17, 2022
Python

ArrowLuo / CLIP4Clip

An official implementation for "CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval"

search retrieval ranking clip multimodality multimodal-learning multimodal activitynet retrieval-model msvd msrvtt video-text-retrieval lsmdc didemo video-clip-retrieval

Updated Jun 1, 2022
Python

EleutherAI / DALLE-mtf

Open-AI's DALL-E for large scale training in mesh-tensorflow.

transformers artificial-intelligence autoregressive text-to-image variational-autoencoder multimodal

Updated Feb 12, 2022
Python

microsoft / psi

Platform for Situated Intelligence

streaming framework pipelines artificial-intelligence stream-processing perception component-library human-robot-interaction multimodal-interactions multimodal

Updated Nov 18, 2022
C#

afiaka87 / clip-guided-diffusion

A CLI tool/python module for generating images from text using guided diffusion and CLIP from OpenAI.

deep-learning artificial-intelligence openai image-generation multimodality text-to-image diffusion multimodal text-to-image-synthesis openai-clip

Updated Feb 8, 2022
Python

blended-diffusion

omriav / blended-diffusion

Official implementation for "Blended Diffusion for Text-driven Editing of Natural Images" [CVPR 2022]

deep-learning openai text-to-image diffusion multimodal openai-clip text-guided-manipulation blended-diffusion

Updated Jun 14, 2022
Jupyter Notebook

Improve this page

Add a description, image, and links to the multimodal topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the multimodal topic, visit your repo's landing page and select "manage topics."