multimodal

notes for software engineers getting up to speed on new AI developments. Serves as datastore for lspace.swyx.io writing, and product brainstorming, but has cleaned up canonical references under the /Resources folder.

ai openai gpt multimodal gpt-3 prompt-engineering stable-diffusion

Updated Mar 1, 2023

alan-ai / alan-sdk-web

Star

In-App assistant SDK to build a multimodal conversational UX for websites and web apps (JavaScript, React, Angular, Vue, Ember, Electron)

machine-learning text-to-speech sdk chatbot voice voice-commands speech-recognition voice-control voice-assistant conversational-ai vui multimodal voice-interface voice-ai alan-voice alan-ai alan-studio alan-web-sdk

Updated Feb 12, 2023

docarray / docarray

Star

🧬 The data structure for multimodal data · Neural Search · Vector Search · Document Store

graphql elasticsearch deep-learning protobuf sqlite data-structures nearest-neighbor-search cross-modal multi-modal semantic-search unstructured-data multimodal nested-data weaviate dataclass vector-search neural-search qdrant docarray

Updated Mar 1, 2023
Python

OFA-Sys / OFA

Star

Official repository of OFA (ICML 2022). Paper: OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework

prompt chinese image-captioning pretrained-models visual-question-answering multimodal text-to-image-synthesis vision-language pretraining referring-expression-comprehension prompt-tuning

Updated Mar 1, 2023
Python

rom1504 / img2dataset

Star

Easily turn large sets of image urls to an image dataset. Can download, resize and package 100M urls in 20h on one machine.

image big-data deep-learning dataset image-dataset download-images multimodal

Updated Feb 2, 2023
Python

alan-ai / alan-sdk-ios

Star

In-App assistant SDK to build a multimodal conversational UX for iOS applications (Swift, Objective-C)

ios machine-learning text-to-speech sdk chatbot voice voice-commands speech-recognition voice-control voice-assistant conversational-ai vui multimodal voice-interface voice-ai alan-voice alan-studio alan-ios-sdk

Updated Feb 15, 2023
Objective-C

IDEA-CCNL / Fengshenbang-LM

Star

Fengshenbang-LM(封神榜大模型)是IDEA研究院认知计算与自然语言研究中心主导的大模型开源体系，成为中文AIGC和认知智能的基础设施。

transformers pytorch chinese-nlp pretrained-models distributed-training multimodal aigc

Updated Feb 23, 2023
Python

alan-ai / alan-sdk-android

Star

In-App assistant SDK to build a multimodal conversational UX for Android applications (Java, Kotlin)

android machine-learning text-to-speech sdk voice voice-commands speech-recognition voice-control voice-assistant conversational-ai vui multimodal voice-interface alan-voice alan-ai alan-sdk alan-studio

Updated Dec 23, 2022

alan-ai / alan-sdk-flutter

Star

In-App assistant SDK to build a multimodal conversational UX for applications created with Flutter (iOS and Android)

machine-learning text-to-speech sdk chatbot voice voice-commands speech-recognition flutter voice-control voice-assistant conversational-ai vui multimodal voice-interface voice-ai alan-voice alan-sdk alan-studio

Updated Jan 15, 2023
Ruby

alan-ai / alan-sdk-ionic

Star

In-App assistant SDK to build a multimodal conversational UX for applications created with Ionic (React, Angular, Vue)

machine-learning text-to-speech sdk ionic chatbot voice voice-commands speech-recognition voice-control voice-assistant conversational-ai vui multimodal voice-interface voice-ai alan-studio alan-ionic-sdk

Updated Feb 2, 2023
TypeScript

microsoft / torchscale

Star

Transformers at any scale

machine-learning natural-language-processing translation computer-vision transformer speech-processing multimodal pretrained-language-model

Updated Jan 19, 2023
Python

rom1504 / clip-retrieval

Star

Easily compute clip embeddings and build a clip retrieval system with them

ai deep-learning clip knn semantic-search multimodal

Updated Feb 17, 2023
Jupyter Notebook

Eurus-Holmes / Awesome-Multimodal-Research

Star

A curated list of Multimodal Related Research.

awesome multimodal-learning multimodal multimodal-research

Updated Oct 30, 2022
Python

alan-ai / alan-sdk-cordova

Star

In-App assistant SDK to build a multimodal conversational UX for Apache Cordova applications

machine-learning text-to-speech chatbot voice-commands speech-recognition voice-assistant conversational-ai vui multimodal voice-interface

Updated Nov 10, 2022
Ruby

google-research-datasets / wit

Star

WIT (Wikipedia-based Image Text) Dataset is a large multimodal multilingual dataset comprising 37M+ image-text sets with 11M+ unique images across 100+ languages.

multilingual nlp machine-learning wikipedia multimodal cc-by-sa-3

Updated Sep 30, 2022

Improve this page

Add a description, image, and links to the multimodal topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the multimodal topic, visit your repo's landing page and select "manage topics."

Learn more

multimodal

Here are 279 public repositories matching this topic...

jina-ai / jina

microsoft / unilm

facebookresearch / mmf

jina-ai / discoart

Stability-AI / stability-sdk

sw-yx / ai-notes

alan-ai / alan-sdk-web

docarray / docarray

OFA-Sys / OFA

rom1504 / img2dataset

alan-ai / alan-sdk-ios

IDEA-CCNL / Fengshenbang-LM

alan-ai / alan-sdk-android

alan-ai / alan-sdk-flutter

alan-ai / alan-sdk-ionic

microsoft / torchscale

rom1504 / clip-retrieval

Eurus-Holmes / Awesome-Multimodal-Research

alan-ai / alan-sdk-cordova

google-research-datasets / wit

Improve this page

Add this topic to your repo