parquet

Petastorm library enables single machine or distributed training and evaluation of deep learning models from datasets in Apache Parquet format. It supports ML frameworks such as Tensorflow, Pytorch, and PySpark and can be used from pure Python code.

machine-learning deep-learning tensorflow pytorch pyspark parquet parquet-files sysml pyarrow

Updated Aug 3, 2020
Python

apache / parquet-format

Star

Apache Parquet

java big-data parquet

Updated Jul 30, 2020
Java

skale-me / skale

Star

High performance distributed data processing engine

nodejs machine-learning cluster aws-s3 parquet azure-storage skale

Updated Jul 29, 2020
JavaScript

Netflix / iceberg

Star

Iceberg is a table format for large, slow-moving tabular data

spark hadoop avro parquet

Updated Apr 14, 2020
Java

HariSekhon / DevOps-Python-tools

Star

80+ DevOps & Data CLI Tools - AWS, Log Anonymizer, Spark, Hadoop, HBase, Hive, Impala, Linux, Docker, Spark Data Converters & Validators (Avro/Parquet/JSON/CSV/INI/XML/YAML), Travis CI, Ambari, Blueprints, CloudFormation, Elasticsearch, Solr, Pig, IPython - Python / Jython Tools

Updated Aug 7, 2020
Python

apache / parquet-cpp

Star

Apache Parquet

java big-data parquet

Updated Nov 29, 2018
C++

Cinchoo / ChoETL

Star

ETL Framework for .NET / c# (Parser / Writer for CSV, Flat, Xml, JSON, Key-Value, Parquet, Yaml formatted files)

yaml parser json csv csharp etl dotnet xml writer flat reader parquet keyvalue parquet-files etl-framework cinchoo-etl

Updated Aug 2, 2020
C#

Intel-bigdata / OAP

Star

Optimized Analytics Package for Spark* Platform

spark parquet orc oap

Updated Aug 11, 2020
Scala

moshe / elasticsearch_loader

Star

A tool for batch loading data files (json, parquet, csv, tsv) into ElasticSearch

python elasticsearch json logstash csv parquet elasticsearch-loader

Updated May 20, 2020
Python

spotify / ratatool

Star

A tool for data sampling, data generation, and data diffing

bigquery scala protobuf avro parquet scalacheck

Updated Aug 11, 2020
Scala

ranaroussi / pystore

Star

Fast data store for Pandas time-series data

database timeseries pandas parquet datastore dask dataframe

Updated May 30, 2020
Python

elastacloud / parquet-dotnet

Star

🏐 Apache Parquet for modern .NET

windows linux big-data apache-spark dotnet impala dotnet-core parquet apache-parquet amazon-athena parquet-dotnet

Updated Jul 23, 2020
C#

scikit-hep / awkward-array

Star

Manipulate arrays of complex data structures as easily as Numpy.

python big-data analysis arrow numpy python3 hdf5 root parquet columnar-storage root-cern apache-arrow columnar scikit-hep

Updated Aug 8, 2020
Python

ironSource / parquetjs

Star

fully asynchronous, pure JavaScript implementation of the Parquet file format

nodejs javascript parquet

Updated Jun 16, 2020
JavaScript

Chabane / bigdata-playground

Star

A complete example of a big data application using : Kubernetes (kops/aws), Apache Spark SQL/Streaming/MLib, Apache Flink, Scala, Python, Apache Kafka, Apache Hbase, Apache Parquet, Apache Avro, Apache Storm, Twitter Api, MongoDB, NodeJS, Angular, GraphQL

Updated Feb 1, 2019
TypeScript

cldellow / sqlite-parquet-vtable

Star

A SQLite vtable extension to read Parquet files

sqlite sqlite3 parquet apache-parquet apache-arrow

Updated Aug 5, 2020
C++

51zero / eel-sdk

Star

Big Data Toolkit for the JVM

scala kafka big-data hive hadoop etl kudu parquet orc

Updated Feb 11, 2019
Scala

sunchao / parquet-rs

Star

Apache Parquet implementation in Rust

rust hadoop parquet

Updated Dec 21, 2018
Rust

JDASoftwareGroup / kartothek

Star

A consistent table management library in python

python arrow pydata parquet dask kartothek

Updated Aug 11, 2020
Python

mukunku / ParquetViewer

Star

Simple windows desktop application for viewing & querying Apache Parquet files

big-data apache-spark dot-net parquet windows-desktop

Updated Jul 22, 2020
C#

lightcopy / parquet-index

Star

Spark SQL index for Parquet tables

statistics sql spark index parquet

Updated Aug 1, 2020
Scala

indix / schemer

Star

Schema registry for CSV, TSV, JSON, AVRO and Parquet schema. Supports schema inference and GraphQL API.

tsv json spark avro schema-registry parquet schema-inference graphql-api

Updated Mar 5, 2020
Scala

mjakubowski84 / parquet4s

Star

Read and write Parquet in Scala. Use Scala classes as schema. No need to start a cluster.

aws scala akka hadoop google-storage writer streams reader parquet akka-streams parquet-files

Updated Aug 9, 2020
Scala

saurfang / sparksql-protobuf

Star

Read SparkSQL parquet file as RDD[Protobuf]

protobuf sparksql parquet

Updated Oct 12, 2018
Scala

awslabs / amazon-s3-find-and-forget

Star

Amazon S3 Find and Forget is a solution to handle data erasure requests from data lakes stored on Amazon S3, for example, pursuant to the European General Data Protection Regulation (GDPR)

aws big-data s3 data-lake parquet gdpr right-to-be-forgotten amazon-s3 data-erasure ccpa

Updated Aug 8, 2020
Python

Re1tReddy / Spark

Star

Apache Spark is a fast, in-memory data processing engine with elegant and expressive development API's to allow data workers to efficiently execute streaming, machine learning or SQL workloads that require fast iterative access to datasets.This project will have sample programs for Spark in Scala language .

streaming consumer parquet kafka-producer spark-sql spark-kafka-integration spark-streaming-data spark-transformations spark-to-cassandra-connection spark-dataframes spark-joins spark-hive-context spark-jdbc-connection spark-with-mangodb spark-aggregations-using-dataframe spark-use-cases cassandra-installation spark-datadog spark-mangodb spark-catalog-api

Updated Jul 1, 2020
Scala

RumbleDB / rumble

Star

⛈️ Rumble 1.7.0 "Phoenix Atlantica"🌳 for Apache Spark | Run queries on your large-scale, messy JSON-like data (JSON, text, CSV, Parquet, ROOT, AVRO, SVM...) | No install required (just a jar to download) | Declarative Machine Learning and more

Updated Aug 11, 2020
Java

Improve this page

Add a description, image, and links to the parquet topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the parquet topic, visit your repo's landing page and select "manage topics."

Learn more