#

wikipedia-dump

Here are 53 public repositories matching this topic...

jivesearch / jivesearch

Star

Open

Themes

1

brentadamson commented Nov 27, 2018

Custom css themes shouldn't be too difficult. Probably pass in a url parameter for the them you want and then handle it in the template. Night mode has been requested.

Read more

enhancement good first issue help wanted

Open

Additional Weather Provider

Open

Add the document count on retry

Find more good first issues →

yohasebe / wp2txt

Star

WP2TXT extracts plain text data from Wikipedia dump file (encoded in XML/compressed with Bzip2) stripping all the MediaWiki markups and other metadata.

ruby nlp wikipedia corpus wikipedia-dump

Updated Jan 10, 2018
Ruby

pirate / wikipedia-mirror

Star

🌐 Guide and tools to run a full offline mirror of Wikipedia.org with three different approaches: Nginx caching proxy, Kimix + ZIM dump, and MediaWiki/XOWA + XML dump

html docker nginx wiki docker-compose mediawiki wikipedia archiving datascience zim wikipedia-dump openzim kimix xowa internet-archiving mwdumper

Updated Feb 13, 2020
PLpgSQL

howl-anderson / chinese-wikipedia-corpus-creator

Star

Corpus creator for Chinese Wikipedia

nlp wikipedia-dump wikipedia-corpus chinese-corpus

Updated Mar 11, 2020
Python

pvoosten / explicit-semantic-analysis

Star

Wikipedia-based Explicit Semantic Analysis, as described by Gabrilovich and Markovitch

java vector java-8 concept lucene esa wikipedia-dump semantic-analysis explicit-semantic-analysis

Updated May 13, 2020
Java

shyamupa / wikidump_preprocessing

Star

Extracting useful metadata from Wikipedia dumps in any language.

multilingual redirects wikipedia python3 disambiguation wikipedia-dump metadata-extraction wikiextractor

Updated Sep 20, 2019
Python

lemire / IndexWikipedia

Star

A simple utility to index wikipedia dumps using Lucene.

java lucene wikipedia-dump

Updated Aug 24, 2019
Java

uma-pi1 / OPIEC

Star

Reading the data from OPIEC - an Open Information Extraction corpus

nlp natural-language-processing wiki wikipedia corpus information-extraction dataset corpora corpus-data nlp-resources wikipedia-dump corpus-tools natural-language-understanding open-information-extraction dataset-interface wikipedia-corpus corpus-processing nlp-datasets

Updated Jun 12, 2019
Java

qcl / master-research

Star

Research for master degree, operation projizz-I/O

nlp knowledge-graph named-entity-recognition wikipedia-dump patty kba yago

Updated Dec 27, 2017
Python

caizixian / WikiOffline

Star

Wikipedia Dump reader

Updated Nov 12, 2014
C++

tomer8007 / wikipedia-to-json

Star

Node.js module for parsing the content of wikipedia articles into javascript objects

nodejs javascript parser json wikipedia wikipedia-dump

Updated Jul 9, 2017
JavaScript

dlenski / wp2git

Star

Downloads and imports Wikipedia page histories to a git repository

git mediawiki wikipedia-dump

Updated Jun 4, 2019
Python

seahrh / wikipedia-spark

Star

Ranking of Programming Languages on English Wikipedia (Spark/Scala)

scala spark wikipedia-dump

Updated Mar 17, 2017
Scala

donomii / wikipedia2geojson

Star

Extracts geodata from a wikipedia dump

converter json geojson mapping wikipedia conversion geodata geotagged-wikipedia-articles wikipedia-dump geotagging wikipedia-scraper

Updated Feb 12, 2020
Go

akb89 / witokit

Star

A Python toolkit to generate a tokenized dump of Wikipedia for NLP

multilingual nlp wikipedia dump wikipedia-dump tokenize

Updated Dec 2, 2019
Python

macbre / mediawiki-dump

Star

Python package for working with MediaWiki XML content dumps

wikipedia wikia wikipedia-dump fandom python3-library wikipedia-corpus

Updated Apr 21, 2020
Python

OlehOnyshchak / pyWikiMM

Star

Open

Feedback Thread. Thanks for sharing!

OlehOnyshchak commented Apr 25, 2020

If you want to give just a short feedback, post a comment on this issue. That will help me to know what works good and what may be better or is missing. Thanks!

Read more

bug documentation enhancement help wanted

TomerAberbach / wikipedia-ngrams

Star

A Kotlin project which extracts ngram counts from Wikipedia data dumps.

kotlin nlp cli wikipedia ngram ngrams wikipedia-dump wikipedia-corpus wikiextractor

Updated Apr 29, 2020
Kotlin

alicebob / wikiundump

Star

unpack wikipedia XML dumps to files

Updated Sep 29, 2016
Go

SinKasula / Wikipedia-Names-Extraction

Star

Extract human names from Wikipedia

jupyter-notebook python3 wikipedia-dump entity-recognition

Updated Jul 19, 2019
HTML

bashkirtsevich-llc / wiki-dump-parser

Star

Wiki dump parser (jupyter)

python parser tutorial jupyter wiki wikipedia xml jupyter-notebook tutorials python3 xml-parser wikia jupyter-notebooks demos wikipedia-dump bz2 tutorial-code wiktionary wikipedia-corpus

Updated Sep 23, 2018
Jupyter Notebook

rocket-pig / vector-visualizer

Star

Visualize/explore word2vec datasets with pygame

python pygame gensim wikipedia-dump visualize visualize-data gensim-word2vec

Updated Mar 30, 2018
Python

studerw / wiki-dump-parser

Star

Java tool to Wikimedia dumps into Java Article pojos for test or fake data.

java wiki wikipedia wikipedia-dump fake-data wikiextractor

Updated Jan 11, 2020
Java

z0noxz / wikid

Star

mirror of https://git.noxz.tech/wikid

cli simple wikipedia wikipedia-viewer wikipedia-dump wikid

Updated Jun 14, 2020
C

SasCezar / WikiBank

Star

WikiBank is a new partially annotated resource for multilingual frame-semantic parsing task.

multilingual python mongodb dataset wikipedia-dump wikidata-dump semantic-role-labeling semantic-role

Updated Dec 2, 2019
Python

kaczla / wikititle

Star

wikititle - script for printing list all Wikipedia title in few language

ruby linux translation wiki wikipedia extract bash-script title wikipedia-dump

Updated Feb 11, 2018
Shell

ALSAREM / word2vec-model-generation

Star

Use the Word2Vec proposed by Google to train models (vectors) to be used in any word2vec application.

word2vec word2vec-model wikipedia-dump word2vec-algorithm

Updated Jan 15, 2018
Python

nwtgck / spark-wikipedia-dump-loader

Star

Wikipedia Dump Loader for Spark

scala spark wikipedia-dump

Updated Oct 10, 2018
Scala

priyendumori / Wiki-Search-Engine

Star

A complete search engine experience built on top of 75 GB Wikipedia corpus with subsecond latency for searches. Results contain wiki pages ordered by TF/IDF relevance based on given search word/s. From an optimized code to the K-Way mergesort algorithm, this project addresses latency, indexing, and big data challenges.

search-engine indexing wikipedia-dump ranking-algorithm external-merge-sort tf-idf-score

Updated Sep 12, 2019
Python

rajatyadav1994 / Wise--WikiPedia-Search-Engine

Star

A Search Engine built based on Wikipedia dump of 75GB. Involves creation of Index file and returns search results in real time

search-engine wikipedia-dump wikipedia-corpus infomation-retrieval

Updated Nov 2, 2019
Python

Improve this page

Add a description, image, and links to the wikipedia-dump topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the wikipedia-dump topic, visit your repo's landing page and select "manage topics."

You can’t perform that action at this time.