My notes on Data Science

Frameworks, Tools and libraries

Visualisation

Your Friendly Guide to Colors in Data Visualisation

Snippets

Jupyter - Pyspark

docker run --rm \
-v ~:/home/jovyan/work \
-p 8888:8888 \
-p 4040:4040 \
-p 4041:4041 \
jupyter/pyspark-notebook

import pyspark 
from pyspark.sql import SparkSession

#spark context
sc = pyspark.SparkContext('local[*]')

#spark session
spark = SparkSession.builder.appName('App name').getOrCreate()

# do something to prove it works
rdd = sc.parallelize(range(1000))
rdd.takeSample(False, 5)

D3 on Jupyter

!pip install py_d3 -q

%load_ext py_d3

%%d3


<div id="my_dataviz"></div>


<script>
    //your code here
</script>

Books

Papers

Datasets

Infographic

Preview	Description
	A visual guide to Becoming a Data Scientist in 8 Steps by DataCamp (img)
	Mindmap on required skills (img)
	Swami Chandrasekaran made a Curriculum via Metro map.
	by @kzawadz via twitter
	By Data Science Central
	From this article by Berkeley Science Review.
	Data Science Wars: R vs Python
	How to select statistical or machine learning techniques
	Choosing the Right Estimator
	The Data Science Industry: Who Does What
	Data Science Venn Diagram
	Different Data Science Skills and Roles from this article by Springboard
	A simple and friendly way of teaching your non-data scientist/non-statistician colleagues how to avoid mistakes with data. From Geckoboard's Data Literacy Lessons.

Name		Name	Last commit message	Last commit date
Latest commit History 47 Commits
card reference		card reference
notebooks		notebooks
.gitignore		.gitignore
All Cheat Sheets.pdf		All Cheat Sheets.pdf
Dask.pdf		Dask.pdf
Dask1.png		Dask1.png
Dask2.png		Dask2.png
Dask3.png		Dask3.png
Dask4.png		Dask4.png
Data Wrangling with dplyr and tidyr - R Studio-1.jpg		Data Wrangling with dplyr and tidyr - R Studio-1.jpg
Data Wrangling with dplyr and tidyr - R Studio-2.jpg		Data Wrangling with dplyr and tidyr - R Studio-2.jpg
Deep Learning Cheat Sheet-Hacker Noon.pdf		Deep Learning Cheat Sheet-Hacker Noon.pdf
Keras.jpg		Keras.jpg
Matplotlib.png		Matplotlib.png
Neural Network Cells.png		Neural Network Cells.png
Neural Network Graphs.png		Neural Network Graphs.png
Neural Networks Zoo.png		Neural Networks Zoo.png
Numpy.png		Numpy.png
Pandas-1.jpg		Pandas-1.jpg
Pandas-2.jpg		Pandas-2.jpg
Pandas-3.png		Pandas-3.png
PySpark-RDD.png		PySpark-RDD.png
PySpark-SQL.png		PySpark-SQL.png
PySpark.jpg		PySpark.jpg
README.md		README.md
Scikit Learn.png		Scikit Learn.png
Scipy.png		Scipy.png
ggplot2-1.jpg		ggplot2-1.jpg
ggplot2-2.jpg		ggplot2-2.jpg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

My notes on Data Science

Table of Contents

Frameworks, Tools and libraries

Visualisation

Snippets

Jupyter - Pyspark

D3 on Jupyter

Books

Papers

Datasets

Infographic

Cheat Sheets

Notebooks

GitHub Repos

Podcasts

Podcasts for Beginners:

"More" advanced podcasts

Podcasts to think outside the box:

Communities

Interview Questions

About

Uh oh!

Releases

Packages

Languages

sandysnunes/data-science-notes

Folders and files

Latest commit

History

Repository files navigation

My notes on Data Science

Table of Contents

Frameworks, Tools and libraries

Visualisation

Snippets

Jupyter - Pyspark

D3 on Jupyter

Books

Papers

Datasets

Infographic

Cheat Sheets

Notebooks

GitHub Repos

Podcasts

Podcasts for Beginners:

"More" advanced podcasts

Podcasts to think outside the box:

Communities

Interview Questions

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages