Python Cheat Sheet For Data Analysis

This document provides a cheat sheet for performing data analysis in Python. It covers topics like data loading, wrangling, exploration, normalization, modeling and validation. Specific functions and code snippets are presented for tasks like handling missing data, correlations, grouping, regression analysis and cross validation.

Uploaded by

Abdullah amin

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

126 views2 pages

Python Cheat Sheet For Data Analysis

Uploaded by

Abdullah amin

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 2

Python Cheat Sheet for Data Analysis

Data Loading Data Wrangling Exploratory Data Analysis

Complete data frame correlation
Read CSV dataset Replace missing data with frequency
df.corr()
# load without header MostFrequentEntry =
df = pd.read_csv(<CSV path>, header = None) df[‘attribute_name’].value_counts().idxmax() Specific attribute correlation
# load using first row as header df[[‘attribute1’,’attribute2’,...]].corr()
df = pd.read_csv(<CSV path>, header = 0) df[‘attribute_name’].replace(np.nan,MostFrequentEntry
, inplace=True) Scatter plot
Print first few entries from matlplotlib import pyplot as plt
Replace missing data with mean plt.scatter(df[[‘attribute_1’]], df[[‘attribute_2’]])
#n=number of entries; default 5
df.head(n) AverageValue= Regression plot
df[‘attribute’].astype(<data_type>).mean(axis=0) import seaborn as sns
Print last few entries sns.regplot(x=‘attribute_1’,y=‘attribute_2’, data=df)
df[‘attribute’].replace(np.nan, AverageValue,
#n=number of entries; default 5 inplace=True) Box plot
df.tail(n) import seaborn as sns
Fix the data types sns.boxplot(x=‘attribute_1’,y=‘attribute_2’, data=df)
Assign header names
df[[‘attribute1’, ‘attribute2’, ...]] = Grouping by attributes
df.columns = headers df[[‘attribute1’, ‘attribute2’, df_group = df[[‘attribute_1’,’attribute_2’,...]]
...]].astype(‘data_type’)
Replace “?” with NaN #data_type can be int, float, char, etc. GroupBy statements
# Group by a single attribute
df = df.replace(“?”, np.nan) Data normalization df_group = df_group.groupby(['attribute_1'],
as_index=False).mean()
df[‘attribute_name’] =
Retrieve data types df[‘attribute_name’]/df[‘attribute_name’].max() # Group by multiple attributes
df.dtypes df_group = df_group.groupby(['attribute_1',
Binning 'attribute_2'],as_index=False).mean()
Retrieve statistical description bins = np.linspace(min(df[‘attribute_name’]), Pivot tables
max(df[‘attribute_name’],n) grouped_pivot =
# default use
# n is the number of bins needed df_group.pivot(index='attribute_1',columns='attribute
df.describe()
# include all attributes _2')
GroupNames = [‘Group1’,’Group2’,’Group3’,...]
df.describe(include=”all”)
Pseudocolor plot
df['binned_attribute_name'] =
Retrieve data set summary pd.cut(df['attribute_name'], bins, labels=GroupNames, from matlplotlib import pyplot as plt
include_lowest=True) plt.pcolor(grouped_pivot, cmap='RdBu')
df.info()
Pearson Coefficient and p-value
Change column name
Save data frame to csv from scipy import stats
df.rename(columns={‘old_name’:’new_name’}, pearson_coef,p_value=stats.pearsonr(df[’attribute_1’]
df.to_csv(<output CSV path>) inplace=True) , df['attribute_2'])

Indicator variables
dummy_variable = pd.get_dummies(df[‘attribute_name’])

df = pd.concat([df, dummy_variable],axis = 1)

Python Cheat Sheet for Data Analysis
Model Development Pipeline
lre=LinearRegression()
from sklearn.pipeline import Pipeline
Linear regression from sklearn.preprocessing import StandardScaler Rcross =
from sklearn.linear_model import LinearRegression Input=[('scale',StandardScaler()), ('polynomial', cross_val_score(lre,x_data[['attribute_1']],y_data,cv
lr = LinearRegression() PolynomialFeatures(include_bias=False)), =n)
('model',LinearRegression())] # n indicates number of times, or folds, for which
Train linear regression model the cross validation is to be done
X = df[[‘attribute_1’, ‘attribute_2’, ...]] pipe=Pipeline(Input)
Y = df['target_attribute'] Mean = Rcross.mean()
lr.fit(X,Y) Z = Z.astype(float) Std_dev = Rcross.std()
pipe.fit(Z,y)
Generate output predictions ypipe=pipe.predict(Z) Cross-validation prediction
from sklearn.model_selection import cross_val_score
Y_hat = lr.predict(X) R2 value
Identify the coefficient and intercept # For linear regression model from sklearn.linear_model import LinearRegression
X = df[[‘attribute_1’, ‘attribute_2’, ...]]
coeff = lr.coef_ Y = df['target_attribute'] lre=LinearRegression()
intercept = lr.intercept_
Residual plot lr.fit(X,Y) yhat = cross_val_predict(lre,x_data[[‘attribute_1’]],
R2_score = lr.score(X,Y) y_data,cv=4)
import seaborn as sns
sns.residplot(x=df[[‘attribute_1’]], # For polynomial regression model Ridge regression and prediction
y=df[[‘attribute_2’]]) from sklearn.metrics import r2_score from sklearn.linear_model import Ridge
Distribution plot pr=PolynomialFeatures(degree=2)
f = np.polyfit(x, y, n)
import seaborn as sns p = np.poly1d(f) x_train_pr=pr.fit_transform(x_train[[‘attribute_1’,
sns.distplot(df['attribute_name'], hist=False) R2_score = r2_score(y, p(x)) ‘attribute_2’, ...]])
# can include other parameters like color, label,
etc. MSE value x_test_pr=pr.fit_transform(x_test[[‘attribute_1’,
from sklearn.metrics import mean_squared_error ‘attribute_2’, ...]])
Polynomial regression mse = mean_squared_error(Y, Yhat)
f = np.polyfit(x, y, n) RidgeModel=Ridge(alpha=1)
#creates the polynomial features of order n Model Evaluation and Refinement RidgeModel.fit(x_train_pr, y_train)
yhat = RigeModel.predict(x_test_pr)
p = np.poly1d(f) Split data for training and testing
#p becomes the polynomial model used to generate the from sklearn.model_selection import train_test_split Grid search
predicted output
from sklearn.model_selection import GridSearchCV
y_data = df[‘target_attribute’]
Y_hat = p(x) from sklearn.linear_model import Ridge
x_data=df.drop('target_attribute',axis=1)
# Y_hat is the predicted output
parameters= [{'alpha': [0.001,0.1,1, 10, 100, 1000,
x_train, x_test, y_train, y_test =
Multi-variate polynomial regression 10000, ...]}]
train_test_split(x_data, y_data, test_size=0.10,
from sklearn.preprocessing import PolynomialFeatures random_state=1)
RR=Ridge()
Cross-validation score Grid1 = GridSearchCV(RR, parameters1,cv=4)
Z = df[[‘attribute_1’,’attribute_2’,...]]
pr=PolynomialFeatures(degree=n) from sklearn.model_selection import cross_val_score Grid1.fit(x_data[[‘attribute_1’, ‘attribute_2’,
Z_pr=pr.fit_transform(Z) ...]], y_data)
from sklearn.linear_model import LinearRegression
BestRR=Grid1.best_estimator_

BestRR.score(x_test[[‘attribute_1’, ‘attribute_2’,
...]], y_te

Pandas Handbook
No ratings yet
Pandas Handbook
33 pages
3141b86-6fd4-7726-D8ad-20a1516bcd Statistics Interview Cheat Sheet - Emmading - Com. All Rights Reserved.
No ratings yet
3141b86-6fd4-7726-D8ad-20a1516bcd Statistics Interview Cheat Sheet - Emmading - Com. All Rights Reserved.
10 pages
Python Data Associate Certification Study Guide
No ratings yet
Python Data Associate Certification Study Guide
2 pages
Becoming A Data Scientist StudyPlan
No ratings yet
Becoming A Data Scientist StudyPlan
10 pages
A Comprehensive Statistics Cheat Sheet For Data Science Interviews - StrataScratch
No ratings yet
A Comprehensive Statistics Cheat Sheet For Data Science Interviews - StrataScratch
32 pages
Long-Time Gap Crowd Prediction Using Time Series Deep Learning Models With Two-Dimensional Single Attribute Inputs 1-S2.0-S1474034621002329-Main
No ratings yet
Long-Time Gap Crowd Prediction Using Time Series Deep Learning Models With Two-Dimensional Single Attribute Inputs 1-S2.0-S1474034621002329-Main
14 pages
? Create The ROOT - DEPTH Table - ESS-DWW Courseware - Snowflake University - On-Demand
No ratings yet
? Create The ROOT - DEPTH Table - ESS-DWW Courseware - Snowflake University - On-Demand
7 pages
Pandas Cheat Sheet PDF
67% (3)
Pandas Cheat Sheet PDF
1 page
Review of Basic Statistical Concepts Hanke
No ratings yet
Review of Basic Statistical Concepts Hanke
28 pages
Pandas
No ratings yet
Pandas
43 pages
Pandas Cheat Sheet
100% (2)
Pandas Cheat Sheet
6 pages
What Is The Purpose of Factless Fact Table
No ratings yet
What Is The Purpose of Factless Fact Table
11 pages
Data Warehousing & Dimensional Modeling Concepts !!
No ratings yet
Data Warehousing & Dimensional Modeling Concepts !!
33 pages
Statistics For Data Sciences
No ratings yet
Statistics For Data Sciences
10 pages
Advanced Statistical Techniques For Analytics (Course Handout, 2018H2)
No ratings yet
Advanced Statistical Techniques For Analytics (Course Handout, 2018H2)
6 pages
Lesson 5 Data Wrangling in Data Science.
100% (1)
Lesson 5 Data Wrangling in Data Science.
11 pages
Customer Segmentation Clustering
No ratings yet
Customer Segmentation Clustering
35 pages
Barclays Data Engineer Interview Questions
No ratings yet
Barclays Data Engineer Interview Questions
17 pages
SCS3250A - Module 1 - Introduction To Statistics and Analytics
No ratings yet
SCS3250A - Module 1 - Introduction To Statistics and Analytics
44 pages
Pandas - Basics - Practice: Consider The Following Python Dictionary Data and Python List Labels
No ratings yet
Pandas - Basics - Practice: Consider The Following Python Dictionary Data and Python List Labels
6 pages
76 - Sample - Chapter Kunci M2K3 No 9
No ratings yet
76 - Sample - Chapter Kunci M2K3 No 9
94 pages
Statistics For Business and Economics 15th Edition Camm Unlocked Test Bank
No ratings yet
Statistics For Business and Economics 15th Edition Camm Unlocked Test Bank
320 pages
PYTHON PANDAS Cheat Sheet
No ratings yet
PYTHON PANDAS Cheat Sheet
2 pages
Thera Bank - Project
100% (4)
Thera Bank - Project
34 pages
Data Science Interview Questions
No ratings yet
Data Science Interview Questions
39 pages
TensorFlow With R
No ratings yet
TensorFlow With R
46 pages
Building A Career in Data Science - The Overview
No ratings yet
Building A Career in Data Science - The Overview
2 pages
Python Interview Questions
No ratings yet
Python Interview Questions
8 pages
Data Engineer Path - Hands On SQL, Data Pipelines - Dataquest
No ratings yet
Data Engineer Path - Hands On SQL, Data Pipelines - Dataquest
1 page
EDA Assignment
No ratings yet
EDA Assignment
15 pages
Extract Transform Load
No ratings yet
Extract Transform Load
80 pages
Data Scientist Certification Study Guide
No ratings yet
Data Scientist Certification Study Guide
7 pages
XL Wings
No ratings yet
XL Wings
214 pages
DAX Cheat Sheet
No ratings yet
DAX Cheat Sheet
10 pages
Salary Prediction LinearRegression
100% (1)
Salary Prediction LinearRegression
7 pages
50 SQL To Python Series Problems
No ratings yet
50 SQL To Python Series Problems
165 pages
DWH BASICS Interview Questions
No ratings yet
DWH BASICS Interview Questions
30 pages
Python For Non-Programmers - 1-1
No ratings yet
Python For Non-Programmers - 1-1
19 pages
26 Pythonic Code Tips and Tricks
No ratings yet
26 Pythonic Code Tips and Tricks
30 pages
Data Analyst Cheatsheet - For - Kuhtfe
No ratings yet
Data Analyst Cheatsheet - For - Kuhtfe
6 pages
Unstructured Dataload Into Hive Database Through PySpark
No ratings yet
Unstructured Dataload Into Hive Database Through PySpark
9 pages
Mysql Commands
0% (1)
Mysql Commands
3 pages
Keras Cheat Sheet Python For Data Science: Model Architecture Inspect Model
No ratings yet
Keras Cheat Sheet Python For Data Science: Model Architecture Inspect Model
1 page
Pandas Illustrated: The Definitive Visual Guide To Pandas - by Lev Maximov - Jan, 2023 - Better Programming
No ratings yet
Pandas Illustrated: The Definitive Visual Guide To Pandas - by Lev Maximov - Jan, 2023 - Better Programming
99 pages
Ds Capstone Template Coursera
No ratings yet
Ds Capstone Template Coursera
49 pages
Tableau Interview Questions
No ratings yet
Tableau Interview Questions
31 pages
Vignesh R 22071471559 Jan 2024: Tcs NQT - It
No ratings yet
Vignesh R 22071471559 Jan 2024: Tcs NQT - It
1 page
Python-Training Test
No ratings yet
Python-Training Test
13 pages
Data Warehousing MCQ
No ratings yet
Data Warehousing MCQ
71 pages
Day64 - Pandas Interview Questions
No ratings yet
Day64 - Pandas Interview Questions
5 pages
Custom Auditing in SSIS: - Meghana Vasavada
No ratings yet
Custom Auditing in SSIS: - Meghana Vasavada
39 pages
Ch02 DSS BI
No ratings yet
Ch02 DSS BI
91 pages
Supervised Learning Flowchart
No ratings yet
Supervised Learning Flowchart
1 page
Omkar Reddy Gojala: Education
No ratings yet
Omkar Reddy Gojala: Education
1 page
Big O Notation Cheat Sheet - Leetcode Cheat Sheet - La Vivien Post1233
No ratings yet
Big O Notation Cheat Sheet - Leetcode Cheat Sheet - La Vivien Post1233
5 pages
Deep Learning Booklet
No ratings yet
Deep Learning Booklet
55 pages
Python Data Cleaning
100% (1)
Python Data Cleaning
20 pages
Snowflake Admin Keypoints
No ratings yet
Snowflake Admin Keypoints
3 pages
SAS Presentation
No ratings yet
SAS Presentation
49 pages
SCRUM: Mastering Agile Project Management for Exceptional Results (2023 Guide for Beginners)
From Everand
SCRUM: Mastering Agile Project Management for Exceptional Results (2023 Guide for Beginners)
Whitney Soto
No ratings yet
Optimizing Hadoop for MapReduce
From Everand
Optimizing Hadoop for MapReduce
Khaled Tannir
No ratings yet
Course Outline ME-113 Engineering Mechanics I Statics
No ratings yet
Course Outline ME-113 Engineering Mechanics I Statics
1 page
Bando Di Concorso A.A. 2024.25 - ENG
No ratings yet
Bando Di Concorso A.A. 2024.25 - ENG
47 pages
Course Outline ME-221 Engineering Materials - Revised Aug 2019
No ratings yet
Course Outline ME-221 Engineering Materials - Revised Aug 2019
2 pages
Radiation II
No ratings yet
Radiation II
36 pages
Manifolds Detailed
No ratings yet
Manifolds Detailed
9 pages
Trees and Plants
No ratings yet
Trees and Plants
59 pages
Words Hassan
No ratings yet
Words Hassan
4 pages
2 Days Sharan Forest
No ratings yet
2 Days Sharan Forest
2 pages
Impact Testing Requirements For Structural Steels
No ratings yet
Impact Testing Requirements For Structural Steels
3 pages
Lug Fea
No ratings yet
Lug Fea
7 pages
MSC Cis Aa Concept As25
No ratings yet
MSC Cis Aa Concept As25
1 page
Overview of Pumps System
No ratings yet
Overview of Pumps System
185 pages
Pipe Data
No ratings yet
Pipe Data
2 pages
Asmeviiipresentation Rev 151211115615
No ratings yet
Asmeviiipresentation Rev 151211115615
282 pages
Tobacco & Alcohol
No ratings yet
Tobacco & Alcohol
62 pages
Storage Tanks (Final)
No ratings yet
Storage Tanks (Final)
68 pages
3 Growth Productivity
No ratings yet
3 Growth Productivity
44 pages
Template
No ratings yet
Template
4 pages
Legends & Symbol
No ratings yet
Legends & Symbol
7 pages
Cleaning
No ratings yet
Cleaning
52 pages
Fire
No ratings yet
Fire
52 pages
Theory of Consumer Behavior
No ratings yet
Theory of Consumer Behavior
11 pages
Selection Criteria of Pumps 1
No ratings yet
Selection Criteria of Pumps 1
20 pages
Lecture 3
No ratings yet
Lecture 3
35 pages
CH 01
No ratings yet
CH 01
68 pages
Certificate Flange
No ratings yet
Certificate Flange
1 page
Manifolds Detailed
No ratings yet
Manifolds Detailed
9 pages
Specimen Dimensions For - Testing
No ratings yet
Specimen Dimensions For - Testing
1 page
Template
No ratings yet
Template
4 pages
Data Science Practical With Solutions BSC Cs Sem 6
No ratings yet
Data Science Practical With Solutions BSC Cs Sem 6
29 pages
Machine Learning Online Bootcamp Beginners Track Curriculum
No ratings yet
Machine Learning Online Bootcamp Beginners Track Curriculum
9 pages
Optimal Design of Fiberglass Panels With Physical Validation
No ratings yet
Optimal Design of Fiberglass Panels With Physical Validation
13 pages
Ai-900 3
No ratings yet
Ai-900 3
18 pages
Financial Planning
No ratings yet
Financial Planning
98 pages
Uncertainty Estimation With Deep Ensembles
No ratings yet
Uncertainty Estimation With Deep Ensembles
15 pages
Chapter 3 Resource Planning
No ratings yet
Chapter 3 Resource Planning
70 pages
Regression-Based Earnings Forecasts (Gerakos and Gramacy, 2013)
No ratings yet
Regression-Based Earnings Forecasts (Gerakos and Gramacy, 2013)
33 pages
Unit 1 - Capstone Project-Answer Key
No ratings yet
Unit 1 - Capstone Project-Answer Key
21 pages
Water Level Prediction Using Various Machine Learning Algorithms A Case Study of Durian Tunggal River Malaysia
No ratings yet
Water Level Prediction Using Various Machine Learning Algorithms A Case Study of Durian Tunggal River Malaysia
20 pages
Assignment 3 Week 3
No ratings yet
Assignment 3 Week 3
3 pages
Fanntoolusersguide 161106045408
No ratings yet
Fanntoolusersguide 161106045408
21 pages
OM Forecasting
No ratings yet
OM Forecasting
72 pages
Gaussian Process Regression Based Remaining Fatigue Lif - 2022 - International J
No ratings yet
Gaussian Process Regression Based Remaining Fatigue Lif - 2022 - International J
9 pages
Wheelchair Control Using Speech Recognition: P. B. Ghule and M. G. Bhalerao R. H. Chile and V. G. Asutkar
No ratings yet
Wheelchair Control Using Speech Recognition: P. B. Ghule and M. G. Bhalerao R. H. Chile and V. G. Asutkar
6 pages
Selecting Appropriate Forecast Method On The Basis of Forecast Accuracy
No ratings yet
Selecting Appropriate Forecast Method On The Basis of Forecast Accuracy
10 pages
Project
No ratings yet
Project
11 pages
PR Chapter 1 5 1
No ratings yet
PR Chapter 1 5 1
42 pages
Stock Market Prediction Using Machine Learning (ML) Algorithms
No ratings yet
Stock Market Prediction Using Machine Learning (ML) Algorithms
20 pages
Practical Statistics For Pharmaceutical Analysis With Minitab Applications Complete Volume Download
100% (15)
Practical Statistics For Pharmaceutical Analysis With Minitab Applications Complete Volume Download
15 pages
Ai ML
No ratings yet
Ai ML
19 pages
Machine Learning
No ratings yet
Machine Learning
19 pages
Penerbit, 004
No ratings yet
Penerbit, 004
10 pages
Lecture9 ML-Algorithms
No ratings yet
Lecture9 ML-Algorithms
22 pages
Standard Deviation
No ratings yet
Standard Deviation
2 pages
Mathematical Foundation For AI
No ratings yet
Mathematical Foundation For AI
3 pages
A Comparison of Forecasting Methods For Hotel Revenue Management
No ratings yet
A Comparison of Forecasting Methods For Hotel Revenue Management
20 pages
Analisis Perhitungan Metode Interpolasi
No ratings yet
Analisis Perhitungan Metode Interpolasi
7 pages
Bias-Variance Tradeoffs: 1 Single Sample MLE
No ratings yet
Bias-Variance Tradeoffs: 1 Single Sample MLE
7 pages