Spaces:

Kmckee95
/

Heart-Disease-Analyzer-App

Runtime error

App Files Files Community

kmckee95 commited on Apr 3, 2022

Commit

08e38f9

unverified ·

1 Parent(s): 1c4f879

Add files via upload

Browse files

Files changed (3) hide show

full_pipeline.pickle +0 -0
heartdisease.py +144 -0
rfc.pickle +0 -0

full_pipeline.pickle ADDED Viewed

Binary file (52.1 kB). View file

heartdisease.py ADDED Viewed

	@@ -0,0 +1,144 @@

+# import the library
+import pandas as pd
+import numpy as np
+import seaborn as sns
+from sklearn.preprocessing import OrdinalEncoder, OneHotEncoder
+from sklearn.preprocessing import StandardScaler
+from sklearn.impute import KNNImputer
+from sklearn.pipeline import Pipeline
+from sklearn.compose import ColumnTransformer
+from sklearn.linear_model import LogisticRegression
+from sklearn.ensemble import RandomForestClassifier
+from sklearn.ensemble import GradientBoostingClassifier
+#libraries for model evaluation
+import matplotlib.pyplot as plt
+from sklearn.metrics import accuracy_score
+from sklearn.metrics import plot_confusion_matrix
+from sklearn.metrics import classification_report
+import warnings
+warnings.filterwarnings('ignore')
+# read the dataset
+df = pd.read_csv('heart.csv')
+# get categorical columns
+categorical_cols= df.select_dtypes(include=['object'])
+# get count of unique values for categorical columns
+for cols in categorical_cols.columns:
+    print(cols,':', len(categorical_cols[cols].unique()),'labels')
+# categorical columns
+cat_col = categorical_cols.columns
+# numerical column
+num_col = ['Age','RestingBP','Cholesterol','FastingBS','MaxHR','Oldpeak']
+# define X and y
+X = df.drop(['HeartDisease'],axis=1)
+y = df['HeartDisease']
+# create a pipeline for preprocessing the dataset
+num_pipeline = Pipeline([
+        ('imputer', KNNImputer(n_neighbors=5)),
+        ('std_scaler', StandardScaler()),
+    ])
+num_attribs = num_col
+cat_attribs = cat_col
+# apply transformation to the numerical and categorical columns
+full_pipeline = ColumnTransformer([
+        ("num", num_pipeline, num_attribs),
+        ("cat", OneHotEncoder(), cat_attribs),
+    ])
+X = full_pipeline.fit_transform(X)
+# save preprocessed data
+temp_df = pd.DataFrame(X)
+temp_df.to_csv('processed_data.csv')
+# Splitting the dataset into the Training set and Test set
+from sklearn.model_selection import train_test_split
+X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42)
+# count plot for number of heart disease(1)/No heart disease(0)
+import seaborn as sns
+sns.countplot(y_train,palette='OrRd')
+# create a fresh model based on tuned parameters
+rfc1=RandomForestClassifier(random_state=42, max_features='sqrt', n_estimators= 50, max_depth=7, criterion='gini')
+rfc1.fit(X_train, y_train)
+# Predicting the Test set results
+y_pred = rfc1.predict(X_test)
+print('Random forest accuracy_score:',accuracy_score(y_test,y_pred))
+# Save the Model
+import pickle
+# save the random forest model for future use
+pickle.dump(rfc1, open('rfc.pickle', 'wb'))
+# save the preprocessing pipeline
+pickle.dump(full_pipeline, open('full_pipeline.pickle', 'wb'))
+# Load the Models for future use
+rfc_saved = pickle.load(open('rfc.pickle','rb'))
+full_pipeline_saved = pickle.load(open('full_pipeline.pickle','rb'))
+# Visualization
+target = df['HeartDisease'].replace([0,1],['Low','High'])
+data = pd.crosstab(index=df['Sex'],
+           columns=target)
+data.plot(kind='bar',stacked=True)
+plt.show()
+plt.figure(figsize=(10,5))
+bins=[0,30,50,80]
+sns.countplot(x=pd.cut(df.Age,bins=bins),hue=target,color='r')
+plt.show()
+plt.figure(figsize=(10,5))
+sns.countplot(x=target,hue=df.ChestPainType)
+plt.xticks(np.arange(2), ['No', 'Yes'])
+plt.show()
+plt.figure(figsize=(10,5))
+sns.countplot(x=target,hue=df.ExerciseAngina)
+plt.xticks(np.arange(2), ['No', 'Yes'])
+plt.show()
+# feature importance
+# get important features used by model
+importances = rfc1.feature_importances_
+feature_names = num_col
+for i in cat_col:
+    feature_names = feature_names + [i]*df[i].nunique()
+import pandas as pd
+forest_importances = pd.Series(importances, index=feature_names)
+forest_importances = forest_importances.groupby(level=0).first().sort_values(ascending=False)
+# plot the features based on their importance in model performance.
+fig, ax = plt.subplots()
+forest_importances.plot.bar()
+ax.set_title("Feature importances using MDI")
+ax.set_ylabel("Mean decrease in impurity")
+fig.tight_layout()

rfc.pickle ADDED Viewed

Binary file (428 kB). View file