Энэхүү нийтлэлээр та бүхэнд Python дээр хэрхэн датаг шинжлэх энгийн аргуудын талаар бэлтгэн хүргэж байна.
Шаардлагатай сангуудыг дуудах
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
import os
warnings.filterwarnings(“ignore”)
plt.style.use(‘fivethirtyeight’)
Data Exploration
Дата оруулах
df = pd.read_csv(‘Mall_Customers.csv’)
df.head()

Датаны хэмжээг (Мөр, баганын тоо) pandas-ын shape аргыг ашиглан харах боломжтой.
df.shape
—
—
(200, 5)
describe() ашиглан хувьсагчдын дискрептив статистикийг харъя.
df.describe()

Хувьсагч болон датаны төрлийг харах
df.dtypes
—
—
CustomerID int64
Gender object
Age int64
Annual Income (k$) int64
Spending Score (1-100) int64
dtype: object
Орхигдсон утга байгаа эсэхийг шалгах
df.isnull().sum()
—
—
CustomerID 0
Gender 0
Age 0
Annual Income (k$) 0
Spending Score (1-100) 0
dtype: int64
Дата визуалчлах
Histogram
plt.figure(figsize = (16,5))
plt.subplot(1, 3, 1)
sns.distplot(df[‘Age’])
plt.subplot(1, 3, 2)
sns.distplot(df[‘Annual Income (k$)’])
plt.subplot(1, 3, 3)
sns.distplot(df[‘Spending Score (1-100)’])
plt.show()

Count Plot
plt.figure(1 , figsize = (15 , 5))
sns.countplot(y = ‘Gender’ , data = df)
plt.show()

Хувьсагчдын хамаарлыг визуалчилъя
plt.figure(1 , figsize = (15 , 7))
n = 0
for x in [‘Age’ , ‘Annual Income (k$)’ , ‘Spending Score (1-100)’]:
for y in [‘Age’ , ‘Annual Income (k$)’ , ‘Spending Score (1-100)’]:
n += 1
plt.subplot(3 , 3 , n)
plt.subplots_adjust(hspace = 0.5 , wspace = 0.5)
sns.regplot(x = x , y = y , data = df)
plt.ylabel(y.split()[0]+‘ ‘+y.split()[1] if len(y.split()) > 1 else y)
plt.show()

Heatmap
plt.figure(1 , figsize = (10 , 8))
heatmap = sns.heatmap(df.iloc[:,1:5].corr(), annot = True, linewidths=.5)
heatmap.set_title(label=‘Heatmap’, fontsize=20)
heatmap
