HomePythonДата шинжлэх жишээ

Дата шинжлэх жишээ

Энэхүү нийтлэлээр та бүхэнд Python дээр хэрхэн датаг шинжлэх энгийн аргуудын талаар бэлтгэн хүргэж байна.

Шаардлагатай сангуудыг дуудах

import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt 
import seaborn as sns 
import warnings
import os
warnings.filterwarnings(“ignore”)
plt.style.use(‘fivethirtyeight’)

Data Exploration

Дата оруулах

df = pd.read_csv(‘Mall_Customers.csv’)
df.head()
Датаны хэмжээг (Мөр, баганын тоо) pandas-ын shape аргыг ашиглан харах боломжтой.
df.shape
(200, 5)

describe() ашиглан хувьсагчдын дискрептив статистикийг харъя.

df.describe()
Хувьсагч болон датаны төрлийг харах
df.dtypes

CustomerID int64
Gender object
Age int64
Annual Income (k$) int64
Spending Score (1-100) int64
dtype: object

Орхигдсон утга байгаа эсэхийг шалгах
df.isnull().sum()
CustomerID 0 Gender 0 Age 0 Annual Income (k$) 0 Spending Score (1-100) 0 dtype: int64

Дата визуалчлах

Histogram

plt.figure(figsize = (16,5))

plt.subplot(131)
sns.distplot(df[‘Age’])

plt.subplot(132)
sns.distplot(df[‘Annual Income (k$)’])

plt.subplot(133)
sns.distplot(df[‘Spending Score (1-100)’])

plt.show()

Count Plot

plt.figure(1 , figsize = (15 , 5))
sns.countplot(y = ‘Gender’ , data = df)
plt.show()

Хувьсагчдын хамаарлыг визуалчилъя

plt.figure(1 , figsize = (15 , 7))
n = 0 
for x in [‘Age’ , ‘Annual Income (k$)’ , ‘Spending Score (1-100)’]:
    for y in [‘Age’ , ‘Annual Income (k$)’ , ‘Spending Score (1-100)’]:
        n += 1
        plt.subplot(3 , 3 , n)
        plt.subplots_adjust(hspace = 0.5 , wspace = 0.5)
        sns.regplot(x = x , y = y , data = df)
        plt.ylabel(y.split()[0]+‘ ‘+y.split()[1if len(y.split()) > 1 else y)
plt.show()

Heatmap

plt.figure(1 , figsize = (10 , 8))
heatmap = sns.heatmap(df.iloc[:,1:5].corr(), annot = True, linewidths=.5)
heatmap.set_title(label=‘Heatmap’, fontsize=20)
heatmap

Хуваалцах:

Санал болгох нийтлэлүүд

1. Pandas датафрэймийн мөрөөр хэрхэн давталт хийх вэ? Мөрөөр давталт хийн багана болгоны элементрүү хэрхэн хандах вэ? Хариулт: DataFrame.iterrows ашиглан...
Python хэл Python бол технологийн салбарт хамгийн түгээмэл ашиглагдаж буй программчлалын хэлүүдийн нэг бөгөөд өгөгдлийн шинжлэх ухаан, өгөгдлийн инженерчлэл, хиймэл...
Python-ы нэг давуу тал нь дата анализ хийхэд зориулагдсан маш олон төрлийн сангуудтай бөгөөд үүнээс хамгийн их ашиглагддаг 8 санг...