Pandas импорт хийх
import pandas as pd
# csv файл уншина. pd.read_csv(filename) # Excel файл уншина pd.read_excel(filename) # TSV файл уншина pd.read_table(filename) # SQL table, DB-с уншина pd.read_sql(query, connection_object) # Json файл унших pd.read_json(json_string)
# Датаг csv файл руу бичнэ df.to_csv(filename) # Excel руу бичнэ df.to_excel(filename) # SQL table руу бичнэ df.to_sql(table_name, connection_object) # Json формат руу бичнэ df.to_json(query, connection object)
# Датаны эхний n мөрийг харуулна df.head(n) # Датаны сүүлийн n мөрийг харуулна df.tail(n) # Мөр болон баганын тоог харуулна df.shape # Баганын мэдээлэл, датаны төрлүүдийг харуулна df.info() # Тоон хувьсагчдын хураангуй статистикийг харуулна df.describe() # col1 хувьсагчийн утгуудын тоог харуулна df['col1'].value_counts(dropna = False)
Select хийх
# Датафрэйм-н col баганыг сонгоно df[col] # Датафрэйм-н col1, col2 багануудыг сонгоно df[[col1, col2]] # Датафрэйм-н хамгийн эхний баганын бүх мөрийг сонгоно df.iloc[0, : ] # Датафрэйм-н эхний баганын эхний мөрийг сонгоно df.iloc[0, 0]
Дата цэвэрлэх
# Багануудын нэрийг өөрчлөх df.columns = ['a', 'b', 'c'] # Хоосон мөрүүдийг устгах df.dropna() # Хоосон утга агуулсан багануудыг устгах df.dropna(axis = 1) # Хоосон утгуудыг х-р нөхөх df.fillna(x) # Датаны төрлийг float болгох. s - series s.astype(float) # 1 гэсэн утгыг 'one' утгаар солих. s.replace(1, 'one') # Тухайлсан баганын нэрийг өөрчлөх df.rename(columns = {'old_name' : 'new_name'}) # Тухайлсан баганаар индексийг өөрчлөх df.set_index('column_name')
Filter, Sort & Groupby
# col баганын 0.5-с их утгатай мөрүүдийг шүүнэ df[df[col] > 0.5] # col баганын 0.5-с их, 0.7-с бага утгатай мөрүүдийг шүүнэ df[(df[col] > 0.5) & (df[col] < 0.7)] # col1 - г өсөхөөр эрэмбэлнэ df.sort_values(col1) # col1-г буурахаар эрэмбэлнэ df.sort_values(col1, ascending = False) # col1-р групплэж col2-н дундаж утгуудыг гаргана df.groupby(col1)[col2].mean()
Join, Combine хийх
# df1, df2-г мөрийн дагуу нийлүүлнэ. Баганууд нь ижил байх df1.append(df2) # df1, df2-г баганын дагуу нийлүүлнэ. Мөрүүд ижил байх pd.concat([df1, df2], axis = 1) # df1, df2-г нийлүүлэхдээ col1-н ижил утгаар нийлүүлнэ df1.join(df2, on = col1, how = 'left')
Статистикийн функцүүд
# Тоон хувьсагчдын хувьд хураангуй статистик харуулна. df.describe() # Датафрэймын тоон хувьсагчдийн корреляцын коэффициентыг гаргана df.corr() # Датафрэйм-н бүх багануудын дундаж утгыг харуулна df.mean() # Датафрэйм-н багана бүрийн хамгийн их утгыг гаргана df.max() # Датафрэйм-н багана бүрийн хамгийн бага утгыг гаргана df.min()
Бүртгэлгүй хэрэглэгч? Бүртгүүлэх
Бүртгэлтэй хэрэглэгч? Нэвтрэх