ETL / ELT - Data Engineering

Байгууллагуудад борлуулалт, хэрэглэгчийн зан төлөв, веб сайтын хэрэглээ, IoT төхөөрөмжүүд, санхүүгийн систем гэх мэт олон эх сурвалжаас өгөгдөл тасралтгүй урсаж байдаг. Гэхдээ энэ өгөгдөл ихэнхдээ өөр өөр форматтай, өөр өөр системд байрласан, шууд анализ хийхэд тохиромжгүй байдаг.

Ийм нөхцөлд Data Engineering-ийн хамгийн чухал үүрэг бол өгөгдлийг цуглуулах, цэвэрлэх, нэгтгэх, анализ хийхэд бэлэн болгох юм. Энэ процессыг ихэвчлэн ETL болон ELT архитектурын тусламжтайгаар хийдэг.

ETL гэж юу вэ?

ETL гэдэг нь дараах 3 үе шаттай өгөгдлийн боловсруулалтын pipeline юм.

E – Extract (Өгөгдөл татах)
T – Transform (Өгөгдөл боловсруулах)
L – Load (Өгөгдлийг агуулахад хадгалах)

Энэ процесс нь олон төрлийн эх сурвалжаас өгөгдөл авч, түүнийг цэвэрлэж боловсруулаад Data Warehouse эсвэл Analytics system рүү оруулдаг.

ETL процессийн үндсэн алхмууд

1. Extract

Эх сурвалжууд:

Database (MySQL, PostgreSQL)
CSV / Excel файлууд
API
Web logs
SaaS системүүд (Salesforce, Google Analytics)

Жишээ Python код:

import pandas as pd

# CSV файлаас өгөгдөл татах
data = pd.read_csv("sales_data.csv")

print(data.head())

import pandas as pd

# CSV файлаас өгөгдөл татах
data = pd.read_csv("sales_data.csv")

print(data.head())

Энэ алхамд өгөгдлийг анхны эх сурвалжаас татаж pipeline руу оруулдаг.

2. Transform

Transform үе шатанд өгөгдлийг цэвэрлэж, форматлаж, бизнесийн логик ашиглан боловсруулна.

Жишээ:

Missing value нөхөх
Огноо форматлах
Шинэ feature үүсгэх
Duplicate устгах

Python жишээ:

# missing value нөхөх
data['sales'] = data['sales'].fillna(0)

# шинэ column үүсгэх
data['total_price'] = data['quantity'] * data['price']

# duplicate мөрүүд устгах
data = data.drop_duplicates()

# missing value нөхөх
data['sales'] = data['sales'].fillna(0)

# шинэ column үүсгэх
data['total_price'] = data['quantity'] * data['price']

# duplicate мөрүүд устгах
data = data.drop_duplicates()

Энэ алхам нь data quality-г сайжруулдаг.

3. Load

Сүүлийн алхамд боловсруулсан өгөгдлийг data warehouse эсвэл database руу хадгална.

Python жишээ:

from sqlalchemy import create_engine

engine = create_engine("postgresql://user:password@localhost:5432/datawarehouse")

data.to_sql("sales_cleaned", engine, if_exists="replace", index=False)

from sqlalchemy import create_engine

engine = create_engine("postgresql://user:password@localhost:5432/datawarehouse")

data.to_sql("sales_cleaned", engine, if_exists="replace", index=False)

Ингэснээр өгөгдөл BI хэрэгслүүд (Power BI, Tableau) болон Machine Learning model-д ашиглахад бэлэн болно.

ELT гэж юу вэ?

Сүүлийн жилүүдэд cloud data warehouse хөгжсөнөөр ELT архитектур илүү өргөн хэрэглэгдэж байна.

ELT = Extract → Load → Transform

Өөрөөр хэлбэл:

Extract – өгөгдөл татна
Load – raw data-г warehouse руу шууд хадгална
Transform – warehouse дотор SQL ашиглан боловсруулна

Жишээ: Snowflake, BigQuery, Databricks, dbt (Data Build Tool).

Python ашиглан raw data load хийх жишээ:

import pandas as pd

data = pd.read_csv("sales_data.csv")

# Raw data warehouse-д шууд хадгалах
data.to_csv("raw_sales_data.csv", index=False)

import pandas as pd

data = pd.read_csv("sales_data.csv")

# Raw data warehouse-д шууд хадгалах
data.to_csv("raw_sales_data.csv", index=False)

Warehouse дотор transformation хийх SQL:

SELECT
    quantity,
    price,
    quantity * price AS total_price
FROM raw_sales_data;

SELECT
    quantity,
    price,
    quantity * price AS total_price
FROM raw_sales_data;

ETL ба ELT ялгаа

Шинж чанар	ETL	ELT
Transform хийх газар	Pipeline дээр	Data warehouse дээр
Performance	Дунд	Маш өндөр (cloud compute ашиглана)
Storage	Цэвэр data хадгална	Raw data хадгална
Орчин үеийн хэрэглээ	Legacy систем	Cloud architecture

Data Engineering-д ETL/ELT яагаад чухал вэ?

ETL/ELT pipeline нь data infrastructure-ийн үндсэн суурь юм.

1. Data integration

Олон эх сурвалжийг нэгтгэнэ.

Жишээ:

CRM
Web analytics
Payment system
ERP

2. Data quality сайжруулна

Transform алхам нь:

алдаатай data
missing value
inconsistent format

зэргийг засдаг.

3. Analytics ба BI боломжийг бий болгоно

ETL/ELT pipeline байхгүй бол:

dashboard
machine learning
forecasting

хийх боломж хязгаарлагдана.

4. Automation

Data engineering pipeline-ууд ихэвчлэн automation ашигладаг.

Жишээ хэрэгслүүд:

Airflow
Prefect
ClearML pipeline

Pipeline-ийг өдөр бүр автоматаар ажиллуулж болно.

Python pipeline жишээ:

def etl_pipeline():
    
    data = extract()
    data = transform(data)
    load(data)

etl_pipeline()

def etl_pipeline():
    
    data = extract()
    data = transform(data)
    load(data)

etl_pipeline()

Нэгтгэн дүгнэвэл ETL болон ELT нь Data Engineering-ийн суурь ойлголтуудын нэг юм. Эдгээр pipeline-ууд нь олон төрлийн эх сурвалжаас ирсэн өгөгдлийг нэгтгэж, цэвэрлэж, аналитик болон machine learning-д ашиглах боломжтой болгодог.

Дашрамд дурдахад Дэлхийн Эдийн Засгийн Форумын 2030 он хүртэл хамгийн эрэлттэй байх ТОП-20 мэргэжлийн жагсаалтыг их өгөгдөлтэй ажилладаг, өгөгдлийн дэд бүтцийг зөв зохион байгуулалттай хөгжүүлдэг дата инженерүүд тэргүүлж байна.

“Дата Инженер” танхимын сургалтын мэдээлэл авах бол энд дарна уу.

Эрэлттэй сургалтууд

ETL / ELT – Data Engineering

ETL гэж юу вэ?

ETL процессийн үндсэн алхмууд

ELT гэж юу вэ?

ETL ба ELT ялгаа

Data Engineering-д ETL/ELT яагаад чухал вэ?

1. Data integration

2. Data quality сайжруулна

3. Analytics ба BI боломжийг бий болгоно

4. Automation

Data School Аппликэйшн

ETL гэж юу вэ?

ETL процессийн үндсэн алхмууд

ELT гэж юу вэ?

ETL ба ELT ялгаа

Data Engineering-д ETL/ELT яагаад чухал вэ?

1. Data integration

2. Data quality сайжруулна

3. Analytics ба BI боломжийг бий болгоно

4. Automation

Бусад нийтлэлүүд

Fact ба Dimension Table гэж юу вэ? (Data Warehouse-ийн үндсэн ойлголт)

SQL ба NoSQL-ийн ялгаа

Өгөгдлийн сангийн төрлүүд

Data School Аппликэйшн