ETL / ELT – Data Engineering

Байгууллагуудад борлуулалт, хэрэглэгчийн зан төлөв, веб сайтын хэрэглээ, IoT төхөөрөмжүүд, санхүүгийн систем гэх мэт олон эх сурвалжаас өгөгдөл тасралтгүй урсаж байдаг. Гэхдээ энэ өгөгдөл ихэнхдээ өөр өөр форматтай, өөр өөр системд байрласан, шууд анализ хийхэд тохиромжгүй байдаг.

Ийм нөхцөлд Data Engineering-ийн хамгийн чухал үүрэг бол өгөгдлийг цуглуулах, цэвэрлэх, нэгтгэх, анализ хийхэд бэлэн болгох юм. Энэ процессыг ихэвчлэн ETL болон ELT архитектурын тусламжтайгаар хийдэг.

ETL гэж юу вэ?

ETL гэдэг нь дараах 3 үе шаттай өгөгдлийн боловсруулалтын pipeline юм.

E – Extract (Өгөгдөл татах)
T – Transform (Өгөгдөл боловсруулах)
L – Load (Өгөгдлийг агуулахад хадгалах)

Энэ процесс нь олон төрлийн эх сурвалжаас өгөгдөл авч, түүнийг цэвэрлэж боловсруулаад Data Warehouse эсвэл Analytics system рүү оруулдаг.

ETL процессийн үндсэн алхмууд

1. Extract

Эх сурвалжууд:

  • Database (MySQL, PostgreSQL)
  • CSV / Excel файлууд
  • API
  • Web logs
  • SaaS системүүд (Salesforce, Google Analytics)

Жишээ Python код:

import pandas as pd

# CSV файлаас өгөгдөл татах
data = pd.read_csv("sales_data.csv")

print(data.head())

Энэ алхамд өгөгдлийг анхны эх сурвалжаас татаж pipeline руу оруулдаг.

2. Transform

Transform үе шатанд өгөгдлийг цэвэрлэж, форматлаж, бизнесийн логик ашиглан боловсруулна.

Жишээ:

  • Missing value нөхөх
  • Огноо форматлах
  • Шинэ feature үүсгэх
  • Duplicate устгах

Python жишээ:

# missing value нөхөх
data['sales'] = data['sales'].fillna(0)

# шинэ column үүсгэх
data['total_price'] = data['quantity'] * data['price']

# duplicate мөрүүд устгах
data = data.drop_duplicates()

Энэ алхам нь data quality-г сайжруулдаг.

3. Load

Сүүлийн алхамд боловсруулсан өгөгдлийг data warehouse эсвэл database руу хадгална.

Python жишээ:

from sqlalchemy import create_engine

engine = create_engine("postgresql://user:password@localhost:5432/datawarehouse")

data.to_sql("sales_cleaned", engine, if_exists="replace", index=False)

Ингэснээр өгөгдөл BI хэрэгслүүд (Power BI, Tableau) болон Machine Learning model-д ашиглахад бэлэн болно.

ELT гэж юу вэ?

Сүүлийн жилүүдэд cloud data warehouse хөгжсөнөөр ELT архитектур илүү өргөн хэрэглэгдэж байна.

ELT = Extract → Load → Transform

Өөрөөр хэлбэл:

  1. Extract – өгөгдөл татна
  2. Load – raw data-г warehouse руу шууд хадгална
  3. Transform – warehouse дотор SQL ашиглан боловсруулна

Жишээ: Snowflake, BigQuery, Databricks, dbt (Data Build Tool).

Python ашиглан raw data load хийх жишээ:

import pandas as pd

data = pd.read_csv("sales_data.csv")

# Raw data warehouse-д шууд хадгалах
data.to_csv("raw_sales_data.csv", index=False)

Warehouse дотор transformation хийх SQL:

SELECT
    quantity,
    price,
    quantity * price AS total_price
FROM raw_sales_data;

ETL ба ELT ялгаа

Шинж чанарETLELT
Transform хийх газарPipeline дээрData warehouse дээр
PerformanceДундМаш өндөр (cloud compute ашиглана)
StorageЦэвэр data хадгалнаRaw data хадгална
Орчин үеийн хэрэглээLegacy системCloud architecture

Data Engineering-д ETL/ELT яагаад чухал вэ?

ETL/ELT pipeline нь data infrastructure-ийн үндсэн суурь юм.

1. Data integration

Олон эх сурвалжийг нэгтгэнэ.

Жишээ:

  • CRM
  • Web analytics
  • Payment system
  • ERP

2. Data quality сайжруулна

Transform алхам нь:

  • алдаатай data
  • missing value
  • inconsistent format

зэргийг засдаг.

3. Analytics ба BI боломжийг бий болгоно

ETL/ELT pipeline байхгүй бол:

  • dashboard
  • machine learning
  • forecasting

хийх боломж хязгаарлагдана.

4. Automation

Data engineering pipeline-ууд ихэвчлэн automation ашигладаг.

Жишээ хэрэгслүүд:

  • Airflow
  • Prefect
  • ClearML pipeline

Pipeline-ийг өдөр бүр автоматаар ажиллуулж болно.

Python pipeline жишээ:

def etl_pipeline():
    
    data = extract()
    data = transform(data)
    load(data)

etl_pipeline()

Нэгтгэн дүгнэвэл ETL болон ELT нь Data Engineering-ийн суурь ойлголтуудын нэг юм. Эдгээр pipeline-ууд нь олон төрлийн эх сурвалжаас ирсэн өгөгдлийг нэгтгэж, цэвэрлэж, аналитик болон machine learning-д ашиглах боломжтой болгодог.

Дашрамд дурдахад Дэлхийн Эдийн Засгийн Форумын 2030 он хүртэл хамгийн эрэлттэй байх ТОП-20 мэргэжлийн жагсаалтыг их өгөгдөлтэй ажилладаг, өгөгдлийн дэд бүтцийг зөв зохион байгуулалттай хөгжүүлдэг дата инженерүүд тэргүүлж байна.

“Дата Инженер” танхимын сургалтын мэдээлэл авах бол энд дарна уу.

Холбоотой нийтлэлүүд

Өгөгдөлд суурилсан шийдвэр гаргах (data-driven decision making) нь орчин үеийн байгууллагын стратегийн гол хэсэг болж байна. Гэхдээ бизнесийн системүүдэд байгаа...
  • Data Engineering
  • 3 сар 16, 2026
Өгөгдлийн сангийн зөв сонголт нь өгөгдлийн шинжлэх ухаан болон програм хөгжүүлэлтэд маш чухал. Энэ нь гүйцэтгэл, өргөтгөх чадвар, өгөгдлийг боловсруулах...
  • Data Engineering
  • 12 сар 5, 2025
Өгөгдлийн сан (Database) гэдэг нь бүтцийн хувьд зохион байгуулалттай, харилцан хамаарал бүхий өгөгдлийг хадгалан, удирдах систем юм. SQL (Structured Query...
  • Data Engineering
  • 7 сар 30, 2025