Байгууллагуудад борлуулалт, хэрэглэгчийн зан төлөв, веб сайтын хэрэглээ, IoT төхөөрөмжүүд, санхүүгийн систем гэх мэт олон эх сурвалжаас өгөгдөл тасралтгүй урсаж байдаг. Гэхдээ энэ өгөгдөл ихэнхдээ өөр өөр форматтай, өөр өөр системд байрласан, шууд анализ хийхэд тохиромжгүй байдаг.
Ийм нөхцөлд Data Engineering-ийн хамгийн чухал үүрэг бол өгөгдлийг цуглуулах, цэвэрлэх, нэгтгэх, анализ хийхэд бэлэн болгох юм. Энэ процессыг ихэвчлэн ETL болон ELT архитектурын тусламжтайгаар хийдэг.
ETL гэж юу вэ?
ETL гэдэг нь дараах 3 үе шаттай өгөгдлийн боловсруулалтын pipeline юм.
E – Extract (Өгөгдөл татах)
T – Transform (Өгөгдөл боловсруулах)
L – Load (Өгөгдлийг агуулахад хадгалах)
Энэ процесс нь олон төрлийн эх сурвалжаас өгөгдөл авч, түүнийг цэвэрлэж боловсруулаад Data Warehouse эсвэл Analytics system рүү оруулдаг.
ETL процессийн үндсэн алхмууд
1. Extract
Эх сурвалжууд:
- Database (MySQL, PostgreSQL)
- CSV / Excel файлууд
- API
- Web logs
- SaaS системүүд (Salesforce, Google Analytics)
Жишээ Python код:
import pandas as pd
# CSV файлаас өгөгдөл татах
data = pd.read_csv("sales_data.csv")
print(data.head())
Энэ алхамд өгөгдлийг анхны эх сурвалжаас татаж pipeline руу оруулдаг.
2. Transform
Transform үе шатанд өгөгдлийг цэвэрлэж, форматлаж, бизнесийн логик ашиглан боловсруулна.
Жишээ:
- Missing value нөхөх
- Огноо форматлах
- Шинэ feature үүсгэх
- Duplicate устгах
Python жишээ:
# missing value нөхөх
data['sales'] = data['sales'].fillna(0)
# шинэ column үүсгэх
data['total_price'] = data['quantity'] * data['price']
# duplicate мөрүүд устгах
data = data.drop_duplicates()
Энэ алхам нь data quality-г сайжруулдаг.
3. Load
Сүүлийн алхамд боловсруулсан өгөгдлийг data warehouse эсвэл database руу хадгална.
Python жишээ:
from sqlalchemy import create_engine
engine = create_engine("postgresql://user:password@localhost:5432/datawarehouse")
data.to_sql("sales_cleaned", engine, if_exists="replace", index=False)
Ингэснээр өгөгдөл BI хэрэгслүүд (Power BI, Tableau) болон Machine Learning model-д ашиглахад бэлэн болно.
ELT гэж юу вэ?
Сүүлийн жилүүдэд cloud data warehouse хөгжсөнөөр ELT архитектур илүү өргөн хэрэглэгдэж байна.
ELT = Extract → Load → Transform
Өөрөөр хэлбэл:
- Extract – өгөгдөл татна
- Load – raw data-г warehouse руу шууд хадгална
- Transform – warehouse дотор SQL ашиглан боловсруулна
Жишээ: Snowflake, BigQuery, Databricks, dbt (Data Build Tool).
Python ашиглан raw data load хийх жишээ:
import pandas as pd
data = pd.read_csv("sales_data.csv")
# Raw data warehouse-д шууд хадгалах
data.to_csv("raw_sales_data.csv", index=False)
Warehouse дотор transformation хийх SQL:
SELECT
quantity,
price,
quantity * price AS total_price
FROM raw_sales_data;
ETL ба ELT ялгаа
| Шинж чанар | ETL | ELT |
|---|---|---|
| Transform хийх газар | Pipeline дээр | Data warehouse дээр |
| Performance | Дунд | Маш өндөр (cloud compute ашиглана) |
| Storage | Цэвэр data хадгална | Raw data хадгална |
| Орчин үеийн хэрэглээ | Legacy систем | Cloud architecture |
Data Engineering-д ETL/ELT яагаад чухал вэ?
ETL/ELT pipeline нь data infrastructure-ийн үндсэн суурь юм.
1. Data integration
Олон эх сурвалжийг нэгтгэнэ.
Жишээ:
- CRM
- Web analytics
- Payment system
- ERP
2. Data quality сайжруулна
Transform алхам нь:
- алдаатай data
- missing value
- inconsistent format
зэргийг засдаг.
3. Analytics ба BI боломжийг бий болгоно
ETL/ELT pipeline байхгүй бол:
- dashboard
- machine learning
- forecasting
хийх боломж хязгаарлагдана.
4. Automation
Data engineering pipeline-ууд ихэвчлэн automation ашигладаг.
Жишээ хэрэгслүүд:
- Airflow
- Prefect
- ClearML pipeline
Pipeline-ийг өдөр бүр автоматаар ажиллуулж болно.
Python pipeline жишээ:
def etl_pipeline():
data = extract()
data = transform(data)
load(data)
etl_pipeline()Нэгтгэн дүгнэвэл ETL болон ELT нь Data Engineering-ийн суурь ойлголтуудын нэг юм. Эдгээр pipeline-ууд нь олон төрлийн эх сурвалжаас ирсэн өгөгдлийг нэгтгэж, цэвэрлэж, аналитик болон machine learning-д ашиглах боломжтой болгодог.
Дашрамд дурдахад Дэлхийн Эдийн Засгийн Форумын 2030 он хүртэл хамгийн эрэлттэй байх ТОП-20 мэргэжлийн жагсаалтыг их өгөгдөлтэй ажилладаг, өгөгдлийн дэд бүтцийг зөв зохион байгуулалттай хөгжүүлдэг дата инженерүүд тэргүүлж байна.

“Дата Инженер” танхимын сургалтын мэдээлэл авах бол энд дарна уу.