Өгөгдлөөс мэдлэг гарган авах аргачлал (KDD)

Дээрх диаграмм нь өгөгдлөөс мэдлэг гарган авах (Knowledge Discovery in Databases, KDD) үндсэн үе шат, дамжлагыг харуулж байна. Өөрөөр хэлбэл, том хэмжээний өгөгдлийг үе шаттайгаар бэлтгэж, боловсруулан, утга агуулга бүхий загвар, дүрэм, хэв маяг (patterns)-ыг илрүүлсний дараа тэдгээрээс бодит үнэлгээтэй мэдлэгийг гарган авах бүтцийг илэрхийлдэг. Энэ процессыг 1996 онд Fayyad болон бусад судлаачид тодорхойлсон бөгөөд өнөөг хүртэл өгөгдлийн шинжилгээ, машин сургалт, хиймэл оюун ухааны үндсэн суурь болж хэрэглэгддэг. Доорх тайлбарт алхам бүрийг дэлгэрүүлэн тайлбарлав.

1. Өгөгдөл (Data)

– Байгууллагын дотоод систем, мэдээллийн сан, эсвэл олон нийтийн нээлттэй эх сурвалжаас цуглуулсан өгөгдөл.
– Энэ өгөгдөл нь анализ хийхэд шаардлагатай тодорхой бүтцэд ороогүй, их хэмжээний задгай өгөгдөл байдаг тул цаашид нарийвчилсан боловсруулалт хийх шаардлагатай болдог.

2. Сонгох (Selection)

– Эх өгөгдөл дотроос зорилгод нийцсэн, шаардлагатай мэдээллийг шигшин сонгох алхам.
– Жишээлбэл, тодорхой хугацааны мэдээлэл, эсвэл шүүлтүүрт нийцсэн багана, мөрүүдийг сонгоно.
– Ингэснээр шаардлагагүй болон давхардсан багануудыг хасч, өгөгдлийн хэмжээг оновчтой болгодог.

3. Боловсруулах (Preprocessing)

– Сонгосон өгөгдлийг цэвэрлэх, нэгэн ижил формат руу шилжүүлэх, алдаатай утгуудыг засах зэрэг урьдчилсан бэлтгэлийг гүйцэтгэнэ.
– Мөн null (утгагүй) мэдээллийг нөхөх, логийн алдаатай бичлэгийг устгах, дутуу утгуудыг засварлах зэрэг шат дараалсан үйлдлүүд орно.
– Энэ шатанд өгөгдлийн чанар болон дотоод хамаарлыг сайжруулахад голлон анхаардаг.

4. Хувиргах (Transformation)

– Цэвэрлэгдсэн өгөгдлийг шинжилгээ, загварчлалд тохиромжтой хэлбэрт хувиргана.
– Жишээлбэл, багануудыг кодлох, логарифмын хэмжээс рүү шилжүүлэх, хэмжигдэхүүний хэмжээг бууруулах (dimensionality reduction) зэрэг үйлдлүүд хамаарна.
– Ингэснээр өгөгдлийг өгөгдөл олборлолт (data mining)-д илүү үр дүнтэй ашиглах боломж бүрдэнэ.

5. Олборлох (Data Mining)

Энэ бол KDD-ийн хамгийн чухал шат бөгөөд статистик, машин сургалт, хиймэл оюун ухаан зэрэг аргуудыг ашиглан өгөгдлөөс загвар, дүрэм, сонирхолтой хэв шинжүүдийг илрүүлдэг.
Ашиглаж болох аргууд:

  • Ангилал (Classification): Өгөгдлийг ангилал, төрөлд хуваах
  • Кластер (Clustering): Ижил төстэй шинжүүдтэй өгөгдлийг бүлэглэх
  • Ассоциацийн дүрэм (Association Rule Mining): Хамт тохиолддог зүйлсийн хамаарлыг олох
  • Регресс (Regression): Утга таамаглах загвар боловсруулах
    – Энэ шатанд олон төрлийн алгоритм туршиж, параметр тохируулан үр дүнг харьцуулна.

6. Дүгнэх / Тайлбарлах (Interpretation/Evaluation)

– Олборлосон загварууд болон илрүүлсэн хэв шинж, дүрмүүдийг дүгнэж, үнэлэх шат.
– Нэгдүгээрт, тэдгээр нь бодит байдалд хэр нийцэж байгааг шалгана.
– Хоёрдугаарт, үр дүнг орчин нөхцөл, бизнес болон судалгааны зорилготой хэрхэн уялдаж буйг тайлбарлаж баталгаажуулна.
– Хэрэв хангалтгүй гэж үзвэл өмнөх алхмууд руу буцан, сайжруулалт хийдэг.

7. Мэдлэг гаргаж авах (Knowledge)

– Эцэст нь, баталгаажсан, үнэлэгдсэн үр дүн буюу бодит хэрэглээнд тохирсон мэдлэгийг гарган авна.
– Энэ мэдлэгийг шийдвэр гаргалт, стратеги төлөвлөлт, үйл ажиллагааны оновчлол, судалгаа болон бусад аналитик зорилгод ашиглах боломжтой.
– Мэдлэг нь хэрэглэх явцдаа улам баяжигдаж, илүү бат бөх болон дараагийн өгөгдлийн шинжилгээнд шинэ санаа, шаардлага үүсгэх суурь болдог.


Дүгнэлт

KDD буюу өгөгдлөөс мэдлэг гарган авах процесс нь ганц удаагийн үйлдэл биш, харин шалгуур бүхий, шат дараатай, харилцан уялдаатай үйл ажиллагааны цогц юм. Энэ диаграмм нь аливаа аналитик, шинжилгээний ажлыг эхлүүлэхээс өмнө өгөгдлийг зөв сонгож, цэвэрлэж, зохистой хэлбэрт хувиргах, дараа нь боловсронгуй арга зүйгээр загвар боловсруулах, эцэст нь үр дүнгээ үнэлж бодлого, стратегид ашиглах хүртэл бүтэн экосистем байдгийг харуулж байна.

Хуваалцах:

Холбоотой нийтлэлүүд

Өгөгдөлд суурилсан шийдвэр гаргалт нь бизнес, шинжлэх ухаан, технологийн салбарт чухал үүрэг гүйцэтгэдэг. Гэсэн хэдий ч, дата анализ хийх явцад...
  • Data Science
    ,
    Зөвлөгөө
  • 2 сар 19, 2025
Бизнес аналитик нь стандарт тайлан, графикаас эхлээд оновчлол, өгөгдлийн уурхай, загварчлал зэрэг илүү нарийн төвөгтэй хэрэгслүүдийг агуулдаг. Бодит байдал дээр...
  • Data Science
  • 11 сар 25, 2024
Deep Learning-д идэвхижүүлэлтийн функцүүд (activation functions) нь нейронуудын гаралтыг өөрчлөх буюу шилжүүлэх замаар нейрон сүлжээний сургалтын чадварыг сайжруулахад ашиглагддаг. Эдгээр...
  • Data Science
  • 8 сар 1, 2024