CRISP-DM (Cross-Industry Standard Process for Data Mining) нь өгөгдөл олборлолтын төслийн хэрэгжилтэд өргөн хэрэглэгддэг аргачлал юм. Энэхүү аргачлал нь өгөгдлийн олборлолт, шинжилгээ хийхэд хэрэглэгддэг системчилсэн арга зүйг санал болгодог. CRISP-DM нь дараах зургаан үе шаттай:
1. Бизнесийг ойлгох (Business Understanding)
Энэ шатанд төслийн бизнесийн зорилго, шаардлагыг тодорхойлж, өгөгдлийн олборлолтын төслийн зорилгыг тодорхой болгоно.
- Бизнесийн Зорилго Тодорхойлох: Төслийн эцсийн зорилгыг тодорхойлох.
- Одоогийн Нөхцөл Байдлыг Судлах: Одоогийн асуудал, нөхцөл байдлыг үнэлэх.
- Өгөгдлийн Олборлолтын Зорилго Тодорхойлох: Өгөгдлийн олборлолтын тодорхой зорилгуудыг тодорхойлох.
- Төлөвлөгөө Боломжийг Үнэлэх: Төслийн цар хүрээ, бололцоог үнэлэх.
2. Өгөгдлийг ойлгох (Data Understanding)
Энэ шатанд өгөгдлийг цуглуулах, түүний чанар, бүтэц, шинж чанарыг ойлгох.
- Өгөгдөл Цуглуулах: Шаардлагатай өгөгдлүүдийг цуглуулах.
- Өгөгдлийн Тойм Гаргах: Өгөгдлийн ерөнхий ойлголт авах.
- Өгөгдлийн Чанар Шалгах: Өгөгдлийн чанар, бүрэн бүтэн байдал, найдвартай байдлыг шалгах.
- Өгөгдлийн Шинжилгээ: Өгөгдлийн ерөнхий шинж чанаруудыг тодорхойлох, анализ хийх.
3. Өгөгдлийн бэлтгэл (Data Preparation)
Энэ шатанд өгөгдлийг анализ хийхэд бэлдэх үйл явцыг гүйцэтгэнэ. Энэ нь өгөгдлийн цэвэрлэгээ, хөрвүүлэлт, сонголт зэрэг үйл ажиллагааг багтаана.
- Өгөгдлийн Сонголт: Анализ хийхэд шаардлагатай өгөгдлүүдийг сонгох.
- Өгөгдлийн Цэвэрлэгээ: Өгөгдлийн чанарыг сайжруулах, алдаатай өгөгдлүүдийг засах.
- Өгөгдлийн Хөрвүүлэлт: Өгөгдлийг нэгтгэх, өөрчлөх.
- Шинж Чанар Үүсгэх: Шинэ хувьсагч, шинж чанар үүсгэх.
- Өгөгдлийн Нэгдэл: Олон төрлийн эх үүсвэрээс өгөгдлийг нэгтгэх.
4. Загварчлал (Modeling)
Энэ шатанд өгөгдлийн загварчлал хийх, өгөгдлийн загварын төрлүүдийг сонгох, тэдгээрийг шалгаж, оновчтой болгох үйл явцыг гүйцэтгэнэ.
- Загварын Төрлүүдийг Сонгох: Тухайн өгөгдөлд тохирсон загварын төрлийг сонгох.
- Туршилтын Загвар Барих: Сонгосон загвараар туршилтын загвар барих.
- Загварын Үр Дүнг Шалгах: Туршилтын загварын үр дүнг шалгах.
- Загварыг Оновчтой болгох: Загварыг сайжруулах, оновчтой болгох.
5. Үнэлгээ (Evaluation)
Энэ шатанд загварын үр дүнг бизнесийн зорилготой нийцэж буй эсэхийг үнэлэх, баталгаажуулах үйл явцыг гүйцэтгэнэ.
- Загварын Үр Дүнг Үнэлэх: Загварын үр дүнг шалгаж, бизнесийн шаардлагад нийцэж байгаа эсэхийг үнэлэх.
- Загварын Үр Дүнг Шалгах: Загварын үр дүнг шалгах, баталгаажуулах.
- Төслийн Үр Дүнг Бизнесийн Зорилготой Нийцүүлэх: Загварын үр дүн бизнесийн зорилготой нийцэж байгаа эсэхийг шалгах.
- Дараагийн Алхамыг Тодорхойлох: Төслийн дараагийн алхам, үр дүнг тодорхойлох.
6. Хэрэгжүүлэлт (Deployment)
Энэ шатанд шинжилгээний үр дүнг бизнесийн үйл ажиллагаанд хэрэгжүүлэх үйл явцыг гүйцэтгэнэ.
- Хэрэгжүүлэх Төлөвлөгөө Гарах: Шинжилгээний үр дүнг хэрэгжүүлэх төлөвлөгөө гаргах.
- Системд Хэрэгжүүлэх: Шинжилгээний үр дүнг системд хэрэгжүүлэх.
- Хэрэгжүүлэлтийн Үр Дүнг Шалгах: Хэрэгжүүлэлтийн үр дүнг шалгах, үнэлэх.
- Төслийн Үр Дүнг Тайлагнах: Төслийн үр дүнг эцсийн тайлангаар баталгаажуулах.
Дүгнэлт
CRISP-DM нь өгөгдлийн олборлолт, шинжилгээ хийхэд ашиглагдах үндсэн арга зүй бөгөөд энэ нь өгөгдлийн шинжилгээний төслийн бүх үе шатанд нэгдсэн бүтэц, арга зүйг санал болгодог. Энэхүү арга зүй нь бизнесийн зорилгоос өгөгдөл, загварчлал, үнэлгээ, хэрэгжүүлэлт хүртэлх бүхий л үйл явцыг хамардаг.
Эх сурвалж
- CRISP-DM 1.0: Step-by-step data mining guide: CRISP-DM 1.0 Document
- IBM Knowledge Center – CRISP-DM Overview
- What is CRISP-DM?