НүүрData ScienceӨгөгдөл ба түүний төрлүүд

Өгөгдөл ба түүний төрлүүд

Өгөгдөл гэж юу вэ?

Өгөгдөл гэдэг нь мэдээлэл, тоон утга, баримтуудын цуглуулга юм. Энэ нь тодорхой нэг зорилгоор хадгалагдаж, боловсруулагддаг бөгөөд компьютерийн системд оруулж, гаргаж болдог. Өгөгдөл нь төрөл бүрийн хэлбэртэй байж болно: тоо, текст, зураг, дуу, видео гэх мэт.

Бүтэцлэгдсэн өгөгдөл

Бүтэцлэгдсэн өгөгдөл нь тодорхой нэг бүтэц, форматтай байдаг. Энэ нь өгөгдлийн сан, хүснэгт зэрэгт хадгалагдах өгөгдөл юм. Бүтэцлэгдсэн өгөгдөл нь нягт бүтэцтэй тул боловсруулах, хайлт хийхэд хялбар байдаг. Жишээ нь:

  • Өгөгдлийн сан: SQL (Structured Query Language) ашиглан мэдээлэл хадгалах, боловсруулах.
  • CSV (Comma Separated Values) файл: Таслалаар тусгаарласан утгуудтай хүснэгтэн өгөгдөл. Excel файлаас ялгагдах ялгаа нь CSV нь ямар нэгэн формат (үсгийн фонт, хэмжээ, өнгө гэх мэт) байхгүй зөвхөн таслалаар тусгаарлагдсан мөр, багана бүтэцтэйгээр өгөгдлийг хадгалдаг.

Онцлог шинж чанарууд:

  • Тодорхой схемтэй байдаг.
  • Өгөгдлийн сангийн хүснэгтэд багана, мөрөөр ангилагдана.
  • Хайлтын үр дүн хурдан гардаг.

Бүтэцлэгдээгүй өгөгдөл

Бүтэцлэгдээгүй өгөгдөл нь тодорхой бүтэцгүй, хязгааргүй хэлбэрийн өгөгдөл юм. Энэ нь файл эсвэл объект хэлбэрээр хадгалагддаг бөгөөд ихэвчлэн текст, зураг, видео, аудио зэрэг мэдээллүүд багтана. Бүтэцлэгдээгүй өгөгдлийг боловсруулах, ангилах нь бүтэцтэй өгөгдлөөс илүү хэцүү байдаг. Жишээ нь:

  • Текст файл: Бүх төрлийн текст бичвэр.
  • Мэдээллийн блог: Вэб хуудас, мэдээний сайт зэрэг.

Онцлог шинж чанарууд:

  • Тодорхой схемгүй, бүтэцгүй байдаг.
  • Хадгалах болон боловсруулахад их хэмжээний багтаамж шаарддаг.
  • Анализ хийхэд нарийн алгоритм, программ хэрэгтэй.

Хагас бүтэцлэгдсэн өгөгдөл

Хагас бүтэцлэгдсэн өгөгдөл нь тодорхой хэмжээний бүтэцтэй ч, бүхэлдээ тогтсон схемгүй өгөгдөл юм. Энэ нь XML, JSON зэрэг тэмдэглэгээ хэлбэртэй мэдээллүүд багтана. Хагас бүтэцлэгдсэн өгөгдөл нь мэдээллийг зохион байгуулж, боловсруулахад хялбар болгосон ч, бүтэц нь тийм ч хатуу биш байдаг. Жишээ нь:

  • XML файл: Өгөгдлийг тагуудаар тусгаарлаж, зохион байгуулсан хэлбэр.
  • JSON файл: JavaScript Object Notation хэлбэрээр хадгалагдсан өгөгдөл.

Онцлог шинж чанарууд:

  • Зарим бүтэцтэй, зарим бүтэцгүй элементүүд агуулдаг.
  • Уян хатан, олон төрлийн өгөгдөл хадгалах боломжтой.
  • Маш их хэмжээний өгөгдөл хадгалах боломжтой.
Cardoso, Jorge. (2005)

Дүгнэлт

Өгөгдөл нь мэдээллийн үндсэн нэгж бөгөөд бүтэцтэй, бүтэцгүй, хагас бүтэцтэй гэж ангилагдана. Бүтэцлэгдсэн өгөгдөл нь тодорхой нэг форматаар хадгалагддаг тул боловсруулахад хялбар байдаг бол бүтэцлэгдээгүй өгөгдөл нь олон төрлийн хэлбэрээр оршдог тул анализ хийхэд төвөгтэй байдаг. Харин хагас бүтэцлэгдсэн өгөгдөл нь эдгээрийн дундаж байж, тодорхой зохион байгуулалттай ч, уян хатан байдаг. Өгөгдлийг зөв ангилах, боловсруулах нь мэдээлэлд суурилсан шийдвэр гаргах, анализ хийхэд чухал үүрэгтэй.


Эх сурвалж:

Cardoso, Jorge. (2005). Developing Dynamic Packaging Applications Using Semantic Web-Based Integration. 10.4018/978-1-59904-192-6.ch001.

Хуваалцах:

Холбоотой нийтлэлүүд

CRISP-DM (Cross-Industry Standard Process for Data Mining) нь өгөгдөл олборлолтын төслийн хэрэгжилтэд өргөн хэрэглэгддэг аргачлал юм. Энэхүү аргачлал нь өгөгдлийн...
Version Control гэж юу вэ? Version Control (Хувилбарын Хяналт) нь програм хангамжийн хөгжүүлэлтийн үед файлуудын өөрчлөлтийг хянах, удирдах систем юм....
Мэдрэлийн сүлжээ (Neural Networks) нь хиймэл оюуны (AI) нэгэн төрлийн загвар бөгөөд өгөгдлийг шинжилж, сургалтаар дамжуулан олон төрлийн даалгаврыг гүйцэтгэх...
error: