НүүрData ScienceИх өгөгдлөл (Big Data) гэж юу вэ?

Их өгөгдлөл (Big Data) гэж юу вэ?

Их Өгөгдлийн Гол Ойлголтууд

Их өгөгдөл (Big Data) гэдэг нь уламжлалт өгөгдлийн менежмент системүүдээр боловсруулж, хадгалж, шинжлэх боломжгүй асар их хэмжээтэй, өндөр хурдтай, олон төрлийн өгөгдлийг хэлнэ. Их өгөгдлийг дараах “5V” шинж чанараар тодорхойлдог:

  1. Volume (Хэмжээ): Өгөгдлийн хэмжээ маш их (террабайт, петабайт эсвэл түүнээс дээш).
  2. Velocity (Хурд): Өгөгдлийн үүсэх, боловсрох хурд өндөр (жишээ нь, бодит цагийн өгөгдөл).
  3. Variety (Төрөл): Өгөгдлийн төрөл олон янз (бүтэцлэгдсэн, бүтэцлэгдээгүй, хагас бүтэцлэгдсэн).
  4. Veracity (Үнэн зөв байдал): Өгөгдөл нь үнэн бодитой байдлыг хангаж байх.
  5. Value (Үнэ цэнтэй байдал): Өгөгдлийн тодорхой үнэ цэнтэй байх шинж чанар.

Их өгөгдлийн 5V (Image source: Exelsior)

Жишээ

Жишээ 1: Нийгмийн Сүлжээ

  • Өгөгдлийн хэмжээ: Хэрэглэгчдийн нийтлэл, сэтгэгдэл, зураг, видео гэх мэт олон төрлийн өгөгдөл.
  • Өгөгдлийн хурд: Бодит цагийн шинэчлэлт, шуурхай хариу үйлдэл.
  • Өгөгдлийн төрөл: Текст, зураг, видео, аудио.

Жишээ 2: Интернэт Худалдаа

  • Өгөгдлийн хэмжээ: Худалдан авалтын түүх, бүтээгдэхүүний мэдээлэл, хэрэглэгчдийн тойм.
  • Өгөгдлийн хурд: Захиалгын статусын шинэчлэлт, бодит цагийн борлуулалтын өгөгдөл.
  • Өгөгдлийн төрөл: Текст, тоон өгөгдөл, зураг.

Ашиглагддаг Технологиуд

1. Hadoop

  • Тодорхойлолт: Их өгөгдлийг хадгалах, боловсруулах зориулалттай, нээлттэй эхийн программ хангамж.
  • Гол бүрэлдэхүүн хэсгүүд:
  • HDFS (Hadoop Distributed File System): Хуваарилагдсан файл систем.
  • MapReduce: Өгөгдлийг хуваах, боловсруулах программчлалын загвар.
# Hadoop-ийг ажиллуулах жишээ (pseudo-distributed mode)
$ start-dfs.sh
$ start-yarn.sh

2. Spark

  • Тодорхойлолт: Hadoop дээр суурилсан, их өгөгдлийг боловсруулдаг хурдан, нээлттэй эхийн программ хангамж.
  • Давуу тал: In-memory (санах ойд) өгөгдлийг боловсруулах, өндөр хурдтай ажиллах.
from pyspark import SparkContext
sc = SparkContext("local", "Simple App")

data = [1, 2, 3, 4, 5]
distData = sc.parallelize(data)
print(distData.reduce(lambda a, b: a + b))

3. NoSQL

  • Тодорхойлолт: Уламжлалт RDBMS (relational database management systems)-ээс ялгаатай, өгөгдлийг уян хатан, хурдан боловсруулах боломжтой мэдээллийн сангийн системүүд.
  • Жишээ:
  • MongoDB: Документ суурьтай мэдээллийн сан.
  • Cassandra: Хуваарилагдсан мэдээллийн сан.
# MongoDB ашиглах жишээ
from pymongo import MongoClient

client = MongoClient('localhost', 27017)
db = client.mydatabase
collection = db.mycollection

# Баримт нэмэх
collection.insert_one({"name": "Alice", "age": 30})

# Баримт хайх
for person in collection.find({"age": {"$gte": 25}}):
    print(person)

4. Data Processing Tools

  • Apache Kafka: Өгөгдлийн урсгалыг бодит цагт боловсруулах систем.
  • Apache Flink: Бодит цагийн болон багц өгөгдлийг боловсруулах.
# Kafka ашиглах жишээ (producer)
from kafka import KafkaProducer

producer = KafkaProducer(bootstrap_servers='localhost:9092')
producer.send('my-topic', b'Hello, Kafka!')
producer.close()

Дүгнэлт

Их өгөгдөл нь асар их хэмжээтэй, өндөр хурдтай, олон төрлийн өгөгдлийг багтаасан мэдээллийг удирдах, шинжлэх үйл явц юм. Үүнийг хэрэгжүүлэхэд зориулсан Hadoop, Spark, NoSQL, Kafka зэрэг олон төрлийн технологиуд ашиглагддаг. Эдгээр технологиуд нь их өгөгдлийг хурдан, уян хатан, үр дүнтэй боловсруулах боломжийг олгодог.


Эх сурвалж

Hadoop:

Spark:

NoSQL:

Data Processing Tools:

Big Data Concepts:

  • Manyika, J., et al. (2011). “Big data: The next frontier for innovation, competition, and productivity.” McKinsey Global Institute.
  • Marr, B. (2016). “Big Data: Using SMART Big Data, Analytics and Metrics To Make Better Decisions and Improve Performance.” Wiley.

Хуваалцах:

Холбоотой нийтлэлүүд

Бизнес аналитик нь стандарт тайлан, графикаас эхлээд оновчлол, өгөгдлийн уурхай, загварчлал зэрэг илүү нарийн төвөгтэй хэрэгслүүдийг агуулдаг. Бодит байдал дээр...
  • Data Science
  • 11 сар 25, 2024
Deep Learning-д идэвхижүүлэлтийн функцүүд (activation functions) нь нейронуудын гаралтыг өөрчлөх буюу шилжүүлэх замаар нейрон сүлжээний сургалтын чадварыг сайжруулахад ашиглагддаг. Эдгээр...
  • Data Science
  • 8 сар 1, 2024
CRISP-DM (Cross-Industry Standard Process for Data Mining) нь өгөгдөл олборлолтын төслийн хэрэгжилтэд өргөн хэрэглэгддэг аргачлал юм. Энэхүү аргачлал нь өгөгдлийн...
  • Data Science
  • 7 сар 17, 2024
error: