DeepSeek-R1: Том хэмжээний хэлний загваруудын логик сэтгэлгээг хүч нэмэгдүүлсэн сургалт ашиглан хөгжүүлэх нь

DeepSeek компани DeepSeek-R1 загвараа зарласнаар логик сэтгэлгээ шаардсан даалгаварт зориулсан хиймэл оюуны хөгжүүлэлтийн өрсөлдөөнд хүчтэй өрсөлдөгч болж байна. Энэ нь өмнөх DeepSeek-R1-Lite-Preview загвараасаа ахисан хувилбар бөгөөд OpenAI-ийн o1 загвартай шууд өрсөлдөх түвшинд хүрсэн гэдгээ баталж буй хэрэг юм.

Энэхүү нийтлэлд 2025 оны 1-р сарын 22-ны өдөр нийтлэгдсэн DeepSeek компанийн “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning” судалгааны ажлыг тайлбарлан, DeepSeek-R1-ийн гол онцлогууд, түүний уламжлагдсан (distilled) загварууд, үнэ, OpenAI-ийн загваруудтай харьцуулсан гүйцэтгэл зэргийг тайлбарлах болно.

(DeepSeek-AI et al., 2025)

DeepSeek-R1 гэж юу вэ?

DeepSeek-R1 бол Хятадын DeepSeek компанийн хөгжүүлсэн нээлттэй эхийн логик сэтгэлгээний загвар юм. Энэхүү загвар нь логик дүгнэлт хийх, математик бодлого бодох, бодит цагийн шийдвэр гаргах даалгавруудыг гүйцэтгэх чадвартай.

Яагаад логик сэтгэлгээний загварууд улам чухал болж байна вэ?

DeepSeek-R1, OpenAI-ийн o1 зэрэг загварууд нь уламжлалт хэлний загваруудаас ялгаатай нь бодлын гинжин урсгал (reasoning chain), шийдвэр гаргалтын процессыг илүү тодорхой харуулдаг. Жишээ нь DeepSeek-R1 загварыг ашигласнаар та түүний логик сэтгэлгээг дагаж ойлгох боломжтой бөгөөд шаардлагатай тохиолдолд гаргасан үр дүнг нь няцаах буюу сорих боломжтой. Энэ чадвар нь судалгаа, нарийн төвөгтэй шийдвэр гаргалт зэрэг гарсан үр дүн тайлбарлагдах шаардлагатай салбаруудад логик сэтгэлгээний загваруудыг давуу талтай болгодог.

Судалгааны ажлын онцлог

DeepSeek-R1-ийг онцгой өрсөлдөх чадвартай, сонирхол татахуйц болгож буй гол зүйл нь нээлттэй эхийн загвар (open-source) юм. Хэн нэгний өмчийн буюу хаалттай (proprietary) загваруудаас ялгаатай нь, DeepSeek-R1 нь хөгжүүлэгчид болон судлаачдад судлах, өөрчлөх, өөрсдийн хэрэгцээнд тохируулан ашиглах боломжийг олгож буй байдал юм.

DeepSeek-R1 судалгааны ажил нь том хэмжээний хэлний загваруудын (LLMs) логик сэтгэлгээг сайжруулах зорилготойгоор хүч нэмэгдүүлсэн сургалт (reinforcement learning – RL) ашигласан. Судалгаанд DeepSeek-R1-Zero болон DeepSeek-R1 гэсэн хоёр загварыг боловсруулсан бөгөөд эдгээр нь их хэмжээний RL сургалтын аргаар өөрийгөө хөгжүүлдэг онцлогтой.

DeepSeek-R1-Zero: Reinforcement Learning on the Base Model

R1-Zero загварт Group Relative Policy Optimization (GRPO) аргыг ашигласан ба энэ нь хүч нэмэгдүүлсэн сургалтын (RL) зардлыг бууруулах зорилготой шинэ аргачлал юм. Энэхүү аргыг Shao нар 2024 онд санал болгосон бөгөөд уламжлалт Policy Gradient суурьтай аргуудтай харьцуулахад илүү тооцооллын үр ашигтай байхаар боловсруулагдсан байна.

DeepSeek-R1: Reinforcement Learning with Cold Start

Харин R1 загварт дараах хэд хэдэн аргыг ашигласан.

  • Cold Start: Машин сургалтын загвар шинэ өгөгдөлтэй ажиллахдаа өмнөх туршлагагүй, ямар нэгэн урьдчилсан сургалтгүйгээр эхлэх нөхцөлийг илэрхийлдэг бөгөөд энэ нь анхдагч мэдээлэлгүй нөхцөлд оновчтой шийдэл гаргахад хүндрэлтэй байдаг. DeepSeek-R1-Zero загвараас ялгаатай нь, RL сургалтын эхний шатанд тогтворгүй cold start асуудал гарахаас сэргийлэхийн тулд DeepSeek-R1-д бага хэмжээний урт Chain-of-Thought (CoT) өгөгдөл бүтээж ашигласан.
  • Reasoning-oriented Reinforcement Learning: Энэ нь загваруудыг логик сэтгэлгээг оновчтой болгохын тулд хүч нэмэгдүүлсэн сургалтыг олон алхамт бодолт, таамаглал дэвшүүлэх, шийдвэр гаргах зэрэгт ашиглаж хөгжүүлэхэд чиглэдэг.
  • Rejection Sampling and Supervised Fine-Tuning: Загварын гаралтуудыг үнэлж, чанар муутайг нь хасах (rejection sampling) аргыг ашиглан илүү чанартай өгөгдлийг сонгон, түүн дээр нэмэлт сургалт (supervised fine-tuning) хийснээр загварын гүйцэтгэлийг сайжруулдаг арга.

Гол онцлог, үр дүнгийн хураангуй

  1. DeepSeek-R1-Zero
    • Энэ загвар нь супервайзер сургалтгүйгээр шууд RL ашиглан сургагдсан.
    • Хэрэглэгчийн өгсөн даалгавруудад гүнзгий бодох, өөрийгөө хянах, логик сэтгэлгээг хөгжүүлэх чадваруудыг харуулсан.
    • Гэвч энэ загвар нь уншихад төвөгтэй текст үүсгэх, хэл холилдох зэрэг асуудалтай байв.
  2. DeepSeek-R1
    • R1-Zero дээр гарсан асуудлуудыг шийдэж, RL-ийн үр ашгийг нэмэгдүүлэхийн тулд RL сургалтыг супервайзер сургалттай (supervised fine-tuning) хослуулан олон шатлалт сургалтын процессыг нэмж оруулсан.
    • Үр дүнд нь математик, кодчилол болон олон төрлийн логик бодлогууд дээр OpenAI-ийн o1-1217 загвартай ойролцоо гүйцэтгэл үзүүлсэн.
    • Энэ загвараас Qwen болон Llama загварууд дээр тулгуурласан 1.5B, 7B, 8B, 14B, 32B, 70B параметртэй жижиг уламжлагдсан (Distilled) загваруудыг гаргаж авсан.

Гол давуу талууд

  • Хүний зааварчилгаагүйгээр (self-evolution) өөрийгөө хөгжүүлэх чадвартай.
  • Chain-of-Thought (CoT) буюу олон үе шаттай логик сэтгэлгээг RL ашиглан хөгжүүлсэн.
  • Том загваруудаас жижиг загварууд руу дамжуулж (distillation) сургах замаар нөөц багатай загваруудыг хөгжүүлсэн.

Гол туршилтууд, үнэлгээ
DeepSeek-R1 загваруудыг олон төрлийн benchmark dataset дээр шалгаж үнэлсэн. Үүнд:

  • Математик (AIME 2024, MATH-500): DeepSeek-R1 нь AIME 2024 дээр 79.8% Pass@1, MATH-500 дээр 97.3% Pass@1 гэсэн өндөр гүйцэтгэл үзүүлсэн.
  • Код бичих чадвар (Codeforces, LiveCodeBench): Codeforces дээр 96.3% percentile, LiveCodeBench дээр 65.9% Pass@1-ийг давсан.
  • Түгээмэл мэдлэгийн шалгалтууд (MMLU, GPQA Diamond): OpenAI-o1-1217-тай өрсөлдөхүйц үр дүн гарсан.

DeepSeek-R1 vs OpenAI o1: Харьцуулалт

Generative AI загварыг үнэлэхдээ AIME, Codefoces, GPQA, MATH-500, MMLU, LiveCodeBench зэрэг хэд хэдэн шалгуур бенчмарк тестээр шалгадаг. Дээрх графикт DeepSeek-R1 болон бусад том хэмжээний хэлний загваруудын (LLMs) гүйцэтгэлийг харьцуулан харуулсан байна. Доор эдгээр шалгуур тус бүрийг тайлбарлав.

1. AIME 2024 (American Invitational Mathematics Examination)

  • AIME нь АНУ-ын ахлах ангийн сурагчдад зориулсан математик шалгалт бөгөөд маш нарийн төвөгтэй, олон үе шаттай бодлогууд агуулдаг.
  • Загваруудыг нарийн логик сэтгэлгээ, олон алхамт бодлогын гүйцэтгэлээр үнэлэх гол шалгуур болдог.

2. MATH-500

  • Энэ нь 500 ширхэг ахисан түвшний математикийн бодлогоос бүрдсэн dataset бөгөөд олон шатлалт бодолт, логик дүгнэлт, тооцоолол шаарддаг.
  • Ихэвчлэн LLMs-ийн математик чадварыг шалгахад ашигладаг.
  • DeepSeek-R1 энэ шалгуурт 97.3% Pass@1 үзүүлсэн нь OpenAI-ийн o1-ээс өндөр оноо авсан болохыг харуулж байна.

3. GPQA Diamond (General-Purpose Question Answering)

  • Энэ нь ерөнхий мэдлэгийн асуулт хариултын dataset бөгөөд түүх, шинжлэх ухаан, урлаг, технологи зэрэг өргөн хүрээг хамардаг.
  • Загварын мэдлэгийн өргөн хүрээг шалгах гол үнэлгээний нэг.
  • OpenAI-ийн o1-1217 загвар энэ шалгуурт арай илүү оноо авсан (75.7%), харин DeepSeek-R1 71.5% оноотой байсан.

4. LiveCodeBench

  • Энэ нь код бичих чадварыг үнэлдэг бенчмарк бөгөөд бодит програмчлалын асуудлууд дээр загваруудыг шалгадаг.
  • Python, C++, Java зэрэг хэл дээрх кодын чанар, алдаагүй байдал, үр дүнг хэмждэг.
  • DeepSeek-R1 49.2%, OpenAI o1-1217 48.9% оноо авсан тул DeepSeek энэ үнэлгээн дээр бага зэрэг илүү гарсан.

5. CodeForces

  • Алгоритмын программчлалын бенчмарк бөгөөд жирийн хөгжүүлэгчидтэй харьцуулж үнэлдэг.
  • Шийдсэн бодлогын тоо, гүйцэтгэлийн хурд, кодын оновчлолыг харгалздаг.
  • Загваруудыг бодит алгоритмын өрсөлдөөн дэх гүйцэтгэлээр нь харьцуулахад ашигладаг.
  • DeepSeek-R1 CodeForces-д 96.3%-ийн оноо авч, OpenAI o1-ээс үл ялиг бага оноо авсан.
БенчмаркШалгуурDeepSeek-R1 OpenAI o1 
AIME 2024Ахисан түвшний математик79.8%79.2%
MATH-500Нарийн логик сэтгэлгээтэй математик бодлого97.3%96.4%
GPQA DiamondЕрөнхий мэдлэгийн асуулт хариулт71.5%75.7%
LiveCodeBenchКод бичих чадвар49.2%48.9%
CodeForcesАлгоритмын программчлал96.3%96.6%
  • Математикийн хувьд DeepSeek-R1 илүү сайн.
  • Програмчлалын тал дээр OpenAI бага зэрэг илүү.
  • Ерөнхий мэдлэгийн шалгалтад OpenAI илүү хүчтэй байв.

DeepSeek-R1 нь логик сэтгэлгээ шаардсан даалгаварт илүү өрсөлдөх чадвартай байгаа ч, ерөнхий мэдлэгийн болон програмчлалын үнэлгээнд OpenAI бага зэрэг илүү үзүүлэлттэй байна.


DeepSeek-R1-ийн уламжлагдсан (distilled) жижиг загварууд

Distilled загвар гэж юу вэ? 

Distillation буюу махчилж орчуулбал шахаж гаргах процесс нь том хэмжээний хиймэл оюуны загваруудыг бага хэмжээтэй, хөнгөн, гэхдээ өндөр гүйцэтгэлтэй хувилбарууд болгон боловсруулах гол аргачлал юм. Энэ процесс нь LLMs (Large Language Models) болон бусад гүн сургалтын загваруудыг үр ашигтай болгоход чухал үүрэг гүйцэтгэдэг.

DeepSeek энэ аргаар Alibaba компанийн Qwen загвар болон Meta компанийн Llama архитектур ашиглаж олон төрлийн уламжлагдсан (Distilled) загваруудыг гаргасан. DeepSeek судалгааны ажилд дээрх хүснэгтээр Distilled загваруудын харьцуулалтыг гаргасан.

  • Qwen-1.5B: Жижиг загвар боловч математикийн даалгавар дээр сайн гүйцэтгэл үзүүлсэн (MATH-500: 83.9).
  • Qwen-7B, 14B: Логик сэтгэлгээнд сайн боловч код бичих тал дээр сул.
  • Qwen-32B: Математик, ерөнхий мэдлэгийн даалгаварт өндөр оноо авсан боловч програмчлалын чадвар дунд зэрэг.
  • Llama-70B загвар нь математик болон код бичих чадвараараа OpenAI o1-тай ойролцоо түвшинд хүрсэн.

Загварын багасгасан хувилбарууд илүү үр ашигтай

Том хэмжээний загварууд (жишээ нь GPT-4, DeepSeek-R1 гэх мэт) маш их тооцооллын нөөц шаарддаг. Үүний эсрэгээр, distilled загварууд нь:

  • Бага хэмжээтэй, хурдан ажилладаг
  • Тооцооллын нөөцийн хэрэглээг бууруулдаг
  • Бага зардлаар өндөр гүйцэтгэл үзүүлдэг

Жишээ нь, DeepSeek-R1-ийн Qwen болон Llama дээр суурилсан distilled хувилбарууд нь том эх загваруудтайгаа ойролцоо гүйцэтгэлтэй боловч хамаагүй бага хүчин чадал шаарддаг. Энэ нь мөн AI-г ашиглахтай холбоотой зардлыг бууруулах чухал ач холбогдолтой. 


DeepSeek-R1-ийн үнэ

Загвар1M Token Оролт1M Token Гаралт
DeepSeek-Chat$0.07 – 0.27$1.10
DeepSeek-Reasoner$0.14 – 0.55$2.19

Эх сурвалж: https://api-docs.deepseek.com/quick_start/pricing

DeepSeek-R1 нь OpenAI o1-ээс 30 дахин хямд. (Жишээ: OpenAI o1-ийн үнэ $60 per 1M output tokens бол DeepSeek-R1 нь $2.19 per 1M output tokens)

DeepSeek-R1-ийн нөлөө ба ирээдүй

Хувьцааны зах зээлд үзүүлсэн нөлөө
DeepSeek-R1 гарсны дараа Nvidia компанийн хувьцаа 2025 оны 1-р сард  18%-иар унаж, $600 тэрбумын үнэлгээгээ алджээ (Saul, 2025). Учир нь DeepSeek-ийн үр ашигтай AI загварууд өндөр хүчин чадалтай GPU-ийн эрэлт хэрэгцээг бууруулж магадгүй гэж хөрөнгө оруулагчид үзсэн байна.

OpenAI гомдол ба бусад улсуудын хариу үйлдэл

OpenAI DeepSeek компанийг өөрсдийн загварыг хуулбарласан гэж буруутгаж байгаа ч үүнд тодорхой нотолгоо хараахан гараагүй байна. Мөн зарим улс орнуудад уг технологийг хориглох арга хэмжээ авч байгааг анхаарах хэрэгтэй.

Дүгнэлт
DeepSeek-R1 судалгааны ажил нь хүч нэмэгдүүлсэн сургалт (Reinforcement Learning)-ыг ашиглан логик сэтгэлгээний чадварыг хөгжүүлэх боломжтой гэдгийг харуулж, OpenAI болон Google-ийн загваруудтай өрсөлдөхүйц үр дүнд хүрсэн. Энэ арга нь цаашид илүү бага хэмжээтэй загваруудыг хөгжүүлэхэд үр дүнтэй байж болохыг нотолж байна. Мөн энэхүү нийтлэлээр уг технологийг ашиглахыг ямар нэгэн байдлаар уриалаагүй бөгөөд эх судалгааны ажлын арга аргачлал, харьцуулалтыг тайлбарлаж мэдлэг түгээх зорилгоор оруулсан болно.


Эх сурвалж: 

DeepSeek-AI, Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., Xu, R., Zhu, Q., Ma, S., Wang, P., Bi, X., Zhang, X., Yu, X., Wu, Y., Wu, Z. F., Gou, Z., Shao, Z., Li, Z., Gao, Z., … Zhang, Z. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (arXiv:2501.12948). arXiv. https://doi.org/10.48550/arXiv.2501.12948

Saul, D. (2025, January 27). Biggest Market Loss In History: Nvidia Stock Sheds Nearly $600 Billion As DeepSeek Shakes AI Darling. Forbes.com. Retrieved February 5, 2025, from https://www.forbes.com/sites/dereksaul/2025/01/27/biggest-market-loss-in-history-nvidia-stock-sheds-nearly-600-billion-as-deepseek-shakes-ai-darling/

Shao, Z., Wang, P., Zhu, Q., Xu, R., Song, J., Bi, X., Zhang, H., Zhang, M., Li, Y. K., Wu, Y., & Guo, D. (2024). DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models(arXiv:2402.03300). arXiv. https://doi.org/10.48550/arXiv.2402.03300

Хуваалцах:

Холбоотой нийтлэлүүд

Сүүлийн жилүүдэд хиймэл оюун ухааны (AI) загваруудын хөгжүүлэлт нь илүү хүчирхэг, олон төрлийн өгөгдөл боловсруулах чадвартай болж байна. Google DeepMind-ийн...
  • AI
    ,
    Судалгаа
  • 3 сар 14, 2025
Apple-ийн M1, M2, M3 чипүүд нь Neural Engine болон Metal API-г ашиглан гүн сургалтын загваруудыг үр ашигтайгаар сургах боломжийг олгодог....
  • AI
    ,
    Software Engineering
  • 3 сар 7, 2025
Судалгааны ажил хийхэд ашиглаж болох голлох датабаазуудыг ангиллаар нь жагсааж энэ нийтлэлд оруулж байна. Эдгээр датабаазууд нь шинжлэх ухааны олон...
  • Судалгаа
  • 3 сар 5, 2025