Orqaga

Orqaga

Orqaga

Steroidli matematika: Nega sizning CPU’ingiz sun’iy intellektni «tortmayapti» va GPU qanday qilib byudjetni qutqaradi?

ML-vazifalarini klassik protsessorlarda ishga tushirishga bo‘lgan urinishlarning arxitekturaviy muvaffaqiyatsizligini tahlil qilamiz. Ketma-ket mantiq va ommaviy parallelizm o‘rtasidagi farq haqida qisqacha. Spoyler: gap takt chastotasida emas, balki «temir» ichidagi «ishchi qo‘llar» sonida. Samarasiz hisob-kitoblarga pul sarflashni to‘xtatish uchun o‘qing.

6 daqiqa o'qish uchun

Ikkita mutaxassis zamonaviy ofis muhitida, kompyuter ekranida ko'rsatilgan loyiha ustida muhokama qilishayotgani haqida bir stol atrofida hamkorlik qilmoqdalar.
Ikkita mutaxassis zamonaviy ofis muhitida, kompyuter ekranida ko'rsatilgan loyiha ustida muhokama qilishayotgani haqida bir stol atrofida hamkorlik qilmoqdalar.
Ikkita mutaxassis zamonaviy ofis muhitida, kompyuter ekranida ko'rsatilgan loyiha ustida muhokama qilishayotgani haqida bir stol atrofida hamkorlik qilmoqdalar.

INTEL XEON’GA BOG‘LANGAN UMIDLAR QABRISTONI: NEGA SIZNING CPU SUN’IY INTELLEKTNI «TORTMAYAPTI»?

Zamonaviy IT-industriya «arxitekturaviy umidlar inqirozi» deb ta’riflash mumkin bo‘lgan davrni boshdan kechirmoqda. Markaziy protsessorlarning (CPU) universalligi paradigmasida tarbiyalangan ko‘plab texnik direktorlar (CTO) va ishlab chiqish bo‘limlari rahbarlari sun’iy intellekt (SI) sohasidagi keng ko‘lamli loyihalarni joylashtirishga urinishda shafqatsiz reallikka duch kelmoqdalar.

Llama 3 kabi zamonaviy katta til modellari (LLM) yoki Stable Diffusion kabi tasvir generatorlarini eng yuqori darajadagi Intel Xeon yoki AMD EPYC bilan jihozlangan standart server quvvatlarida ishga tushirishga bo‘lgan urinishlar ko‘pincha ekspertlar «umidlar qabristoni» deb ataydigan holat bilan yakunlanadi.

Muammo bu protsessorlarning «yomonligida» emas. Ular o‘z sinfidagi vazifalar uchun muhandislik fikrining cho‘qqisi hisoblanadi. Biroq, CPU arxitekturaviy dizayni ketma-ket mantiq va murakkab, tarmoqlanuvchi ko‘rsatmalarni bajarishda kechikishlarni minimallashtirishga (latency-oriented) optimallashtirilgan.

Neyrotarmoqlar haqida gap ketganda esa, biz butunlay boshqacha turdagi matematik yuklamaga — ommaviy, gomogen parallelizmga duch kelamiz. Bu yerda «aqlli» yadrolar emas, balki trillionlab eng oddiy matritsa amallarini bir vaqtning o‘zida «maydalab tashlashga» qodir bo‘lgan ulkan miqdordagi yadrolar talab qilinadi.

Takt chastotasi afsonasi: 5 GGs 1.5 GGs ga qarshi

Moliya direktorlari (CFO) xonalaridagi eng barqaror yanglish fikrlardan biri — bu gigagerslar sehriga bo‘lgan ishonchdir. Agar server protsessori 4.5 yoki 5 GGs chastotada ishlasa, u 1.5 GGs chastotali ixtisoslashgan tezlatgichdan ko‘ra hisob-kitoblarni tezroq bajarishi kerakdek tuyuladi.

Ammo SI davrida takt chastotasi unumdorlikning hal qiluvchi omili bo‘lishdan to‘xtadi.

«Energetik devor» (power wall) deb nomlanuvchi fizik cheklovlar yakka yadrolar chastotasining cheksiz o‘sishini to‘xtatdi.

  • Chastotaning oshishi issiqlik ajralishi va sizib chiquvchi toklarning eksponensial o‘sishiga olib keladi.

  • 4 GGs dan yuqori chastotalarda elektronlar signal tarqalishidagi kechikishlarga duch keladi, bu esa takt vaqti bilan tenglasha boshlaydi.

CPU o‘zining bir necha o‘nlab yadrolarini yuqori chastotada «boqish» uchun tarmoqlanishlarni bashorat qilish va murakkab keshni boshqarishga ulkan resurslarni sarflayotgan bir paytda, GPU (grafik protsessor) ekstensiv parallelizm yo‘lidan boradi. O‘z tabiatiga ko‘ra parallel bo‘lgan SI vazifalarida 1.5 GGs chastotada ishlovchi NVIDIA H100 ning 14 592 yadrosi 4 GGs chastotali Xeon’ning 64 yadrosini shunchaki bir vaqtning o‘zida bajariladigan ish hajmi hisobiga «yo‘q qilib yuboradi».

Arxitekturaviy jang: Aql Kuchga qarshi

Biznes UzCloud kabi bulutli provayderlarga nima uchun katta cheklarni to‘layotganini tushunish uchun CPU va GPU o‘rtasidagi arxitekturaviy farqlarni dekompozitsiya qilish kerak. Bu shunchaki «turli chiplar» emas — bu axborotni qayta ishlashning turli falsafalaridir.

CPU: Ketma-ket murakkablik ustasi

Markaziy protsessor universal dispetcher sifatida loyihalashtirilgan. Uning vazifasi — operatsion tizim, ma’lumotlar bazalari, tarmoq steklari va foydalanuvchi interfeysini boshqarishdir. Har bir CPU yadrosi — bu tarmoqlanishni bashorat qilish bloklari (branch prediction), ko‘rsatmalarni navbatsiz bajarish mexanizmlari (out-of-order execution) va ulkan kesh-xotira darajalarini (L1, L2, L3) o‘z ichiga olgan nihoyatda murakkab mexanizm.

Ushbu arxitektura kechikishni (latency) minimallashtirishga qaratilgan. U «agar-u-holda-aks-holda» (if-then-else) algoritmlari uchun juda mos keladi. Biroq neyrotarmoqlarda bunday tarmoqlanishlar deyarli yo‘q. Natijada, SI vazifalarida CPU tranzistor byudjetining 90% bekor turadi, chunki tarmoqlanishni bashorat qilish bloklari matritsalarni ko‘paytirishning cheksiz sikllarida ish topa olmaydi.

GPU: Ommaviy parallelizm fabrikasi

GPU, aksincha, o‘tkazuvchanlik qobiliyatiga (throughput) yo‘naltirilgan. Bir nechta murakkab yadrolar o‘rniga u minglab soddalashtirilgan ijro bloklarini (ALU) o‘z ichiga oladi. Agar CPU — bu eng murakkab operatsiyani ketma-ket bajaradigan yuqori malakali jarroh bo‘lsa, GPU — bu zambilni tashish kabi eng oddiy vazifani bir vaqtning o‘zida bajaradigan o‘n mingta sanitardan iborat armiyadir.

Texnik solishtirma:

Xususiyat

CPU (Intel Xeon Platinum 8480+)

GPU (NVIDIA)

Yadrolar soni

56 fizik yadro

14,592 CUDA-yadrolar

Maxsus bloklar

AVX-512, AMX

456 tenzor yadrolar (4-avlod)

Arxitekturaviy fokus

Kechikishni minimallashtirish (Latency)

O‘tkazuvchanlikni maksimallashtirish

Xotira o‘tkazuvchanligi

~300 GB/s (DDR5)

3.35 TB/s (HBM3)

Kesh-xotira

Yadro boshiga ulkan L2/L3

Kichik kesh, registrlarga urg‘u

Tipik TDP

350 Vt

700 Vt

Xotira o‘tkazuvchanligidagi farq — kritik omil. Zamonaviy SI modellari milliardlab parametrlarga ega bo‘lib, ularni doimiy ravishda xotiradan o‘qib turish kerak. CPU-serverlardagi DDR5 o‘tkazuvchanligi «tor bo‘g‘iz»ga aylanadi, GPU dagi HBM3 (High Bandwidth Memory) esa ma’lumotlarni uzatish tezligini 10 barobar oshirib, hisoblash bloklarining ma’lumot kutib bekor turishiga yo‘l qo‘ymaydi.

SI Matematikasi: Faqat matritsalar, faqat hardkor

CTO va arxitektorlar shuni tushunishlari muhim: neyrotarmoq — bu odatiy tushunchadagi dastur kodi emas. Bu gigant matematik obyekt. GPT-4 yoki Llama 3 ning butun ishi pirovardida kolossal vazn matritsalarini kirish ma’lumotlari vektorlariga ko‘paytirishga borib taqaladi.

GEMM operatsiyasi va tenzor yadrolar roli

SI dagi asosiy hisoblash yuklamasi — bu matritsalarni umumiy ko‘paytirish (GEMM) operatsiyasidir. CPU dagi klassik ijroda bu juda sekin bajariladigan ichma-ich sikllarni talab qiladi.

Zamonaviy NVIDIA GPU larida (Volta arxitekturasidan Hopper gacha) buning uchun tenzor yadrolar ajratilgan. Tenzor yadro — bu «tezlatgich ichidagi tezlatgich». U bir taktda o‘lchami 4x4 bo‘lgan ikkita matritsani ko‘paytirib, natijaga uchinchi matritsani qo‘shishga (fused multiply-add) qodir.

Bu unumdorlikning eksponensial o‘sishini beradi. CPU yakuniy matritsaning bitta elementini hisoblashga urinayotgan paytda, GPU butun bir ma’lumotlar blogini hisoblab bo‘ladi. Natijada, NVIDIA da FP16/BF16 operatsiyalaridagi unumdorlik aql bovar qilmas 2000 TFLOPS (teraflops) ga yetadi, bu har qanday markaziy protsessor imkoniyatlaridan yuzlab barobar yuqoridir.

Samaradorlik raqamlarda: Benchmarklar va reallik

Moliya direktori uchun «arxitektura» haqidagi so‘zlar mavhum eshitiladi. Raqamlar kerak. Standart SI vazifalaridagi unumdorlikni taqqoslash nima uchun CPU-loyihalari moliyaviy muvaffaqiyatsizlikka mahkum ekanligini yaqqol ko‘rsatadi.

Modellarni o‘qitish: ResNet-50 va BERT

Kompyuter ko‘rishi (ResNet-50)ni o‘qitish bo‘yicha klassik testda flagman 56 yadroli protsessor va tezlatgich o‘rtasidagi farq 30–60 barobarga yetadi.

  • CPU (32-64 yadro): sekundiga 20–50 tasvirni qayta ishlaydi.

  • GPU (NVIDIA): sekundiga 1200–1500 tasvirni qayta ishlaydi.

Inferens: Llama 3 generatsiya tezligi

Foydalanuvchi uchun SI javob tezligi (tokens per second) muhimdir. Matnni o‘qish qulay bo‘lishi uchun model sekundiga kamida 10–15 token chiqarishi kerak.

Model

Platforma

Tezlik (tok/sek)

Hukm

Llama 3 (8B)

High-end CPU

3–5

Chat uchun yaroqsiz

Llama 3 (8B)

NVIDIA GPU

150–250

Bir lahzalik reaksiya

Llama 3 (70B)

High-end CPU

0.5–1

Tizim «qotib qoladi»

Llama 3 (70B)

NVIDIA GPU

25–50

Sanoat standarti

70B modelini markaziy protsessorda ishga tushirishga urinish bitta javobning bir necha daqiqa davomida generatsiya qilinishiga olib keladi. Biznes nuqtayi nazaridan bu mijozlarni yo‘qotish va masshtablashning imkonsizligini anglatadi.

Iqtisodiyot: GPU qanday qilib byudjetni qutqaradi (OPEX)

Moliya direktorlarini ko‘pincha bitta NVIDIA kartasining narxi ($30,000–$40,000) yoki bulutda GPU ijarasining yuqori narxi qo‘rqitadi. Biroq egalik qilishning umumiy qiymati (TCO) tahlili buning aksini ko‘rsatadi.

Energo-samaradorlik: Bitta tenzor narxi

AI-hisoblasr juda ko‘p energiya talab qiladi. Ammo shayton hisob-kitob birligi samaradorligi tafsilotlarida yashiringan.

  • CPU: SI hisoblarida qatnashmaydigan boshqaruv mantiqi, kesh va bashoratlarni qo‘llab-quvvatlash uchun ulkan miqdordagi vattlarni sarflaydi. Natijada u har bir sarflangan vatt energiya uchun 4.5 barobar kam operatsiya bajaradi.

  • GPU: Tenzor yadrolarining ixtisoslashuvi hisobiga deyarli barcha energiyani bevosita matritsali ko‘paytirishga yo‘naltiradi.

Ma’lumotlar markazi miqyosida bu shuni anglatadiki, bir xil hajmdagi SI-ishini bajarish uchun CPU-ferma 4–5 barobar ko‘proq elektr energiyasini iste’mol qiladi va bir necha barobar kuchliroq (va qimmatroq) sovutish tizimlarini talab qiladi. Elektr energiyasi bugungi kunda SI-infratuzilmasi TCOsining 35% ini tashkil qiladi va GPU samaradorligini e’tiborsiz qoldirish to‘g‘ridan-to‘g‘ri zararga olib keladi.

UzCloud SI uchun: Toshkentda mavjud bo‘lgan qudrat

O‘zbekistondagi biznes uchun SI-infratuzilmasini tanlash masalasi huquqiy va geografik omillar bilan murakkablashadi. UzCloud uchta kritik og‘riqli nuqtani yopadigan yechimni taklif etadi: ma’lumotlar suvereniteti, ping va narx.

Ma’lumotlar suvereniteti va Shaxsiy ma’lumotlar to‘g‘risidagi qonun

O‘zbekiston Respublikasining «Shaxsiy ma’lumotlar to‘g‘risida»gi Qonunining 27-1-moddasiga (2024-yilgi o‘zgarishlar bilan) ko‘ra, O‘zbekiston fuqarolarining shaxsiy ma’lumotlari mamlakat ichida jismoniy joylashgan texnik vositalarda saqlanishi va qayta ishlanishi shart. Bu ayniqsa biometrik ma’lumotlar (Face ID), pasport ma’lumotlari va JSHSHIRga tegishli.

TAS-IX afzalliklari va kechikishlarning yo‘qligi

SI-ilovalar tezligi tarmoq kechikishlariga (latency) kritik darajada bog‘liq. Xorijiy bulutlar bilan ishlaganda ping 120–200 ms ni tashkil qiladi.

UzCloud quvvatlaridan foydalanganda TAS-IX tarmog‘i ichida kechikish 1–2 ms gacha tushadi. Bu ovozli assistentlar, real vaqt rejimidagi tizimlar va yuqori chastotali tranzaksiyalarni qayta ishlash uchun juda muhimdir.

Freymvorklar va narx

Mahalliy bulut CUDA, PyTorch va TensorFlow steki oldindan o‘rnatilgan dolzarb NVIDIA tezlatgichlarini taqdim etadi. Bu muhandislarga drayverlar va muhitni sozlashga vaqt sarflamasdan, sanoqli daqiqalarda ishni boshlash imkonini beradi.

Taqqoslash uchun: 8 ta Nvidia kartasi bo‘lgan bitta serverni sotib olish va olib kirish kompaniyaga soliqlar va logistikani hisobga olganda taxminan $400,000–$500,000 ga tushadi, uni ishga tushirish esa oylab tayyorgarlikni talab qiladi. UzCloud da ijara loyihani ertagayoq boshlash va faqat real foydalanilgan narsa uchun to‘lash imkonini beradi.

Xulosa: Arxitekturaviy pragmatizm vaqti

«Kuchli protsessor ML-loyihani qutqaradi» degan illyuziya zamonaviy menejmentning eng qimmat xatolaridan biridir. SI matematikasi — bu CPU barcha parametrlari bo‘yicha obyektiv yutqazadigan matritsalar va ommaviy parallelizm matematikasidir.

O‘zbekiston sharoitida UzCloud kabi mahalliy GPU-bulutlardan foydalanish shunchaki texnik ustunlik emas, balki strategik zaruratga aylanmoqda. Bu TAS-IX orqali eng yuqori unumdorlikni, qonun doirasida yuridik xavfsizlikni va resurslarni iste’mol qilishning bulutli modeli hisobiga iqtisodiy moslashuvchanlikni bir vaqtning o‘zida ta’minlaydigan yagona yo‘ldir.

Universal hisob-kitoblar davri tugadi; ixtisoslashgan qudrat davri keldi, bu yerda GPU ga kiritilgan har bir so‘m tezlik, aniqlik va innovatsiyalar ko‘rinishida qaytadi.

Shuningdek, qarang

Bizning blogimizda ekspert materiallari va misollarni kuzatib boring. Biz bilimlar bazasini muntazam ravishda yangilaymiz.