A-Z ELEKTRO květen / červen 2016
REDAKČNÍ ČLÁNEK květen/červen 2016 | A-Z ELEKTRO | 53 rých vybraných úlohách pro strojové učení dosáhnout až dvanáctkrát rychlejšího zpracování, což zjednodu- šeně znamená, že to co dříve trvalo s jednou kartou celý den, je s novou generací hotové za dvě hodiny. A to je opravdu pořádný rozdíl. Pokud jde ale o obecný výpočetní výkon, tam už tak obrovské rozdíly samozřejmě nejsou, ale stále jsou poměrně znatelné. Jeden čip P100 zvládne v rámci FP16 až 21‚2 TFLOPS, 10‚6 TFLOPS v SP (FP32) a 5‚3 TFLOPS s výpočty s plovoucí řádovou čárkou (DP, FP64). Všechny tyto hodnoty jsou uvedené při využití technologie GPU Boost, která zajišťuje automatické mírné přetaktování čipu na vyšší frekvence. Nvidia zatím uvedla jen pár para- metrů – základní frekvence čipu je 1 328 MHz a Turbo režim pak 1 480 MHz. Karta si ale stále drží běžné TDP hi- -endových modelů – 300 W. Nvidia DGX-1 a 170 TFLOPS v kompaktním balení Nvidia pro efektivní a hlavně rychlé spojení více výpočetních karet podpo- ruje u nových karet Tesla P100 propo- jení NVLink (Hybrid Cube Mesh), které nabízí propustnost až 160 GB/s. Aby bylo možné pomocí nových výkonných karet stavět i obří systémy zaměřené na zpracování hlubokých neuronových sítí v datacentrech, představila Nvidia i kompaktní řešení v podobě DGX-1. Základem je celkem osm karet Tesla P100, které nabízí výpočetní výkon až 170 TFLOPS (FP16), respek- tive 85 TFLOPS v SP nebo 42 TFLOPS v DP. V rámci osmi čipů je k dispozici 28 672 jader cuda. Systém je vybaven dvěma 16jádro- vými procesory Intel Xeon E5-2698 v3 s frekvencí 2‚3 GHz, 512GB operační pamětí DDR4 a celkem 7‚68TB SSD (RAID ze čtyř modelů s kapacitou 1‚92 TB) pro rychlé meziukládání zpracovávaných dat. Pro rychlé spo- jení do sítě slouží dva porty 10GbE a čtyři InfiniBand 100Gb. Formát ser- veru je 3U a celková spotřeba nepře- kročí 3 200 W. Nvidia uvádí, že výkon v kombinaci s knihovnou pro akceleraci zpraco- vání neuronových sítí je srovnatelný s 250 servery, které používají běžné procesory s instrukční sadou x86. Vzhledem ke konfiguraci a celko- vému výkonu se šéf Nvidie pochlubil i cenou, která činí 129 000 dolarů, což je v přepočtu na naše podmínky kolem 3‚5 milionů korun. Jak ale Jen-Hsun uvedl, to je více než dvacetkrát méně, než když byste chtěli stejného výkonu dosáhnout pomocí klasických proce- sorů Xeon, kde by nebyl problém se dostat na cenu v oblasti tří milionů dolarů. Zajímavostí je ale možnost, která se nabízí, pokud si chcete postavit sku- tečně superpočítačové datacentrum. V rámci jednoho racku totiž můžete díky tomuto řešení získat výpočetní výkon dvou petaflops. Samotný hardware je ale zbytečný, pokud není efektivní řešení a způsob, jak ho využít. A na to Nvidia rozhodně nezapomíná. Hluboké neuronové sítě jako jasný trend strojového učení Pod pojmem umělé inteligence nebo strojového učení se dnes nachází spousta různých forem, jedna z nej- populárnějších a také nejrychleji se vyvíjejících jsou hluboké neuronové sítě. Učení bylo dříve výpočetně velmi náročné, ale s nárůstem jako předvádí Nvidia a řadou optimalizací dochází k tomu, že je možné zpracovávat i ná- ročné modely poměrně rychle a levně. Nvidia pro tento segment vydává i vlastní knihovnu cuDNN 5, která využívá akcelerace grafického čipu od Nvidie a pochopitelně plně podpo- ruje i čerstvě uvedenou architekturu Pascal. Trénování neuronových sítí je tak zase o krok přístupnější, což jistě uvidíme u nových milníků. Mezi ty současné patří například AlphaGo od Google, který poprvé porazil člověka ve hře Go, jež je náročnější a komplikovanější než šachy. Pokud jde o důležité segmenty, na které se Nvidia rovněž zaměřuje, jsou to například automobily bez řidiče, respektive platformy, které jsou schopné řídit vozidlo po běžných cestách zcela automaticky a bez člověka. Technologie funguje v jádru po- měrně jednoduše – je nutné snímat data z mnoha senzorů umístěných na automobilu, v reálném čase je zpraco- vat a podle vyhodnocení reagovat. To je pochopitelně náročné na výpočetní výkon a také na tréning neuronových sítí, přičemž stále je zde mobilní omezení v podobě spotřeby a velikosti takové výpočetní platformy. Vývojářský kit DriveWorks vše usnadňuje a kom- binuje jak snímání mapových a obra- zových podkladů ve vysoké kvalitě, tak i tréning umělé inteligence robotic- kého „řidiče“. Hluboké neuronové sítě a zpracová- vání obrazu je dnes stále důležitější součástí i chytrých dronů a nejrůzněj- ších robotů, kde hraje nízká spotřeba kritickou roli. V mobilních platfor- mách je ale poměrně velká konku- rence, takže uvidíme, jak se Nvidii podaří uspět. CUDA 8 a BIG data Zpracování velkého množství dat pomocí klasických procesorů je ve většině případů značně neefektivní, takže i zde přichází na řadu výpočetní grafické čipy, které jsou optimalizo- vané pro paralelní výpočty. Nvidia pro tento druh výpočtů má k dispozici už osmou verzi platformy CUDA, která umožňuje vývojářům Tesla P100 respektive samotný čip už používá druhou generaci rychlých pamětí HBM2 (CoWoS – Chip-on Wafer- on-Substrate, ECC) s šířkou sběrnice 4 096 bitů, které jsou integrované přímo na čipu.
Made with FlippingBook
RkJQdWJsaXNoZXIy Mjk3NzY=