Nvidia Turing – детските болести на една потенциална революция

Nvidia Turing – детските болести на една потенциална революция

В раздел: Ревюта, Ревюта, статии и ръководства от на 29.11.2018, 6,164 показвания
Страница от ревюто: 1 2 3 4 5 6 7 8 9 10 11 12 13 14


Гамата Туринг

На базата на всички тези подобрения Nvidia анонсира цели 3 нови чипа. При най-големият от обявените чипове, TU102, имаме 6 GPC, общо 36 TPC, 72 SM, по 4608 FP32 и Int32 АЛУ, 288 текстуриращи блока, 576 тензорни процесора и 72 RT ядра. Това е подкрепено от 12 32-битови контролера на паметта (384-битова шина), като за първи път се поддържа GDDR6 памет, която предлага удвоена скорост на пренос на данни, като заедно с това е удвоен и обема на L2 кеша спрямо Pasacal до 6 МБ. ROP блоковете са запазени като брой – 96. За всичко това са използвани 18,6 мрлд. Транзистора, събрани в „скромните“ 754 кв.мм. За целта е използван специалният “12 нм N“ процес на TSMC, който по качествени показатели не се различава съществено от познатия 16 нм процес, но предлага увеличен максимален размер на чипа и всъщност вече се използва за производството на чипа Volta, който е дори по-голям по размер.

 

 

Още една интересна особеност е добавянето на две х8 NVlink връзки с пропускателна способност от по 25 ГБ/с в посока за общо 100 ГБ/с за връзка между два графични адаптера. По-важното в случая е, че през тази връзка може да се обеди адресното пространство на дата чипа давайки им ефективно достъп до двойно по-голяма памет. Нещо повече – Nvlink вече се използва и за организацията на многочиповите SLI конфигурации, като споделянето на паметта теоретично дава възможност да се заобиколи най-после единия от големите проблеми  в подобна организация – нуждата от дублиране на данните между двата адаптера.

 

 

На базата на пълната версия на TU102 се появи само професионалният Quadro RTX 6000. За десктоп обаче ще се появи GeForce RTX 2080Ti с два блокирани TPC и един от контролерите на паметта. Това ви дава 4352 АЛУ, 272 текстуриращи блока, 68 RT ядра, 544 тензорни процесора, 352-битова шина, 88 ROP-а и 11 ГБ 14 ГТ/с GDDR6 памет с пропускателна способност от впечатляващите 616 ГБ/с. И да, след толкова години, Nvidia са решили да заменят култовото GTX, с RTX, наблягайки на рейтрейсинга. Базовата тактова честоти е официално 1350 МХц със заявена турбо честота 1545 МХц. За първи път компанията ще предлага овърклокинг при Founders Edition моделите, като турбочестотата е заявена като 1635 МХц. TDP на 2080Ti възлиза на 250 Вт за стандартната, и 265 Вт за овърклокнатата FE версия.

За сравнение с предишният флагман, и акцентирайки на новите възможности, от Nvidia предлагат няколко числа. Първо, RTX 2080Ti има производителност от 10 Гигалъча/сек. (Gigarays/sec.), докато изцяло софтуерният подход на GTX1080Ti позволява едва 1,1 Гигалъча/сек. За типичните FP32 изчисления получаваме 13,4 TFLOPS за официалната спецификация спрямо 11,3 TFLOPS за предшественика, но към тях добавяме вече и 13,4 TIPS (tera instruction per secont) за Int32 блоковете. Заедно с това, нещо коетo забравих да споменa при разликата в архитектурите – Turing вече обработва FP16 разредността в шейдерите с двойна скорост спрямо FP32, подобно на Vega на AMD, съответно в този случай производителността се покачва двойно до 26,9 TFLOPS. За тензорните процесори имаме 53,8/107,6 ТFLOPS FP16 съответно при използване на 32-битова вътрешна точност и при чисто 16-битова, както и 215,2/430,3 TIPS за Int8/Int4 точност.

За да комбинират всичко това от Nvidia са решили да „измислят“ нова изчислителна единица (все едно имаме малко) –RTX operations per second, комбинирайки използваемостта на различните блокове по време на предполагаемото изчисление на една рейтрейсинг активирана сцена – RTX-OPS = TENSOR * 20% + FP32 * 80% + RTOPS * 40% + INT32 * 28%. Крайният резултат по тяхната формула показва, че RTX 2080Ti е в състояние да покаже 78 TeraRTXOps, срещу 11,3 TeraRTXOps за GTX 1080Ti. Означава ли това, че TU102 ще е 6 пъти по-бърз от GP102? Едва ли.

 

 

Но нека да видим какво ни предлагат другите 2 чипа. Основната разлика между TU102 и по-малкият му събрат TU104 е във факта, че втория разполага с 4, а не 6 TPC за GPC, и броя на контролерите на паметта е намален от 12 на 8 (256-битова шина), като съответно L2 кеша е намален до 4 МБ, както и ROP блоковете до 64 (по всичко изглежда, че в архитектурата към всеки контролер има по 8 ROP-а и 0,5 МБ L2 кеш). Това дава 6 GPC, 24 TPC, 48 SM (3072 АЛУ, 192 текстуриращи блока) и RT ядра и 384 тензорни процесора. Отново, максималната версия ще е достъпна само за Quadro потребителите, като геймърите ще получат GeForce RTX2080 с един блокиран TPC. Или 2944 АЛУ/188 текстуриращи блока, 46 RT ядра и 368 тензорни процесора. Шината на паметта и ROP блоковете са запазени в тяхната цялост, като отново се използва 14 ГТ/с GDDR6 памет (448 ГБ/с пропускателна способност), а обема е 8 ГБ. Тактовата честота на графичния процесор официално възлиза на 1515 МХц с турбо честота от 1710 МХц за „нормалния“ модел и 1800 МХц за FE. Ще пропусна цялата поредичка от цифри, като единствено ще спомена заявените 57 TeraRTXOps, като за сравнение GTX1080 според Nvidia e способен да покаже едва 8,9 TeraRTXOps. Официално GeForce RTX2080 има 215 Вт TDP за стандартната и 225 Вт за FE версията. Всичко това е постигнато с цели 13,6 млрд. транзистора на площ 545 кв.мм., правейки TU104 по-голям дори от GP102 в GeForce GTX 1080Ti, и много по-голям от предшественика му GP104.

 

 

И накрая – TU106. Той е микс между конфигурациите на TU102 и TU104, като има по 6 TPC в GPC, но пък броят на последните е наполовина, едва 3, а е наследил 256-битовата шина и  64-те ROP блока от средния модел. И за разнообразие за десктоп получаваме пълната му версия – 3 GPC, 18 TPC, 36 SM (2304 АЛУ, 144 текстуриращи блока), 36 RT ядра, 288 тензорни процесора, 64 ROP-а, 8 ГБ GDDR6 14ГТ/с памет с пропускателна способност 448 GB/s, 1410 МХц базова и 1620/1710 МХц турбо при 175/185 Вт ТДП. Мерейки в TeraRTXOps имаме 42 срещу 6,5 за предшественика му GTX1070. Една голяма разлика спрямо другите адаптери е, че NVLink и SLI не се поддържат.



Всички страници от статията:

  1. Растеризация и рейтрейсинг
  2. Nvidia Turing, архитектура I
  3. Nvidia Turing, архитектура II
  4. Гамата на Turing
  5. Противоречия
  6. Моделите от MSI
  7. Тестова система
  8. Резултати – 2560х1440
  9. Резултати – 3840х2160
  10. Резултати – eSports@1080p
  11. Battlefield 5 - визуално сравнение
  12. Battlefield 5 - производителност
  13. Резултати - GPU рендъринг, криптомайнинг, консумация, температури
  14. Заключениe


Страница от ревюто: 1 2 3 4 5 6 7 8 9 10 11 12 13 14




Етикети: , , , , , , , , ,


3 коментара

  1. 1 Capcom // 30.11.2018 в 18:05

    Като се знае какъв скандал стана, и че е пълно с прецакани или нацяло умрели RTX карти, изобщо не виждам AMD за какво да се притесняват, а и те правят със Vega пари на съвсем друго място, щото игрите не са всичко и във compute Vega троши 1080TI..
    RTX the way nVIDIA is meant to be RMA`ed…

  2. 2 Konami // 03.12.2018 в 11:25

    Този ефект коства едни 50-60 кадъра, което не е никак малко.И с карта под 2080 ti нещата стават плачевни.По-добре да си кътам 1080-тката

  3. 3 BGRS // 13.12.2018 в 02:39

    Доколкото четох, производителността при Batlefield 5 с използване на DXR е вдигната доста с нов драйвер. Споменават се 50% повече кадри.

    Като всяко ново нещо и това си има големи кусури. Но пък вчера се наложи да търся нова видеокарта и…не видях вече да се продават 1080Ti, а и тия, дето се продават, са на цената на 2080. Това ми напомня за 2011 година, когато си купувах нова кола и се чудех, дали да взема модел, спрян вече от производство, но наличен в магазина или нов модел, който е на мода, по-съвременен и всичко по-по, включително и новите дефекти :) Все пак се спрях на новот, щото дет се вика, старото ще спрат да го поддържат след няколко години. Особено NVIDIA правят тия нмомерца с не толкова старите си видеокарти.

Коментари: