Nvidia Turing – детските болести на една потенциална революция

Nvidia Turing – детските болести на една потенциална революция

В раздел: Ревюта, Ревюта, статии и ръководства от на 29.11.2018, 6,165 показвания
Страница от ревюто: 1 2 3 4 5 6 7 8 9 10 11 12 13 14



Nvidia Turing, архитектура II

Но нека да видим как всичко това се интегрира с останалата част от архитектурата и какви други промени има в нея? На високо ниво Turing има много общи точки с предишната архитектура Volta, която се използва само в професионалните графични адаптери на Nvidia, като единствения й бегъл досег с декстопа беше Titan V за $2999. Най-големият обединяващ блок е графичният клъстер (graphics processing cluster), като в различните чипове има до 6 такива. Всеки от тях разполага със собствен геометричен и растеризиращ енджин и до 6 клъстера за текстурна обработка (texture processing cluster). Както предполага името им в тях се извършва основната част от обработката на графика и данни. За целта всеки от тях има по 2 шейдерни мултипроцесора в себе си (shader multiprocessor), което е една от основните разлики с досега използваната при десктоп моделите архитектура Pascal, при която има само един SM със 128 32-битови АЛУ (CUDA “cores” в терминологията на Nvidia) и 4 текстурни блока. В Туринг всеки SM има по 64 32-битови АЛУ, 4 текстуриращи блока, като са добавени вече и по 1 RT ядро, 8 тензорни процесора и още една много сериозна добавка – 64 целочислени 32-битови (Int32) АЛУ. Последните могат да работят паралелно с FP32 АЛУ. Според Nvidia профилирането на голям обем от код е показало, че средно 36% от операциите са целочислени, т.е. потенциално пропускателната способност на новата организация може да даде до 50% по-висока производителност спрямо старата. Заедно с това целочислени блокове типично заемат доста по-малко място на чипа от FP събратята си, което позволява да се увеличи производителността за единица площ.

 

Самите ядра са групирани в 4 групи по 16 ядра (4 x VEC[16]), като на това ниво може да се направи паралел с GCN архитектурата на AMD. Това важи като за целочислените, така и за FP ядрата, като всяка група разполага със собствен диспечер. Всеки SM има и собствен обем комбинирана L1 кеш и споделена памет. Архитектура Pascal използваше статично разделение на 96 КБ споделена памет и 2х24 КБ L1 кеш, докато сега всеки SM използва 96 КБ, коитo могат да се разделят като 32/64 или 64/32 KБ. Така в рамките на TPC се удвоява пропускателната способност и в същото време при нужда ефективния обем на L2 кеша може да достигне до 2,7  пъти повече спрямо по-стария вариант. Размера на регистровия файл е запазен – 256 КБ (16384х32-бита) за SМ.

 

 

На ниво шейдери има и различни други подобрения, като например:

  • Mesh shading, който нов шейдерен модел за по-ефективна обработка на вертексни и геометрични шейдери и теселация.
  • Variable Rate Shading – позволява в еднородни зони, при които е не е нужно да се използва пълна резолюция да се обработват само част от пикселните (до 1/16-та), което позволява по-добра производителност.
  • Texture Space Shading – позволява шейдерните изчисления да се извършват в отделно адресно пространство, което след това се записва в паметта и може да се използва като текстура, при което да се спести многократно повтаряща се работа.
  • Multi-view Rendering – подобрение на Single Pass Stereo, използван в Pascal. Сега вместо само 2 изгледа, различаващи се само по Х координатата, вече могат едновременно да се изчисляват множество изгледи, включително с различни местоположения и посоки.

 

Естествено, това съвсем не са всички подобрения в чипа, като е усъвършенстван вградения енкодер, поддържа се Virtual Link през USB Type-C конектор, както и Lossless Display compression през HDMI 1.4a за връзка с 8К дисплеи през единичен кабел и др.



Всички страници от статията:

  1. Растеризация и рейтрейсинг
  2. Nvidia Turing, архитектура I
  3. Nvidia Turing, архитектура II
  4. Гамата на Turing
  5. Противоречия
  6. Моделите от MSI
  7. Тестова система
  8. Резултати – 2560х1440
  9. Резултати – 3840х2160
  10. Резултати – eSports@1080p
  11. Battlefield 5 - визуално сравнение
  12. Battlefield 5 - производителност
  13. Резултати - GPU рендъринг, криптомайнинг, консумация, температури
  14. Заключениe


Страница от ревюто: 1 2 3 4 5 6 7 8 9 10 11 12 13 14




Етикети: , , , , , , , , ,


3 коментара

  1. 1 Capcom // 30.11.2018 в 18:05

    Като се знае какъв скандал стана, и че е пълно с прецакани или нацяло умрели RTX карти, изобщо не виждам AMD за какво да се притесняват, а и те правят със Vega пари на съвсем друго място, щото игрите не са всичко и във compute Vega троши 1080TI..
    RTX the way nVIDIA is meant to be RMA`ed…

  2. 2 Konami // 03.12.2018 в 11:25

    Този ефект коства едни 50-60 кадъра, което не е никак малко.И с карта под 2080 ti нещата стават плачевни.По-добре да си кътам 1080-тката

  3. 3 BGRS // 13.12.2018 в 02:39

    Доколкото четох, производителността при Batlefield 5 с използване на DXR е вдигната доста с нов драйвер. Споменават се 50% повече кадри.

    Като всяко ново нещо и това си има големи кусури. Но пък вчера се наложи да търся нова видеокарта и…не видях вече да се продават 1080Ti, а и тия, дето се продават, са на цената на 2080. Това ми напомня за 2011 година, когато си купувах нова кола и се чудех, дали да взема модел, спрян вече от производство, но наличен в магазина или нов модел, който е на мода, по-съвременен и всичко по-по, включително и новите дефекти :) Все пак се спрях на новот, щото дет се вика, старото ще спрат да го поддържат след няколко години. Особено NVIDIA правят тия нмомерца с не толкова старите си видеокарти.

Коментари: