7 години AMD Graphics Core Next

7 години AMD Graphics Core Next

В раздел: Ревюта, статии и ръководства, Статии от на 5.09.2018, 7,206 показвания
Страница от ревюто: 1 2 3 4 5 6 7 8


Oбобщените резултати изглеждат такa – Hawaii е почти 50% по-бърз от Tahiti, Fiji e с една идея под 20% по-бърза от него, архитектурните предимства (сред които и обема памет) на Vega й носят около 12%, а тактовата честота добавя още около 30%, за сумарно 44% предимство пред по-старият флагман.

Какви изводи можем да извадим от това. Първо, колкото и добър чип да беше за времето си Tahiti, най-новите игри вече му идват проблематични. Може би част от причината е във вече скромните 3 ГБ памет, но по-вероятно да се дължи както на ранната ревизия на архитектурата, която изглежда не работи чак толкова добре за DX12 (което не е учудващо предвид близо 4-те години разлика в появата им), така и на факта че това беше единствената карта от тестваните с 2 графични клъстера и геометрични енджина и 32 ROP-a. Големият победител от по-ранните версии е Hawaii, който демонстрира често превъзходство далеч надхвърлящо очакваното от увеличения брой CU и разширената шина на паметта, което отново навежда мислите към ефективността на геометричните блокове, теселаторите и броя ROP-ове. Това ясно си личи и при Fiji, при която 45% увеличение на изчислителните и текстуриращите ресурси, 33% на пропускателата способност на паметта заедно с Delta Colour Compression, води до изключително скромните средно около 20% и максимално 30% прираст. Тук може би част от проблема е и в командният процесор на чипа, тъй като очевидно ресурсите не могат да се използват ефективно. Дори и да дадем някой и друг процент полза от гледна точка на факта, че Nano картата все пак не беше на 100% работеща на 1050 МХц (само примерно 98-99% от времето ;) ) това едва ли ще промени факта, че това е може би най-разочароващата от тестваните версии на архитектурата.

На свой ред Vega демонстрира приличните 12% архитектурен прираст, което донякъде компенсира неефективността на Fiji при същата конфигурация, но отново оставаме далеч под типичното скалиране на архитектурата, като имаме повишение спрямо Hawaii от „само“ 33%, на фона на 45% повече CU. Но пък при все повечето блокове е запазена същата геометрична архитектура и 64 ROP-а. Ако към това добавим сравнително доброто скалиране на Vega по честота средно 29% с пикове до 35%, при около 40% повишаване на честотата и 5,5% намаляване на пропускателната, то Vega не изглежда като чак толкова лоша реализация, ако и да не е „феноменална” като примерно Hawaii и Tahiti (спрямо предшествениците му). Ако разглеждаме Vega като идеен наследник на Hawaii (универсален чип за гейминг и изчисления), то сумарният прират от 70% съвсем не е лош. Големият проблем на Вега е, че основата на която стъпва е Fiji, а не нещо с качествата на Hawaii. Както и че нещата се получиха феномелно за конкуренцията на Nvidiа в този период.

Като цяло може да се каже, че самата архитектура на Vega не страда от някакви “стени”, в които да опира, проблемът със скалирането в последните реализации е по-скоро в съотношенията на различните блокове. Заедно с това, изглежда че при високата си честота Vega започва да страда и от известен, макар и не твърде изразен, недостиг на пропускателна способност на паметта. Всичко това говори, че ако наследникът Vega20 бъде пребалансиран с примерно 6 геометрични енджина и 96(или повече) ROP блока, заедно с очакваното двойно разширение на шината на паметта, то може да се очаква свръхлинейно нарастване на производителността, подобно на това при Hawaii. Оставането в сегашната или близка конфигурация може да разчита на прираст практически само от тактовата честота и доста ниска полза от евентуални допълнителни CU, поне за графични приложения. Което само по себе си не би било чак толкова лошо, ако се очакваше преквалифицирането на чипа в по-нисък ценови клас, но предвид използването на 4 стека HBM2 и насочеността към пазара на професионални изчислителни адаптери, то това няма как да се постигне.

И накрая – само по време на дългото съществуване върху 28-нанометровия технологичен процес, GCN флагманите са увеличили производителността си със средно над 75% (1,75х), а за 6-те години между Tahiti и Vega производителността е увеличена с над 150% (2,5 пъти). Дали това е много или малко, е малко сложно да се каже, предвид изключително дългия живот на 28 нм.



Всички страници от статията:

  1. Tahiti и първата версия на GCN
  2. Hawaii, Tonga, Fiji: GCN 1.1 и 1.2
  3. Polaris и Vega: GCN 1.3 и 1.4
  4. Претендентите
  5. Тестова система
  6. Резултати
  7. Обобщения и разсъждения
  8. Консумация и заключение


Страница от ревюто: 1 2 3 4 5 6 7 8




Етикети: , , , , ,


10 коментара

  1. 1 craghack // 06.09.2018 в 08:30

    Таитито го пропуснах. Хавая и вегата ги видях ;)

  2. 2 Mustaka // 07.09.2018 в 18:04

    Аз сега и сега си ползвам 7970-ката на 1600 х 1200 играя си танковете и нямам грижи :-)
    Имах 7990, ама за съжаление нещо се прецака, иначе беше супер карта.

  3. 3 Комаро // 10.09.2018 в 14:50

    Еми колега така е 7970 си е супер карта, ама хора като мен видяха възможност, продадох си вярната ми R9 280X (на проклет копач) която също беше купена от копач ама малко ползвана за 400 лева в бума последния път, а я бях купил за 200 лева предните години, и малко след това изчаках промото на Emag черен петък и отнесох една RX580 8GB за малко над 500 лева, за какво да се занимавам със старата ми акрта, като мога да взема по нова.

  4. 4 Сашо // 10.09.2018 в 18:11

    единно адресиране на паметта, така и не стана реалност доколкото знам

    > безсмислено само по себе си дефиниране (SIMT)

    защо да е безсмислено?

  5. 5 Димитър Чизмаров (DeepBlue) // 10.09.2018 в 19:26

    @Сашо – единнота адресиране на паметта е факт отдавна в архитектурите на АМД, Мисля че от Hawaii нататък и от Kaveri се поддръжа на хардуерно ниво.
    А SIMT е безмислица, просто защото е. Нвидия са натворили купища маркетингови безмислици и това е една от тях. Както и желанието да дефинират отделните АЛУ елементи във SIMD блока като “ядра”, само за да се покажат колко по-напред са от Интел. При положение че ядро в най-дбория слyчай е SM-a.

  6. 6 Сашо // 11.09.2018 в 15:12

    Ако имаш предвид HBCC не мисля, че това може да се брои за единно адресиране. Единно адресиране би значило, че цялата памет на картата е достъпна като RAM за процесора, а аз такова нещо не съм видял (освен може би при някои интегрирани решения /GPU в CPU-то/).
    Имаш ли някаква друга информация?

  7. 7 Димитър Чизмаров (DeepBlue) // 11.09.2018 в 22:58

    Не изобщо нямам предвид HBCC, той е нещо съвсем друго. И изобщо не значи че цялата рам на графиката ще е достъпна за процесора. Между другото по начало има мапинг на видеопаметта към адресното пространво на процесора. Единното адресиране значи че видеокартата “вижда” директно цялото х86 адресно пространство без нужда от транслация, както в предходните модели и което е част от HSA. И да това го имат от доста време. Мисля че това е едно от нещата, които им помага да пускат ония безумни профи модели които имат по 2 ТБ памет (SSD).

  8. 8 Ico // 22.09.2018 в 21:29

    Никъде не пише при каква резолюция са направени тестовете!!!

  9. 9 Сашо // 27.09.2018 в 13:50

    Димитър, достъпът до оперативната памет не може да зависи само от видео картата, а и от останалия хардуер. Доколкото си спомням първоначалната идея на AMD е да има наистина единно адресно пространство, което доколкото знам не се реализира. Мапинг на паметта на картата в адресното пространство на процесора е друго нещо.
    Новите карти ползват PCIe atomic операции с оперативната памет, което е много добро, но според мен не е същото като първоначалната идея. Ето малко информация, как се ползват в момента:
    https://rocm.github.io/ROCmPCIeFeatures.html

  10. 10 Димитър Чизмаров (DeepBlue) // 28.09.2018 в 21:17

    Къде видя да обяснявам, че оперативната памет зависи само от видео картата?! И атомарните операции са нещо отделно, това са просто независими операции.

    Идеята по принцип е, че преди HSA видеокартата си оперира в нейно си адресно пространство (оперативната й памет), процесора си оперира в неговото си адресно пространство. Ако се наложи някаква междупроцесна комуникация, това означва че всеки път трябва да се “превежда” от едното пространство в другото, което отнема време и ако има някакви данни, които се намират примерно в GPU-то, а трябват на процесора, то те трябва да се копират в системната памет.

    Модерните адаптери обаче “разбират” Х86 адресациията и могат да работят с адресното пространство на х86 модела, а паметта на графичният адаптер влиза в общото адресно пространство. По този начин няма нужда от транслация и при нужда както процесора може да чете директно в паметта на картата, така и картата може да чете директно от паметта на процесора, без да се налага преди това да се копират данните локално. Отделно това позволява да се поддържа и кеш кохерентност. Именно това позволява на HBCC да работи (по същество използва оперативната памет, а локалната памет работи като кеш, което няма как да стане с различни адресни пространства) и разни други шукаритети. Нвидия вече също поддържат общо адресно пространство с процесора.

    Ако все още не разбираш какво имам предвид – https://en.wikipedia.org/wiki/Heterogeneous_System_Architecture , http://www.mpsoc-forum.org/previous/2013/slides/8-Hegde.pdf