AMD Radeon VII

AMD Radeon VII

В раздел: Ревюта, Ревюта, статии и ръководства от на 7.02.2019, 11,046 показвания
Страница от ревюто: 1 2 3 4 5 6 7 8 9


Consumer Electronics Show в Лас Вегас е едно от ключовите събития в компютърния свят. То се провежда малко след Нова Година и за първи път тази година компанията AMD заяви една от ключовите презентации. Очакванията за нея бяха доста сериозно предвид появилите се в края на миналата година слухове относно очакваните процесори от серията Ryzen 3000, както и графичните чипове Navi.

Противно на това не видяхме много по темата, освен един инженерен семпъл на 8-ядрен Zen 2 чип срещу Core i9-9900K в Cinebench, а единственият анонс се оказа на Radeon VII, първият потребителски графичен адаптер с чип произведен по 7 нм технология. Това за мнозина може би се оказа леко разочароващо, тъй като в основата на новият продукт лежи познатият преди като Vega20 процесор, използван в професионалните графични адаптери Radeon Instinct, които бяха обявени още през ноември 2018-та година. Заявката на AMD беше за конкурент на GeForce RTX2080, а официалната дата за появата в продажба се оказа 7.02. 2019. И така нека да видим какво представиха от AMD и дали то покрива очакванията.

Vega20

Зад изненадващо простото име на новият графичен процесор се крият няколко алюзии – от една страна имаме римската цифра VII, свързана със 7-нанометровият производствен процес, от друга страна може да се разгледа като V II/V-2 или Vega 2, т.е. втора версия на архитектурата Vega и накрая, вероятно с известно натягане по темата, може да се разглежда и като 7-мото поколение на базата на GCN архитектурата.

Графичният чип Vega20 всъщност е доста праволинеен – в общи линии може да се каже че това е директно смаляване на познатия Vega10 от 14 на 7 нм технология. Базовата организация на чипа е запазена (почти) изцяло – 4 графични клъстер, 64 NCU (4096 АЛУ, 256 текстуриращи блока), 4 ROP дяла (64 ROP блока). Единствената разлика е, че сега се използва 4096-битова шина към HBM паметта, съответно чипът използва вече 4 стека памет или общо 16 ГБ. Според AMD това се е случило благодарение на смаляването от новия техпроцес, тъй като размерът на чипа е намалял от 495 кв.мм, на 331 кв.мм, което е освободило място на интерпозъра за нови 2 чипа.

На ниво архитектура промените се състоят практически в добавянето на поддръжка на куп нови формати, използвани за различни изчисления. От една страна имаме добавена поддръжка на двойна точност(FP64) с производителност ½ от тази на единичната точност(FP32), което липсваше във Vega, от друга страна имаме добавянето на пакетирани INT8 и INT4 инструкции, често използвана при работата с невронни мрежи, в добавка към вече наличната поддръжка на пакетирани FP16. При това положение броят изпълненити операции се удвоява за FP16, учетворява за INT8 и увеличава 8 пъти за INT4. Съобразно това е увеличен и броят на регистрите в чипа.

Другата основна промяна е свързана с алгоритъма за регулиране на честотата спрямо температурата на чипа. Досега за целта се е използвал базовият датчик в периферията на чипа, който се отчита и от диагностичните програми. В същото време в оригиналният Vega10 чипа има още 32 термосензора, а във Vega20 те вече са 64 броя разпръснати на ключови места в него – между изчислителните блокове, контролери на паметта и т.н. На тяхна база се генерира така наречената Tjunction температура или най-високата температура в рамките на чипа. Именно Tjunction вече се използва за регулация на честота, като се предполага че по този начин се отразяват по-точно условията в чипа и потенциално това му помага да поддържа по-високи работни честоти, както и по-фина регулация, когато се налага намаляване на честотата. Според АМД тази промяна води до 2% по-добра производителност.

И в общи линии това изчерпва промените в чипа.



Всички страници от статията:

  1. Vega20
  2. Radeon VII
  3. Тестова система и приложения
  4. Резултати 1440p
  5. Резултати 4К
  6. Резултати eSports@1080p
  7. GPGPU и криптомайнинг
  8. Консумация
  9. Заключение


Страница от ревюто: 1 2 3 4 5 6 7 8 9




Етикети: , , , , , ,



12 коментара

  1. 1 Гого // 07.02.2019 в 18:11

    Определено процентната разлика в синтетичният тест където RТХ убедително води, не отговаря на положението при теста с реални игри. Все едно 3Д Марк е нарочно нагласен да дава фейк предимство на Нвидиа картите.

  2. 2 Гого // 07.02.2019 в 18:15

    Олеле, криптоминьоирте ще я изядат тая карта!

  3. 3 компира // 07.02.2019 в 22:24

    Щяха да я изядат при други обстоятелства, но при актуалния крипто-миньорски профит – няма начин. В момента никой не купува нови карти за земекпопни дейности, особено тази скъпа бангия…

  4. 4 Гого // 08.02.2019 в 00:56

    Navi също ще е GCN, ако не се лъжа. В него основно макро архитектурни промени ще има. Нещо от рода на ЗЕН, (относително)малки хм…чиплети, за по-лесно и евтино производство, комбинирани върху една подложка.Това е една от причините, да се спряга ниска цена за малкия Navi, който ще се продава през тази година и ще конкурира като цена/производителност. Виж в Арктурус, ще има и нова архитектура на ниско ниво, която я има описана в тази статия:
    http://hardwarebg.com/51194-%d0%bf%d0%b0%d1%82%d0%b5%d0%bd%d1%82-%d0%bf%d0%be%d0%ba%d0%b0%d0%b7%d0%b2%d0%b0-%d1%87%d0%b5-%d1%81%d0%bb%d0%b5%d0%b4-navi-amd-%d0%bc%d0%be%d0%b6%d0%b5-%d0%b4%d0%b0-%d0%b8%d0%b7%d0%bf%d0%be%d0%bb/
    Там вече нещата могат да напреднат значително стига физическото разделяна на чипа да не създава неприятности, но това разделяне, ще се оттренира още с Navi, поне аз така мисля. През миналата година има всякакви слухове, че Navi ще е монолитен чип в средата на годината, но по-късно почнаха да се появяват и други мнения.

  5. 5 Denislav Slavchev (acdc) // 08.02.2019 в 08:32

    Щяхя да я изядат, ако се беше появила преди 1 година. Сега вече на никой не му пука.

  6. 6 gazorpazor // 10.02.2019 в 19:45

    читава 1080ти ми се вижда най на сметка,всичко друго не си струва парите.
    малцина се тези който играят и даже се замислят за 4к гейминг,че да имат нужда от 16 рам
    С тая архитектура само сметката за тока ще расте …

  7. 7 xcmn // 11.02.2019 в 02:29

    тоя чип спокойно можеше да бъде 6144/3072 бит в същата площ и да изрине всичко с 60% производителност над 2070 или на нивото на 2080Ti и с 12GB и така да спестят 75$ от единият чип памет. сега е супер диспропорционално проектиран… и за 10% над 2070 искат 40% кинти.

  8. 8 Димитър Чизмаров (DeepBlue) // 11.02.2019 в 12:37

    @gazorpazor – пропуснал си че 2 от игрите в теста заемат 11 ГБ дори на ФХД (Apex Legends, Quake Champions)… тия 16 ГБ памет може да не са обезателно моментно нужни, но ако взимаш с идея за бъдещето са от полза. А и да не забравяме че АМД я рекламират и като карта за разни професионални приложения, където паметта е от полза.

    @xcmn – това са някакви фантазии, как точно ще събереш 50% повече шейдери в същата площ? Съответно чипа ще е бая по-голям и няма да има място за HBM чиповете. Да не говорим че частта с 3-те чипа е силно съмнителна като цяло, щото дори Titan V с 3096-битовата си шина и 12 ГБ рам ползва отново 4 чипа на подложката.

    И не на последно място, от много време се убеждавам че GCN страда от проблем със скалирането при голям брой CU-та, още от Fuji насам. Като втория проблем е лошото съотношението между ROP-ове и CU-та. Т.Е. чип с просто набити 96 CU-та най-вероятно нямаше да свърши кой зае колко повече работа, предвид факта и че трябва да работи на по-ниски честоти. Т.Е. при текущото балансиране на чипа, АМД са приели правилния подход да надуват честоти, вместо брой шейдери.

    Вече може да се поспори дали не са можели да минат със 2048-битова шина и 1200 МХц на паметта, щото ако не се лъжа някоя от фирмите беше анонсирала подобна HBM2 памет, но каквото такова. Факт е, че има compute приложения, които успяват да използват пропускателната, така че не може да се твърди че е напълно излишна.

    GCN има нужда като минимум от пребалансиране на съотношенията между изпълнителните устройства и оптимизиране на диспечерирането вътре в чипа. Примерно да се увеличи размера (128 ALU примерно) на CU-тата за сметка на по-малък брой (както при архитектурите на NV, което да намали комуникацията вътре в чипа, което съответно ще подобри и консумацията, и ефективността на чипа. Да се увеличи броя на графичните клъстери и броя на ROP-овете и т.н.

    Само че това очевидно не може да стане с директно смаляване, както и подобно нещо не се прави в началото на усвояването на нов техпроес с големи чипове. Може би в Navi ще видим част от нещата.

  9. 9 gazorpazor // 11.02.2019 в 15:24

    ще се радвам да видя едно обзорно ревю на 1080,2080 и радеон 7.
    като се наблегне на fulhd и 1440к резултати. където лично според няма полза от толкова много рам.

  10. 10 Гого // 11.02.2019 в 21:54

    @Чизмаров “което да намали комуникацията вътре в чипа…което съответно ще подобри и консумацията, и ефективността на чипа”
    Ммм, аз още не съм в час явно. Пък ако няма никаква комуникация, това по тази логика води до никаква консумация и безкрайна ефективност, важното е да се наблъскат повече ALU-та :)
    Нищо де, нали за бъдещата NEXT GEN архитектура на АМД, вече спрягаме усложнени, така да се каже по-“умни” ALU-та, та като ги насложат едни такива, сигурно от комуникация въобще няма да има нужда, суровата информация ще стига до входната шина, а на изходите направо ще излиза готова продукция, без никаква комуникация в GPU-то ;)

  11. 11 Димитър Чизмаров (DeepBlue) // 12.02.2019 в 12:36

    @Гого – при нужда от поддръжка на кохерентност на данните или междупроцесна комуникация, се налага да се предава информацията до всички единици в чипа. Съответно количеството информация нараства експоненционално на броя единици в чипа, т.е. дори относителния дял да не е голям в началото с нарастването на единците дела нараства експоненциално. Т.е. намаляването на броя им примерно наполовина ще намали комуникацията за такива задачи повече от наполовина. Това не е цялата предавана информация разбира се, но колкото повече единици има, толкова по-голям дял от общия обем отива за това. Тъй че в един момент нататък почва да пада и ефективността от добавянето на повече единици.

    Грубо казано, ако при 8 CU комуникацията за кохерентност, междупроцесна комуникация и т.н отнема да речем 0,5 % от общата вътрешна пропускателна способност, то при 64 CU това да речем вече да отнема примерно 25-30%, докато при 32 CU този процент ще е примерно 7-8%. Не го вземай като реални цифри, това е просто пример, може със същия успех да е 0,1% и 1,5-2% и 5-6% примерно.

    А в съвременните чипове, предвид малките размери на транзисторите спрямо дължината на “опроводяването”, много съществена част от консумацията идва именно от предаването на данни. Т.Е. намаляването на трафика в тази област ще повиши ефективността и ще намали консумацията. Може да не е крайно драстично, но при толкова голям брой изчислително блокове ще е измерим ефект.

    Не случайно в Turing йерархията на диспечериране е дълбока цели 4 нива – GigaThread Engine->GPC->TPC->SM. По тоя начин се постига по-ефективно разпределяне на задачите и се намалява комуникацията между блоковете, което естествено води до по-добра ефективност. На тоя фон АМД имат 3 нива – Command Processor->ShaderEngine->CU.

    В добавка ми е интересно и какъв е ефекта от ползването на Infinity Fabric за вътрепроцесорна комуникация, имам чувството че повишава ефективността на използване, но за сметка на консумацията? Но пък за профи приложенията или за евентуални многочипови модули ще е доста ефективен вариант. Т.Е. размяна на повишаване на консумацията за хипотетично по-висока ефективност в определни ситуации. Не казвам че е точно така, но така изглежда за мен.

  12. 12 Гого // 12.02.2019 в 13:56

    Единствената причина да се използува фабриката е, че все някак трябва да се комуникират отделните комплекси. За съжаление тъкмо разделянето на отделни комплекси, което поевтинява изработката, увеличава латентността на връзката, защото налага използуването на допълнителен компонент в GPU-то какъвто е IF. Разбира се, латентността не е толкова качество само на шината, но и на разстоянието между комплексите (CCX) Едва ли самата шина харчи нещо. Има, ако те се лъже блокове пакетиращи данните от комплекса, който в даденият момент предава данни към другият(или другите) през IF и разопаковащи ги, в комплекса на другия край на шината, който играе ролята на приемащ данните, както и блокове за проверка за грешки. Не би трябвало да харчат кой знае колко, но въпреки това се отчитат осезателно. Макар че…Хм, тук има някакво инфо по въпроса с консумацията на IF:
    https://www.anandtech.com/show/13124/the-amd-threadripper-2990wx-and-2950x-review/4