AMD, 3 Kasım 2022’de Radeon RX 7900 serisi ekran kartlarına ilişkin temel ayrıntıları açıkladı. Sunumda yeni ekran kartları ve yeni RDNA 3 mimarisi hakkında bazı bilgiler verildi lakin çoğu şey eksikti. Şimdi RDNA 3 mimarisinin detaylarına derinlemesine bakış atacağız.
Kırmızılılar yeni mimarisiyle birlikte rakibi NVIDIA’ya bir adım daha yaklaştı. En önemli detaya baştan değinecek olursak, çok yongalı yapısı sayesinde GPU tasarımı baştan aşağı değişti.
Daha önce birçok kez belirttiğimiz gibi, RX 7900 serisinde Navi 31 isimli üst sınıf bir GPU kullanılıyor. Navi 31, Grafik İşlem Kalıbı (GCD) ve Bellek Önbellek Kalıbı (MCD-Memory Cache Dies) olmak üzere iki temel parçadan meydana geliyor. AMD’nin Zen 2/3/4 işlemcilerinde benimsenen çiplet tasarımla benzerlikler var, ancak her şey grafik dünyasının ihtiyaçlarına uyacak şekilde tasarlanmış. Başka bir deyişle, kırmızı takım işlemci tarafındaki deneyimlerini grafik cephesine aktarmayı başarmış.

Navi 21 GPU özellikleri
AMD Zen Mimarisinin Temeli
AMD, Zen 2 ve sonrasındaki işlemcilerde sistem belleğine bağlanan ve PCIe Express arayüzü, USB bağlantı noktaları ve entegre grafik işlemcisi (Zen 4 ile geldi) gibi birimleri barındıran bir Giriş/Çıkış Kalıbı (IOD) kullanıyor. İçerisinde birçok ayrı birim barındıran bu yonga, AMD’nin Infinity Fabric teknolojisiyle bir veya birden fazla CCD’ye (Core Compute Die veya Core Complex Die) bağlanıyor. Bu CCD’ler ise CPU çekirdeklerini, önbellek birimini ve farklı bileşenleri içeriyor.
Çekirdekleri içinde barındıran birimler küçük yapıdayken, IOD yaklaşık 125 mm² (Ryzen 3000) ile 416 125 mm² (EPYC xxx2 nesil) arasında değişkenlik gösterebiliyor. En son teknolojileri barındıran Zen 4 mimarisinde işler biraz daha değişti. Ryzen 7000 işlemcilerde CCD’ler TSMC N5 (5nm), IOD TSMC N6 (6nm) teknolojisine dayanıyor. Yani böyle yapılarda ihtiyaca ve maliyetlere göre kullanılan teknolojiler farklılık gösterebiliyor. Bu da aslında üreticiler için önemli bir avantaj.
RDNA 3 Mimarisine Derinlemesine Dalış
Şimdi gelelim asıl konumuza. GPU’lar bildiğiniz gibi farklı gereksinimlere sahip ve çok farklı yapıda. Grafik işlem birimleri, tüm GPU çekirdeklerini beslemek için bol miktarda bellek bant genişliğine ihtiyaç duyar. Örneğin, 12 kanallı DDR5 yapılandırmasına sahip devasa EPYC 9654 bile ‘yalnızca’ 460,8 GB/s’ye kadar bant genişliği sunuyor. RTX 4090 ve RTX 3090 Ti gibi ekran kartları ise bu miktarları ikiye katlarken 1 TB/sn seviyesinde bant genişliğine sahip.
GPU yongalarının etkili bir şekilde çalışması için AMD’nin farklı bir şey yapması gerekiyordu. Şirket mühendisleri çözümü CPU yapılandırmasının tam tersini uygulamakta buldu: ana işlem merkezi olarak GCD kullanılırken, bellek kontrolcüleri ve önbellek birden fazla küçük yongaya yerleştirildi.
GCD adı verilen birim video kodlama donanımı, ekran arayüzleri ve PCIe bağlantısı gibi diğer temel işlevlerle birlikte Bilgi İşlem Birimlerini (Compute Unit olarak biliniyor) içinde barındırıyor. Navi 31 GCD, tipik grafik işleme görevlerini üstlenmek üzere 96 adede kadar CU barındırabiliyor. AMD, GCD’yi gelişmiş Infinity Fabric teknolojileriyle çipin etrafına yayılan MCD’lere ve kartın geri kalanına bağlıyor.
Adından da anlaşılacağı gibi, MCD’ler (bellek kalıpları) büyük L3 önbellek bloklarını (Infinity Cache) ve fiziksel GDDR6 bellek arayüzünü içeriyor. Bununla birlikte, MCD’lerin GCD’ye bakan tarafında Infinity Fabric bağlantıları yer alıyor.
AMD, TSMC’nin N5 teknolojisini kullanarak 300 mm² boyutundaki Navi 31 GCD’ye 45.7 milyar transistör entegre etmeyi başardı. TSMC N6 bandından çıkan 37 mm² boyutundaki MCD’lerde ise 2.05 milyar transistör bulunmakta.
Yüksek Performanslı Ara Bağlantı Teknolojileri: Fanout
Çipler arası ara bağlantı teknolojileri söz konusu olduğunda birçok endişe ortaya çıkar. Bu noktada ilk olarak Infinity Fabric bağlantılarının gerektirdiği güç (harici çipler neredeyse her zaman daha fazla güç kullanır) akıllara geliyor. Bunun yanında, bağlantı teknolojisinin verimliliği ve hızı çok önemlidir.



Örnek olarak, Zen CPU’larda üretimi nispeten ucuz olan organik bir alt tabaka ara parçası var, ancak 1,5 pJ/b (bit başına pikojul) tüketmekte. Benzer bir yaklaşımı 384 bitlik arayüzde kullanmak çok yüksek güç tüketimine yol açacaktı, bu nedenle AMD Navi 31 ile arayüzü geliştirmek için çok çaba harcadı.
Sonuç olarak ortaya “Fanout” ara bağlantısı olarak adlandırılan bir çözüm çıktı. Slaytlar her şeyi kapsamlı şekilde açıklamıyor, ancak sunum görsellerinde CPU’lar (CPU chiplet bandwidth) ve GPU’larda (MCD bandwidth) sunulan bant genişliğinin farkını görebilirsiniz.

AMD RDNA 3 mimarisi.
İşlemcilerde 25 ara bağlantı bulunurken, GPU’lar için kullanılan 50 ara bağlantı daha küçük bir alana yerleştiriliyor. Bu da güç gereksinimlerini önemli ölçüde azaltıyor. AMD, tüm Infinity Fanout bağlantıları toplamda 3,5 TB/s etkin bant genişliği sağlarken toplam GPU güç tüketiminin yalnızca %5’inden azını oluşturduğunu söylüyor.
Bit başına pikojul (pJ/b) | |
---|---|
On-die | 0.1 |
Foveros | 0.2 |
EMIB | 0.3 |
UCIe | 0.25-0.5 |
Infinity Fabric (Navi 31) | 0.4 |
TSMC CoWoS | 0.56 |
Bunch of Wires (BoW) | 0.5-0.7 |
Infinity Fabric (Zen 4) | ? |
NVLink-C2C | 1.3 |
Infinity Fabric (Zen 3) | 1.5 (?) |
Burada ilginç bir nokta var: hem GCD hem de MCD’lerdeki Infinity Fabric mantığı yongalarda büyük bir alan kaplıyor. GCD’deki altı Infinity Fabric arayüzü kalıp alanının yaklaşık %9’unu kullanırken, arayüzler MCD’lerdeki toplam kalıp boyutunun yaklaşık %15’ini oluşturuyor.
Infinity Fabric arayüzünü ortadan kaldırıp çipi tek bir parça halinde TSMC 5nm teknolojiyle inşa etselerdi, GPU boyutu muhtemelen 400-425 mm² ölçülerinde olacaktı. TSMC N5’in maliyeti TSMC N6’dan çok daha yüksek olacak ki AMD çok yongalı tasarıma geçiş yapmayı göze almış.
Şimdi GPU’nun çeşitli bölümlerindeki mimari değişikliklere geçelim. Değişimi dört ana başlığa ayırabiliriz: çip tasarımında genel değişiklikler, GPU gölgelendiricilerinde (Stream Processors) geliştirmeler, ışın izleme performansını iyileştirmek için güncellemeler ve matris işlem donanımında iyileştirmeler.
İlk başta saat hızları konusunda kafa karışıklığı yaratan detaylar vardı. Şimdi frekans hızlarına ilişkin daha net veriler sağlandı. AMD tarafından sağlanan verilere gelince, RX 7900 XT 2.4 GHz, RX 7900 XTX ise 2.5 GHz yükseltilmiş saat hızına sahip. Ancak şirket RDNA 3 GPU’ların 3.0 GHz hıza ulaşacak şekilde tasarlandığını söylüyor. Referans saatler 500 MHz kadar daha düşük. Bu noktada kırmızı ekibin verimliliği üst düzeye çıkarmak istediğini düşünüyoruz. MSI ve ASUS gibi üretim ortakları güç limitlerini, voltajları ve saat hızlarını isteğine göre yükseltebilir.
AMD’ye göre RDNA 3 GPU’lar yarı güç kullanırken RDNA 2 GPU’larla aynı frekansa ulaşabiliyor veya aynı gücü kullanırken 1.3 kat daha yüksek frekans sunabiliyor. AMD en iyi deneyimi sağlamak üzere frekans ve gücü dengelemek istiyor. Özellikle amiral gemisi RX 7900 XTX’in yüksek güç limitleriyle birlikte yüksek frekanslara eriştiğini görebiliriz.
GPU tasarımcısının dikkat çektiği bir diğer nokta ise silikon kullanımını yaklaşık %20 oranında iyileştirmiş olması. RDNA 2 GPU’larda kart tam yük altındayken bile çipin parçalarının sıklıkla boşta kaldığı işlevsel birimler vardı. AMD’nin sözlerine bakılırsa bu konuda önemli geliştirmeler yapıldı.
Hesaplama Birimleri (CU)
Çiplet tasarımı bir kenara, en önemli değişiklikler Hesaplama Birimleri (Compute Unit-CU) ve Çalışma Grubu İşlemcileri (Workgroup Processor-WGP) tarafında gerçekleştirildi. Bunlar arasında L0/L1/L2 önbellek boyutlarında güncellemeler, FP32 ve matris iş yükleri için daha fazla SIMD32 kaydı ve bazı öğeler arasında daha geniş ve daha hızlı arayüzler yer alıyor.
RDNA 3, RDNA yongaların ana yapı taşı haline gelen Hesaplama Birimleri açısından önemli (çiftli işlem birimleri) geliştirmelerle geliyor. Görsellerde RDNA 3 ve RDNA 2 pek farklı görünmeyebilir, ancak zamanlayıcı ve Vektör GPR’leri için ilk blokta “Float / INT / Matrix SIMD32” ve ardından “Float / Matrix SIMD32” ibarelerini görebilirsiniz. Bu ikinci blok RDNA 3 mimarisinde yeni ve temel olarak kayan nokta veriminin iki katına çıkarılması anlamına gelmekte.




Resmiyette her bir Hesaplama Ünitesi’nde 64 Akış İşlemcisi (Stream Processor) yer alıyor. Her şey RDNA 2 mimarisiyle aynı görünebilir, ancak yeni yapılandırma sayesinde aslında toplam 12.288 ALU (Aritmetik Mantık Birimleri-gölgelendirici) elde ediyoruz.
Yeni RDNA 3 birleşik Hesaplama Birimi’nde 64 adet çift çıkışlı (dual-issue) Akış İşlemcisi (GPU gölgelendiricileri) bulunuyor. Bu RDNA 2 mimarisine kıyasla iki katlık bir fark demek. AMD, her SIMD birimine farklı iş yükleri gönderebiliyor veya her ikisinin de aynı komut türü üzerinde çalışmasını sağlayabiliyor.
Aslında bu konu herkeste kafa karışıklığı yaratmıştı. Bazı yerlerde Navi 31’in 6.144, bazı yerlerde ise 12.288 gölgelendiriciye sahip olduğu söyleniyordu. Baş GPU mimarı ve RDNA 3 tasarımının arkasındaki ana isim olan Mike Mantor, bu konu sorulduğunda 12.288 rakamını verdi. Ancak AMD sunumlarında düşük rakamları kullanmayı seçiyor.
Önbellek ve Ara Bağlantı
Önbellekler ve sistemin geri kalanı arasındaki arabirimleri tümünde geliştirmeler yapıldı. Örneğin L0 önbellek 32 KB’a (RDNA 2’nin iki katı), L2 önbellek 6 MB’a (RDNA 2’den 1.5 kat daha büyük) ve L2 önbellek yine 6 MB’a (1.5 kat) yükseltildi. Ek olarak, ana işlem birimleri ile L1 önbellek arasındaki bağlantı artık 1ç5 kat daha geniş ve saat başına 6144 bayt verim sağlıyor. Aynı şekilde, L1 ve L2 önbellek arasındaki bağlantı da 1.5 kat daha geniş (saat başına 3072 bayt).
Infinity Cache olarak da adlandırılan L3 önbellek Navi 21’e göre (96 MB’a karşı 128 MB) küçüldü. Buna karşılık L3’ten L2’ye bağlantı artık 2.25 kat daha geniş (saat başına 2304 bayt) ve toplam aktarım hızı çok daha yüksek.
Son olarak, GDDR6 bellek yapılandırmasında toplam 384 bit bağlantı için artık 6 adede kadar 64 bit GDDR6 arabirimi var. VRAM toplam 960 GB/sn’lik bant genişliğini ortaya çıkarırken 20 Gbps (RX 6×50 kartlarda 18 Gbps ve orijinal RDNA 2 yongalarında 16 Gbps) hızında çalışıyor.
Başka bir noktaya parmak basacak olursak, GDDR6 ve GDDR6X arasındaki fark da yeni nesille birlikte daraldı. 960 GB/sn bant genişliği sunan RX 7900 XTX, 1008 GB/sn bant genişliğine sahip RTX 4090’a çok yakın. RTX 3090 (936 GB/sn) ve RX 6900 XT’nin (512 GB/sn) arasındaki fark ise çok daha fazlaydı.
2. Nesil Ray Tracing (Işın İzleme)
Işın Hızlandırıcı (Ray Accelerator) birimleri ikinci nesle geçiş yapıyor. Bu birimlerin sayısı aynı kalmış. Yani tıpkı RDNA 2 mimarisinde olduğu gibi, her İşlem Birimi’nde (Compute Unit) birer Ray Accelerator yer alıyor.

AMD RDNA 3 ışın izleme teknolojileri.
Kırmızı takım, çekirdeklerin ışın izleme senaryolarında 1.5 kat daha fazla ışın üretebilecek kapasiteye ulaştığını belirtiyor. Ayrıca GPU’ya ışın izlemeyle ilgili yeni komut setleri de eklenmiş. Her bir CU’da bir RA olduğunu söylemiştik. AMD’ye göre bu birimler eskisine göre %50 daha performanslı.
Yapay Zeka Hızlandırıcı
Bildiğiniz gibi ekran kartları artık birçok alanda önemli rol oynuyor. AMD de her bir İşlem Birimi’ne iki adet Yapay Zeka Hızlandırıcı (AI Accelerator) dahil etmiş. Yapay zeka iş yüklerinde verimlilik artarken performansın 2.7 kata kadar arttığı iddia edilmiş.
Ham işlem gücünden emin değiliz, ancak AI hızlandırıcıların hem INT8 hem de BF16 (brain-float 16-bit) işlemlerini desteklediğini biliyoruz. Yani muhtemelen NVIDIA’nın Tensor çekirdeklerine benzer bir yapı var, ancak desteklenen toplam komut seti sayısı aynı değil. Ne olursa olsun, AMD yeni yapay zeka hızlandırıcılarının 2,7 kata kadar iyileştirme sağladığını iddia ediyor. Hızlandırıcı sayısının artması, daha fazla Hesaplama Ünitesi ve artan verimlilik bir araya gelerek bu performans artışını sağlıyor.
Diğer İyileştirmeler
Komut İşlemcisi (CP) güncellemeleri, belirli iş yükleri için performansı artırırken sürücü ve API tarafındaki CPU darboğazlarını da azaltacak. Donanım tabanlı ayıklama performansı da geometri tarafında %50 daha hızlı ve saat başına en yüksek rasterleştirilmiş piksel sayısında %50 artış var.
Yeni mimariyle birlikte kullanıma sunulan Dual Media Engine, AMD’yi video tarafında NVIDIA ve Intel ile aynı seviyeye getirecek. Ancak kalite ve performansı görmek için detaylı testler gerekli.
AMD ayrıca yeni RX 7000 ekran kartlarıyla DisplayPort 2.1 desteği sunmaya başlıyor. Intel de Arc GPU’larında DP2 desteği sunmuştu, ancak bu destek 40 Gbps (UHBR 10) ile sınırlıydı. AMD’nin bağlantısı 54 Gbps (UHBR 13.5) hıza erişebiliyor.
AMD RDNA Mimarileri
RDNA
|
RDNA 2
|
RDNA 3
|
|
Hesaplama Birimleri | ![]() |
![]() |
![]() |
Ray Tracing | ![]() |
2. nesil | |
AMD Infinity Cache | ![]() |
2. nesil | |
AI Acceleration (Yapay Zeka Hızlandırma) |
![]() |
||
AMD Radiance Display Engine | ![]() |
||
Chiplet Tasarımı | ![]() |
Ekran Kartı | RX 7900 XTX | RX 7900 XT | RX 6950 XT | RTX 4090 | RTX 4080 | RTX 3090 Ti |
---|---|---|---|---|---|---|
GPU | Navi 31 | Navi 31 | Navi 21 | AD102 | AD103 | GA102 |
Üretim Teknolojisi | TSMC N5 + N6 | TSMC N5 + N6 | TSMC N7 | TSMC 4N | TSMC 4N | Samsung 8N |
Transistörler | 58 milyar | 58 milyar | 26.8 milyar | 76.3 milyar | 45.9 milyar | 28.3 milyar |
Kalıp Boyutu | 300 + 222 mm² | 300 + 185 mm² | 519 mm² | 608.4 mm² | 378.6 mm² | 628.4 mm² |
SM / CU / Xe-Core | 96 | 84 | 80 | 128 | 76 | 84 |
GPU Çekirdeği (Shader) | 6144 | 5376 | 5120 | 16384 | 9728 | 10752 |
Tensor Çekirdeği |
– | – | – | 512 | 304 | 336 |
Ray Tracing Çekirdeği |
96 | 84 | 80 | 128 | 76 | 84 |
Boost Saati | 2500 MHz | 2400 MHz | 2310 MHz | 2520 MHz | 2505 MHz | 1860 MHz |
Bellek Hızı | 20 Gbps | 20 Gbps | 18 Gbps | 21 Gbps | 22.4 Gbps | 21 Gbps |
Bellek Kapasitesi | 24 GB GDDR6 | 20 GB GDDR6 | 16 GB GDDR6 | 24 GB GDDR6X | 16 GB GDDR6X | 24 GB GDDR6X |
Bellek Veri Yolu | 384-bit | 320-bit | 256-bit | 384-bit | 256-bit | 384-bit |
L2 / Infinity Cache – Önbellek | 96 MB | 80 MB | 128 MB | 72 MB | 64 MB | 6 MB |
ROP | 192 | 192 | 128 | 176 | 112 | 112 |
TMU | 384 | 336 | 320 | 512 | 304 | 336 |
TFLOPS FP32 | 56.5 | 43.0 | 23.7 | 82.6 | 48.7 | 40.0 |
TFLOPS FP16 (FP8) | 113 | 86 | 47.4 | 661 (1321) | 390 (780) | 160 (320) |
Bant Genişliği | 960 GBps | 800 GBps | 576 GBps | 1008 GBps | 717 GBps | 1008 GBps |
Etkin Bant Genişliği | ? | 2900 GB/sn | 1728.2 GB/sn | 1664.2 GB/sn | – | – |
TDP/TBP | 355W | 300W | 335W | 450W | 320W | 450W |
Liste Fiyatı | 999$ | 899$ | 1099$ | 1599$ | 1199$ | 1999$ |