Cevap: Intel Tick-Tock Modeli

13 yıl (6148 mesaj)

Yarbay

Konu Sahibi

quote:

Orijinalden alıntı: Rubisco

Haswell ile ilgili 2010 da ciddi anlamda yazanlar ciddi anlamda spekülasyon yapanlar varmış yabancı forumlarda (Skywalker @ SA, zaten onun dışında bu kadar abartı radikal ilginç derecede bilgi veren çıkmadı).

Softpedia'daki editörün yorumu gibi, eğer %10 performans artışı olrsa Intel %30 daha fazla para ister, %30 performans artışı olursa %70 daha çok para ister diyor.

Ben Pc labs'da ilk önce aklıma 14 çekirdek en yüksek modeller içindir, 8/16 Xeon gibi diye düşünerek bikaç şey yazmıştım. Sonrasında hem bi iki okuduğum hemde düşündüklerimden dolayı hmm diyip içimden gelen direk haberi abartma reddetme dürtüsünü engelleyebildim.

Şimdi IB nin CPU anlamında çok çok fark yaratmayacağı belliydi zaten, max aralık %5-12 ksrler civarıydı, programa göre o değerlere sığıyor gibi. Bi de her şart altında IPC ve birebir performans / mhz karşılaştırması yapmak pek doğru değil, çünkü 2 farklı nesildeki karşılıkları farklı hızlarda oluyor. SB alacak birisi gider 2600k alır 2700k alan çok az mesela. O zman i7 2600k ile i7 3770k 'yı fiyat ve performansı beraberce düşünerek karşılaştırmak mantıklı, niye testlerde karşısına 2700k çıkarmadılar demek değil. i7 2600k ile karşılaştırınca 3770k nın performansı tatmin edicilikten uzak. Fiyat farkı da var, özellikle de işin içine 3820'yi katarsanız (lga2011 olsa ve anakartları pahalı olsa bile). TR de 3820 en ucuz 640 TL civarında, 3770k 760TL civarında, 120TL fark var az değil.

Bu saçmalıklar niye yazdım, Haswell ile şimdiki CPUların yerini alacak olanların performansları yüksek olsun verimli olsn o bu şu olsn ok bişey demiyoruz, ama hangi Haswell şimdiki hangi işlemciye rakip olacak, hangi performansı hangi fiyat ile verecek bu çok önemli. %10 performans farkına %30 ekstra fiyat ister 400$ etiket koyarlarsa mesela el insaf. O kadar çekirdek görenlerin düşüneceği 2 şey var zaten, önce fiyat oha 1000$ olur sonra da bunlar server içindir üst modeldir faln.

GPU 40EU içerecek, IB'de 16 EU var. SB'de GPU çip içi bus'ı boğuyordu, IB'de daha beter bu durum, 512k cache eklediler. Haswell de 40EU var, grafik olarak iyice radikalleşmesi lazım ki çekirdeklerin iş yapabileceği kadar bantgenişliği kalsın (SB/IB de çekirdekler, memory controller , GPU ring bus / ring interconnect denilen bi tür ortak bus ile birbirine bağlı. SB ye radikal derecede hız kazandıran şeylerden biri buru, çekirdek dışındaki yapının verimi, uncore diyolar buna. Teorik olarak i7'nin mesela bu iç bus yapısı 500GB / s gibi değerlere kadar veri taşıyabiliyor cpu'daki bütün elemanlara. Ama ortalamaya vurursanız, eleman başına 96GB/s gibi değerlere düşüyor. buna 4/8 çekirek, gpu faln dahil. Şimdi GPU 40EU oldumu 2.5 kat daha çok işlem yapabilecek demek, bu da içeriyi mahveder, radikal bi değişime mecburlar). 40 EU + daha çok LLC / L3, daha çok detay faln, ben Ivy Bridge'e çok yakın fiyatı olmasını beklemiyorum. Etiketin 400$ gibi olması lazım bana göre, 2600k'dan 3770k'e fiyat karşılaştırması yaparsak. Fiyat o derecelere çıkacaksa performans ne olacak o var dimi?

IB için niye iyi bi ısı iletkeni kullanmadılar kimsenin bildiğini sanmıyorum. Bi bildikleri vardır demek bi yol, diğer taraftan firmaların zalaklıklarla dolu olduğu da gerçek ama. AMD FX'ler için hiç mi daha önce test yapmadı full hızda çalışan bi örnek üretmediler diye kaç defa soruldu. Aradan dünya kadar zaman geçti, kesin olarak sorunlu gördğümüz yerlerin üretim sırasında AMD tarafından neden sorun olarak görülmediğini düşünüp içimizi yiyoruz. Özellikle de işlemcinin frontend inde L1 cache ve decode ile ilgili sorunları. Adamlar bu kadar mı zalak görmüyorlar dedik de, hiç adamların olsun ağırdan alalım gibi mi düşündüklerine ihtimal vermedik. Yada ağırdan almaları kaşılığında bi yerden para mı aldıklarını (sonuçta pis bi dünyadayız, millet rakibinin çipini götürüp reverse engineering ettirip kar ediyo yada zarardan kurtuluyo. chipworks gibi yerlere bakın googledan). En inanmak istemediğimiz şey, AMD'nin zalak olduğu gerçekten L1 cache, decode vs. gibi şeyleri beceremediği düzgün çözümlerin akıllarına gelmediği (olmaz mı olur, toplumsal zeka diye bişey var, bilim adamları kaç senedir bi protein dizilişini çözmeye çalışıyorlar işin içinden çıkamıyorlar. Fold it diye bi oyun var, DNA faln eğip büküyoruz. Fold it oynayanlar 15 günde bu yıllardır çözülemeyen protein dizilişini çözdüler. Gel burdan yak, bilimadamı diyosun dünya kaynak diyorsun iş çıkmıyo, bi oyun ile millete çözdürmeye çalışıyosun tak diye çözülüyo. AMD yavaş ilerlemek için para almıyor da gerçekten zalaklıktan mı geride kalıyor mesela? bu da var).

Bu kadar lafın geleceği yer, Skywalkerın dediği benim az bahsettiğim şey: Intel bu Haswell de prefetch(komutları işlemciye önyükleme) >> predecode (önceden decode etme çözme) 'dan sonra bi tür Superfusion yapacak diyor. Yani Haswell mimarisi, komutların Superfuse edilmesini temel alan bi tür Super CISC yapısı. Şimdiki işlemciler komutları alıyor çözüyor(çözülmüş ve işlemcinin çalıştırabileceği hale getirilmiş sabit uzunluktaki parçalar oluyorlar, bunlara da micro ops deniyor yada uops, micro operation'ın kısaltması ). Scheduler/reorder denen kısımlarda, bu bir önceki adımda çözülüp uops(micro ops)'a dönüştürülmüş parçalar, kendi aralarında düzenlenip gruplanıyor. Bu gruplanma olayına da Fusing deniyor, mikro parçaların birleştirilip daha aşağıdaki execution unit denen komutun çalıştırılmasını sağlayan yere tek parça olarak gönderilmesi işlemi. Bu mikro parçalardan oluşan(uops), birleştirilmiş büyük yapıya da macro ops deniyor. Macro opslar büyükler ama aşağıdaki execution unitlerde bağımsız olarak çalışacak şekilde düzenlenmiş parçalardan oluşuyor ve bu saydede execution unitler hiç boş kalmadan çalışmaya devam edebilir.

Fetch >> Decode >> schedule/reorder kısmı şimdi bildiğimiz anlamda en kabaca böyle işliyor.

Intel, eğer spekülasyon doğru ise, AMD'nin Bulldozerdeki modül yapısını alıp bi sonraki seviyeye taşıyacak. AMD'nin modul ve çok çekirdek yapısına CMT deniyor (chip multi threading), her bi modülün birden çok çekirdek içermesi olayına, fiziksel olarak her modülün mesela AMD için 2 thread çalıştırabilmesine CMT deniyor yani. Intel'in yapacağı ise, bu Bulldozer ve CMT'nin daha devasa versiyonu, o yüzden eleman buna Fat CMT(şişman / büyük CMT) demiş.

Intel bu yukardaki komut çözme vs. işleminde : pre-fetch >> pre-decode >>>> L0 cache ve Superfuse gibi bişey getiriyor. L0 cache MB mertebesinde olabilir, komutlar micro ops olarak çözülüp, bağımsız olarak çalışacak şekilde yeniden paketlenip büyük bi paket elde ediliyor ve bu büyük paket L0 cache de depolanıyor.

Execution unitler, komutları işleyecek olan kısımlar bu Superfused edilmiş büyük paketleri birbirinden bağımsız olarak işleyecekler. Ortada Kocaman bir Havuz var ve çekirdek dediğimiz şeyler bu havuza bağlı. Bu şekilde bi yapı, şimdiki işlemcilerden farklı olarak her bi çekirdeğin kendi başına fetch >> decode >> reorder/shceduler ve ayrıca L1 code cache gibi parçaların olması zorunluğunu ortadan kaldırıyor. AMD nin modül / çekirdek yapısına benziyor ama AMD'de her bi modül de çekirdekleri beslemek için ayrı ayrı devreler var. Her bi modülde bu fetch >> decode >> reorder L1 cache vs. gibi yapılar var. Intel'de ise bi tane kocaman havuz ve buna bağlı çekirdek benzeri diyebileceğimiz yapılar olacak (işin püf noktası burada).

İşin püf noktası, eğer bu spekülasyona benzer bişey olursa, çipin tamamı bizim bildiğimiz anlamda TEK ÇEKİRDEK, tek bir yapıdan oluşuyor (yani 4 çekirdek demek aynı çekridekten 4 tane var dmek bizim bildiğimiz anlamda, bunda ise tek bi tane büyük yapı var). Intel, bu yukarda bahsettiğim L0 cache / Havuz dediğim şeye bağlı execution unit / pipeline denen ve normalde komutların işlendiği yerlere çekirdek diyor olabilir(normalde bizim bildiğimiz çekirdeklerin içinde execution unit denen yapılar bulunur, mesela AMD FX lerde, her bi çekirdekte 2 tane ALU var bunun gibi ).

Bunu haklı çıkartıcak neden, Slaytda min. 10 çekirdek demesi(10 fiziksel çekirdek + HT). Günümüz için minimum çekirdek sayısı Celeron g530 ve sonrası için 2 çekirdek iken, mesela 2 çekirdekli Celeron Pentiumlar bi sürü iş için yeterliyken, i3 ler mesela bazı alanlarda AMD ye kök söktürebilecek kadar iyi ve ihtiyaç karşılayabilecek iken, birden bire en az 10 çekirdeğe geçiş diyor slayt.

Bunun ardındaki neden, Haswell'de Intel'in çekirdek kavramını, bizim yıllardır alıştığımızdan farklı anlamda kullanıyor olması olabilir. Mesela slaytdaki minimum 10 çekirdek demek, bizim bildiğimiz anlamda 2 çekirdek anlamına gelebilir (3 ALU + 2 FP = 1 çekirdek, yani toplamda 3 ALU + 3ALU + 4 FP = 10 çekirdek gibi).

Şimdi eğer durum bu ise, korkunç derecede performanslı olabilir. Çünkü bu tür bi yapı, Dinamik Threading denen bir şeye imkan veriyor. Yine bizim bildiğimiz anlamdaki çekirdeklerde, mesela 4 çekirdek i5 üstünde(i5 2500k gibi), CPU aynı anda 4 thread işleyebilir çünkü 4 çekirdek var. Single Thread bir program çalışırken, sadece 1 çekirdek aktiftir ve o çekirdeğin kaynakları kullanılır.

AMD FX lerde, yine yapısından dolayı, Single Thread 1 modüldeki 1 çekirdek tarafından çalıştırılır (veya sonuç bu yönde), bu yüzden de AMD'nin single-thread performansı düşük. AMD bu modul-çekirdek işini, 1 single-thread 2 çekirdeğin kaynaklarını kullanacak ve 2çekirdek aktif olarak çalışacak şekilde yapamıyor, veya sonuç bu yönde. Single-thread performansı kötü sonuçta.

Bu Intel'in Dinamik Threading olayında, diyelim işlemciye çalıştıralacak 1 thread yollanıyor. Çipin tamamı tek parça olduğundan, thread'in komutları ön işlemden geçirilip bu L0 cache Havuzuna alındıktan sonra, birden çok sistem kaynağı tarafından çalıştırılabilir durumda oluyor, sistem buna imkan veriyor. Yani yeni çekirdek deidğimiz şeyler (aslında Execution pipe / unit olan şeyler), hepsi bir arada aynı anda çalışıp, bu single-thread'i sanki multi-thread'miş gibi çalıştırabiliyor. Bu da mesela i5 single-thread için atıyorum 1x performans veriyorsa, böyle bi yapı 2x-4x fark yaratabilir, üstelik single-thread olarak.

Bu kadar spekülatif ve radikal farklılaşma olurmu bilemiyorum ama az çok benzeri olursa korkunç hızlar olabilir demek. Yazmaktan üşenmedim ama diyagram çizmek zoruma gitti, gaza gelirsem denerim artık.

GPU için bide, Intel'in kendi slaytları vardı. SB/IB'den farklı olarak, GPU da L3 cache kullanacak diyordu, yani ortak olacak. Çekirdek başına 2.5 MB olayı bununla da alakalı olabilir ve herkezin beklediği 64 MB L3 cache veya GPU-RAM beklentilerini foss çıkartabilir. Doğruya doğru hakkını vermek gerekirse, IB 'de 16 EU ve 512KB cache var. Bus'ı boğsa bile SB'ye göre çok daha ileride perf. olarak. Haswell de 40 EU olacak ve GPU L3 cache kullanabilecek. 16 EU ve 512KB'dan 40 EU ve 25MB'a kadar (25MB'ın hepsini GPU kullanamaz tabii ki de max değer olarak yazdım).

Eğer Xeon için değilse, masaüstü için en az 10 çekirdek(veya şimdiki anlamda 2-4 çekirdek) + HT + 25MB L3 + 40EU GPU çok ilginç demek.

Kardeşim çok mükemmel anlatmışsın olayı

çok teşekkürler verdiğin bilgiler için. Gerçekten çok bilgilendirici bir mesaj olmuş (çoğunu anlamasam da

).

Bu mesaja 1 cevap geldi.

H

Hiper-Nova

13 yıl (8625 mesaj)

Yarbay

Tick dediği zaman anlayın ki para biriktirmeye başlayın, Tock dediği zaman anlayın ki Intel tüm paraları götürecek.

R

Rubisco

13 yıl (5244 mesaj)

Yarbay

quote:

Orijinalden alıntı: SPL3NDOR

@Rubisco, bu konuyla ilgili gelişme oldumu, bilgin varmı? Nette bir şey yok, sadece wikide cache yapısının yenileneceğinden falan bahsetmiş.

Günde 40 posta dedikodu vs. kurcalamama rağmen bişey yok. En son bi ES vardı fake değil sanırım 2 çekirdekli, superpi vardı i7 den çok kötüydü.

Masaüstü için GT1/GT2 diye GPU versiyonu olacak, yani en hızlı GPU sadece mobilde olacak(GT3). GT3 denilen mobil versiyon 40 EU içerecek. Büyük ihtimalle bantgenişliği yüzünden limitlenecektir (CPU içi ve dışı), belki teorik olarak en en çok 6670 performansı olabilir en ampirik sallamasyon tahminle . Tabi sadece mobilde olacağı için GT3 içeren versiyonları 400$ dan başlayabilir hızlı olanları. Bide bunların Ultra Low Voltage versiyonları olacak. (bi de Ultra High Price (gırgır ://) )

Diğer şeyleri hakkında bu söylentinin gerçekleşmeyeceği gibi imaj uyandırıyor. FMA3 / AVX2 ' ile çok yüksek hesap kapasitesine ulaşacak gibi ama bu sefer de yine CPU içi veriyolu sorun olacak ve FMA ile yazıldığı çizildiği kadar yüksek perf üretemeyecek gibi, ama yine de şimdikinden çok çok daha yüksek gibi olacak. Ekran kartlarında olan gater/scatter gibi bişey var. AVX2 nin performansını bu çok yukarı çekecek. Bide AVX için integer desteği faln olacak. Bunlar dışında da çekirdek performansı en çok %15 civarlarında artacak gibi. Diğer uğraşmaları gereken şeyler, GPU CPU FMA AVX gibi, çip içi bant genişliğini çok fazla tüketecek. Bunların üstüne extra maliyet koyup 256bit iç bus yapısı yerine 512bit bus yapısı gibi bişey olmayacaktır diye düşünüyorum. Nesiller arasında %15 fark kabul edlebilir ama uç extrem durumlarda özel durumlarda farklar çok yükseklerde de olabilir. AVX2 kullanılmış render kodunda atıyorum %30 daha hzlı olur demek gibi. Önceden farklı olarak, daha şimdiden AVX2 için kullanılablir kod kütüphaneleri var. Agner Fog'un assembly optimized AVX2 kütüphanesi var hazır, açık kaynak olarak ve süper duruyor. Şimdiden hazır kod yazıp çipi beklemek gibi konumda da olablir geliştiriciler (SB üstünde emülasyon yapmak işe yaramıyor gather/scatter için).

Sanki ancak 1-2 ay sonrasında Trinity / Vishera ile ilgili daha çok şey ortalıkta dolaşınca Haswell ile ilgili bilgiler de ortaya dökülür. Bende GPGPU ile kıyaslanabilecek performans verip vermeyeceğini merak ediyorum, benzeri merak içinde olan çok insan var(iş güç için bunu bekleyen de).

R

Rubisco

13 yıl (5244 mesaj)

Yarbay

Ewt Trips deneysel bişey(yeterince para bulamayan ve tam o haliyle hayata geçemeyenlerden. Ama öğrenilen know-how proje destekçileri tarafından kullanıldığından başka şekilde Intel'e hizmet ediyor da olabilir, veya TI'ya), gpu ya benzer fakat tam gpu gibi olmayan aynı anda hem latency (gecikme) hemde throughput (işlem miktarı) optimize olan sistem gibi bişi. AVX2/FMA3 ile Intel'in amaçlarından biri aynı anda düşük latency ve yüksek throughput bi sistem oluşturmak. GPGPU'yu baltalayacak sonunu getirecek diye çok uç derecede yorum yapanlar bunlara çok güvenenler var. Haswell 2013'de 3. ayında falan çıkması lazım. O zman bütün taşlar dökülecek ortaya ve Intelin 2-2.5 sene boyunca ne verebileceğini bilebilecez.

Tek işlemci ile bu AVX2 ile 500GFLOP civarında sürdürülebilir performans verebilirse (sustaining) ve bi sürü programlar yeniden AVX2 kullanıcak şekilde kısa sürede patchlenebilir veya yeniden bazı kısımları güncellenebilirse, en azından o kısımlar alanlar için çok yüksek perf verebilir. Ama SB'ye göre %30ları pek geçebileceğini şimdilik düşünmüyorum. Kod optimize edilmesi yada belli kısımlarının yeniden yazılması derken, ciddi ciddi yeniden yazılmasından yada programın belli modüllerinin faln cidden değiştirilmesinden bahsediyorum. Şunu kimsenin bildiği yok mesela bugun : 3dsmax da aslında progrmaın render motorunun şu kısmı aslında şu şekilde yazılsaydı %15 daha yüksek perf verebilirdi. Kapalı kaynak olduğu için kimse bunu söyleyemeyecek hiçbir zaman. Böyle olunca da AVX2'ye mesela ne kadar hızlı / verimli adapte olacak benim kafamda sorgulamama yol açıyor. Doğru biliyorsam Linux için olan Maya GCC 4.1 ile faln derlenmiş olması lazım. Şu an GCC 4.8 var, ve kesin olarak belirgin oranda hızlanma sağlardı 4.8 ile yeniden derlenmiş versiyonu olsa. Başka bi çok alanda GCC 4.1 vs. 4.8'in deve yüküyle perf. farkı yarattığını biliyoruz. Kapalı kaynak programların bundan yararlanabileceğini düşünüp aslında yeterince yararlanmadıkalrı varsayımında bulunmak yannış değil bu yüzden. Blender'da 2.63a'da custom buildlerde %50 ye yakın hızlanma elde ettiklerini iddia edenler var mesela win64 ortamında, MiniGW ile.

Sonuçta annatmak istediğim teorik olarak AVX2/FMA3 getirisi çok, ama başarısı doğal olarak ne derecede hızlı adapte edilebileceğine bağlı.

Sırf compiler ile belli Flaglar ekleyip derlemeye kalkınca auto vectorize etmeye kalkınca, şimdiye kadar hiç öyle fazlaca işe yaradığını görmedik. Öyle ki i7 de, core2 (SSE2, SSE3, SSSE3), corei7 (SSE2/3/4/4.1a), corei7-avx (SSE2/3/4/4.1a/AVX/PCMUL) flaglar ile aynı kodu derleyip test ettiğiniz zaman hemen hiçbi fark gözükmüyor. Çok az yani fark, AVX'in burda getirisi ne ki dedirtir. Ancak özel olarak ana programın içinde AVX kullanırsan işe yarar hale geliyor, bu da dediğim gibi programın belli yerlerinin yeniden yazılması demek.

Bi istisna, bu AVX2 ve bazı ilave nedenlerden auto vectorization şimdiye kadar hiç olmadığı gibi kolay düzgün yolunda işleyecek diyorlar. Eğer cidden öyle olursa, programda belli yerlerin yeniden yazılmasına gerek kalmadan sadece yeniden derlenerek bile iyi bi perf artışı elde edilebilir.

Onun dışında benim daha önceleri bahsettiğim tarzlarda anormal derecede farklı bi sistem olmayacak gibi duruyor.

Bugun SA'da yazıyordu, mobil çiplerde olacak GT3 GPU'lardaki 40 EU'nun amacı daha yüksek perf değil, frekansı düşük tutup daha çok güç tasarrufu elde etmeyi amaçlayacaklarmış. GT1/2 1200mhz GPU hızında çalışırken GT3 800mhz veya daha düşük frekansda çalışacakmış. Overclock edilebilir mi, fişe takılı iken imkan olurmu vs. bilmiyorum, ama böyle olursa biraz tuhaf olur gibi duruyor(ama beklenebilir elbette).

Vektroize edilebilir her işi AVX2 ile işleyecek, %15 civarı bi çekirdek performansı artacak, VRM'nin çip içine alınmasından daha stabil voltaj elde edilebilecek heralde. i7 860 nasıl i7 3770k'dan çok geride değil, ama frekansı, overclock edilebilme miktarı, turbo işlevselliği, düşük gecikme süresi vs. gibi nedenlerle nasıl 3770k daha iyi diyorsak Haswell'de buna benzer olacak gibi duruyor şimdilik. Ekim-kasım sonrasında detaylar dökülmeye başlar zaten.