Informatika | Számítógép-architektúrák » Sima Dezső - Korszakváltás a processzorok fejlődésében, előadás-fóliák

Alapadatok

Év, oldalszám:2006, 61 oldal

Nyelv:magyar

Letöltések száma:215

Feltöltve:2005. március 22.

Méret:4 MB

Intézmény:
-

Megjegyzés:

Csatolmány:-

Letöltés PDF-ben:Kérlek jelentkezz be!



Értékelések

Nincs még értékelés. Legyél Te az első!


Tartalmi kivonat

Korszakváltás a processzorok fejlődésében Sima Dezső 2006. Szeptember Felépítés • 1. Processzorok teljesítménye • 2. A processzorok hatékonysága • 3. A processzor hatékonyság stagnálása által kiváltott főirányok áttekintése • 4. Az órafrekvencia • 5. A Hatékonysági korlát • 6. A disszipációs korlát • 7. Párhuzamos buszok frekvenciakorlátja • 8. EPIC architektúrák/processzorok • 9. Paradigmaváltás erőteljes növelése fejlődési 1. Processzorok teljesítménye 1.1 Bevezetés (1) .~b~zc§1·9~{j~,1j;~t:f~~FiJ Eredményesen végrehajtott utasítások száma/sec ~i Egy benchmark programcsomag valamely referenciarendszeren és a vizsgált rendszeren mért futási idöinek összevetése az alábbi értelmezéssel: = fc * IPCeff Eredményesen végrehajtott műveletek száma/sec (SIMD) Pao * fnref = Jre * IPC,ff e * OPI fnv 11 t Órafrekvencia IPC: Utasítások száma/ciklus OPI: Műveletek

száma/utasítás PI: SPECint92, SPECint base2000 1.1 Bevezetés (2) Pa ~ Paz. = le I * IPCeff IPCeff == IPC * rJ ahol: IPC : kibocsájtott utasítások száma ciklusonként : eredményesen végrehajtott/kibocsájtott 1 utasítások száma (spekulatív végrehajtás hatékonysága) 1.1 Bevezetés (3) Teljesítmény/hatékonyság vizsgálatokban: Elvi értelmezés: t Gyakorlati mérés: pa2 ? pal Pa Pr P,.2 P,.l 1.1 Bevezetés (4) Ha teljesülne: f lref f 2ref f nref f ref fref P=r f V Ez esetben: P,.2 ( 1.1 Bevezetés (5) De mivel: Intel Co:rporation 833 Intel D850MD motherboard (2.4 GHz, Pentium 4 processor) l3 .ii,,, SlfClí<ima>: a.,,Junork a.,••,,•• a lmi• 1400 1400 w.i IU<la<t: llunrime Roarim• Il>do 155 28S 905 486 288 955 115 S6S 317 568 813 122 817 826 152 921 487 959 181.mcf 1800 186.mt 1000 115 317 123 1800 218 826 1300 116 1116 218 102 1800 178 1013 178 1013 1100

1083 101 1085 1900 1500 102 144 1317 649 3000 551 545 141 227 553 1347 131 1100 197. er 300.twolf ~-·· ~«-=·::•··, "" ;,.:;·r-<:: ·•, ·-, ; ., - r •• • ••• • • • - •~• - •• < s:•: ,~ ~•• t2TS 660 543 1.1 ábra: Programcsomag egyes programjainak futásidő arányai Forrás: http://www.specorg 1.1 Bevezetés (6) Két rendszer teljesítményének összehasonlításakor: A fenti közelítés trendvizsgálatokban megengedhető. 1.1 Bevezetés (7) Két rendszer hatékonyságának összehasonlításakor: 1.2 A processzor teljesítmények növekedése (1) SPECint92 10000 1Leveling I off 1 P4/3200 ,, •• Prescott (2M) L.• ·Prescott (1M) P4/l4ÖÓ~ • Norihwood B P4/lOOOV P4/2800 D•"""• · • P4/l200 / P4/1700 Plll/600 / . l>JIJ/1nM PIU400 , - -- Plll/500 Pll/300. Pll/450 5000 2000 1000 -Y 500 i - 100•110 yean 200 / . Pentium/lOO / . •

Pentium Pro/200 1 Pentium/133 Pentium/100 /; • Pentium/166 0-• Pentium/120 100 Pentium/~.,,,• 486-DX4/IOO 50 486150 486/3; / 20 / . - 48;·DX2/66 - ·• 486-DX2/50 486/25 ;; ·--10 --". , , 386120 ✓- Jou,JJ . 386/25 386/16 -- · / / 80286/12 .• 2 -80286/10 .,- · ,, ,,---· 8088/8 0 .5 ,/ / / -✓ „ 5---:r 0 .? ,., :· Rn.,c Year 79 1980 81 82 83 84 85 86 87 88 89 1990 91 92 93 94 95 96 97 98 99 2000 01 02 03 04 05 1.2 ábra: Az x86 alapú Intel processzorok fixpontos teljesítményének növekedése 1.2 A processzor teljesítmények növekedése (2) 500.-----------------------------e Alpha o MIPS PA-RISC .- POWER ■ & SPARC Pa,verPC + c:=:=========;;2: ~~S~~==== 1- s-~------------------------86 87 88 89 90 91 92 93 94 Dat.e of Fi rst Volume Shi µ,,ents 1.3 ábra: A fixpontos teljesítmények növekedése (általában - 1) Forrás: X86-64 Technology White Paper, AMD Inc., Sunnyvale,

CA, 2000 1.2 A processzor teljesítmények növekedése (3) Specint2000 ■ intel 386 ,, intel 486 :>-< llC intel pentíum intel pentíum 2 • íntel pentiun, 3 + íntel pentium 4 - intel itaníum - Alpha 2!064 Alpha 21164 Alpha 21264 Sparc SuperSparc Sparc64 @Mips HPPA - PowerPC • AMD K6 mAM0K7 •AMD x86-64 1.00 --------~--,---------~--,---------~--,---------~--,- - - - - - - - ~ E 86 ~ ~ M w ~ m ~ ~ % % ~ • ~ oo m m ro ~ ~ 1.4 ábra: A fixpontos teljesítmények növekedése (általában - 2) Forrás: F. Labonte, www-vlsistanfordedu/group/chart/speclnf2000pdf 2. A processzorok hatékonysága 2.1 Bevezetés @ * ? 2.2 A processzorok hatékonyságának növekedése (1) SPECint base2000/fc 2. generation superscalars 1 Pentium Pro 0 .5 .•·· ···•··· Pentium 11 ,,. :;~ ······~· 1~10*/10 0.2 .----·· years ,. ···· · Leveling off --·--- / .,,, Pentium 111 Pentium 0.1 0.05 0.02 0.01 386DX ~ - 78 - - + -- - - - + -

- - - i - + - -- + -- + -- - +- 79 1980 81 82 83 84 85 86 .--- + ---+-----+----;~ + - --+--+----+- ---+-----+---+----+-------7 87 88 89 1990 91 92 93 94 95 96 97 2.1 ábra: Intel processzorok hatékonysága 98 99 2000 01 02 Year 2.2 A processzorok hatékonyságának növekedése (2) 2.2 ábra: Processzorok teljesítményének/hatékonyságának növekedése (általában) Forrás:J. Birnbaum, ,,Architecture at HP: Two decades of lnnovation", Microprocessor Forum, October 14, 1997. 2.3 A hatékonyság növelés hozzájárulása a teljesítmények növeléséhez (2. generációig) * @ r--, 10 * / 10 év 2.4 A hatékonyság növelés forrásai • 1 Szóhossz 8/16 ➔ növelése 32 bit (286 ➔ 386DX) • j Időbeli párhuzamosság bevezetése, növelése 1. és 2 generációs futószalag processzorok (386DX, 486DX) • 1 Kibocsátási párhuzamosság bevezetése, növelése 1. és 2 generációs szuperskalárok (Pentium, Pentium Pro)

2.5 A hatékonyság növelésének korlátja (1) 2. generációs szuperskalárok (széles szuperskalárok) m ~&m egrep illl#; zero.ainftict branch a!ld jump prediction 256 CPU and 256 FPU registers perlect $1iaS analysú; oonlinucus windows ot 64 inSIYuclions ,E---- - 3 - Feldolgozási szélesség 4 RISC utasítás/ciklus ~3 CISC utasítás/ciklus espresso :AAt lpppp . l~t~~~ doduc:; .,,~i~~m u wl} 0 8 ~ ~ ~ ~ ~ ~ ~ Figllri: 14. 11,c parallcli,m írom an ambilÍl>US hardware modcl Forrás: Wall: Limits of ILP, WRL TN-15, Dec. 1990 2.3 ábra: A feldolgozás szélessége és az általános célú alkalmazásokban rejlő párhuzamosság mértéke a 2. generációs (széles) szuperskalárokban W b--d~b~ kiMt;-1/Á/iv i f-o-f (lU~ ,h)bb p-&-~j) 2.5 A hatékonyság növelésének korlátja (2) SPECint base2000/fc 2. gen szuperscalars 1Leveliog off 1 t 0.5 1-lOx/lOyears 1 0.2 0.1 0.05 0.02 0.01 ~ ,. , , , , , , , , ,

,----,----,----,----,----,----,----, ,----, ----,----,----,----,~~year 78 79 1980 81 82 83 84 85 86 87 88 89 1990 91 92 93 94 95 96 97 98 99 2000 01 02 03 2.4 ábra: Processzorok hatékonyságának növekedése (általában) 2.5 A hatékonyság növelésének korlátja (3) Általános célú alkalmazásokban: 2. generációs szuperskalárok szélessége már megközelíti rendelkezésre álló ILP mértékét Általános célú alkalmazásokban a 2. generációs (széles) szuperskalárokkal kezdődően a hatékonyság növelésének extenzív forrásai kimerültek A pl3G a e ~ i ~ulh-n½ tÖoe,flsite.-1 w\d.u,, o-Cv ellu&e ~ri,<i 04 05 3. A processzor hatékonyság stagnálása által kiváltott főirányok áttekintése fejlődési (4. - 7 pontok) 1 A fejlődés fővonala 4. Az órafrekvencia erőteljes növelése 4.1 Az órafrekvencia növelésének forrásai (1) Az órafrekvencia növelése ./=; ==",

,16~1táÍff(l1~tn:!:~iénést IJ.,utrcJ -t;t pt~ ko~ í}.;t .A:fQtószal~g fől<ozatok l<;>gJl<~i,,, · ::hö$s~ánal< .~ökkE3pt~se<::·· · 4.1 Az órafrekvencia növelésének forrásai (2) 0, 1 nn 90nm 65nm 0.·13pm ,02 -03 04 05 ·os Estimate 4.1 ábra: Az Intel gyártási technológiák fejlődése Forrás: D. Bhandarkar: ,,The Dawn of a New Era", 11 EMEA, May, 2006 ~la~: Vu~~ kise~b ~ bi1.v (rt otts) ~&1 ~t~ldo tMallt~is . B-t, 4.1 Az órafrekvencia növelésének forrásai (3) r-t? C) ~od-~ m-i\](., ~ ~ Cyclein F04 100 90-i---------------------------; • 80-1----------------------------1 70-l--------~-------------------1 60 - i - - - - - - - - - - - - - - ,,, -------------; 1/ . 50+--------------------------< . 4 0 - i - - - - - - - - - - - - - - - ,"--X; ,~-=-~ - - ~~-c,.- ------1 - ♦/ 30 )( ~), X ♦ - - - - - - - - ~ * ~ - ~ ® ~ i: ,. - ,•~ * -~-----; 4 t t,); - 20

+----------~--------•= w~ •·+ !$J. f>,L. + • "!· i~ + 10 - 1 - - - - - - - - - - - - - - - - - - - - - - - - - - - - 1 ■ inlel 386 intel 486 intel p&ntium x intel p&nlium 2 • intel pentium 3 + intel pentium 4 • inlel i1anium -Alpha 2!064 Alpha 21164 Alpha21264 Sparc ✓• ·" SuperSparc .•: Sparc64 ~ Mips HPPA -PowerPC ~ AMDK6 1s AMOK7 ♦ AMD x8&-S4 4.2 ábra: Futószalag fokozatok logikai hossza processzorokban (F04) Forrás: F. Labonte www-vlsi.stanfordedu/group/chart/CycleF04pdf 4.2 Az órafrekvenciák növekedési üteme (1) re iLeveling off ! (MHz) 5000 +----- -- - - - - - - - - - - - - -- - - -- - - - - -- - -Pentium 4 .- • 0.09µ 1. 2000 +------- -- - - - -- - - -- -.Oeaf:-::n~•o,U-~~=-=---=--=-,-- ~~~~-:·-----:-11 • v . ~ 1-tOO•/tOyears -"J 1000 · ; " 0.18µ +-----------------------------,,-----Pentium IIV,/ 500 0.! 8µ +-------------------------♦/., 0 25µ

Pentium I! .;" 200 -1-----------------------l•---.L✓ae -: .- - - -- - - -- Pentium .:,,-· Pentium Pro 486-DX4 .~· , 03511 100 +---------~--- - - - - :;-------,,,,-a----~--------- 50 + - - -- - - -- - 1-10•110years 486-DX2 . -·· •:; ·:-• - 0.6µ ----"-1. 486 . / . 08µ - 386----- ---:-.-·• 20 -1-- ~. - - - - - --. :·:·-:· ~ ------,. ··~-· · · . l µ , - - - - -- - - -- - -- - - • 286 •. 10 +-----~~--- - - - - - - - - - - - - - - - - - - - - - - - - 808 8 ;. ---· 1.5µ 5-1 - ~ •=0> 3=1ll~ .•-· - - - - - -- - - -- -- -- - -- - -- - - --- 2-1----- - -- - - - - -- - - -- - -- - - -- - - - - -- - 78 79 1980 81 82 83 84 85 86 87 88 89 1990 91 92 93 94 95 96 97 98 99 2000 01 02 03 04 05 Year of first volume shipment 4.3 ábra: Az x86 alapú Intel processzorok órafrekvenciájának növekedése fu)ów.t ~ A sclwi~.- li-öveJ és~ ~

"-fu~ I 4.2 Az órafrekvenciák növekedési üteme (2) 1 - k., lwl-el ~lo~ ~ torábi 1~~- rt,,J}~u-re-1- ➔m&b:d-k:AheM f,e7<Je#1cJhof a. ~~~~~~t, ~ ~lkeit "AMD~ k i : > ~ 800 700 = 0 . ■ N 600 6soo -=1400 00 .w ~ 0 A -~- 100 .•• 11!1 AMD ■ • ♦ + Sun .- •• •• • •• • • • ♦ . .,, ,,, + + • --*-~ x • ~ -- --.- . . • Alpha Pentium PowerPC 300 200 HP Mips .,, ,, .,t-- + .:x ., , .,, --6 • 0 •• + 0 1995 1996 1997 1998 1999 2000 4.4 ábra: Az órafrekvenciák növekedési üteme (általában) 4.3 Az órafrekvencia erőteljes növelésének konzekvenciái 4.31 Áttekintés • 1 RISC processzorok kiszorulása 1 (4.32) • 1 Fejlődési korlátok megjelenése 1 (4.33) li•i;Jlh•11•ii-+f4•11•1lli4·H!il¼ ~i~~ lllÁ&Jk. SPECint95base: x86 vs RISC 1 GHz 45 ., AM D At ,,,hl.o--n %:Li 600/o 40 35 30 +---- ;;;,,.,, -

- = ~ - , - , 4 1 - - - - - 1 25 ""1----------~==----.,mJf~--;;,r-I;:~"--:Mr-r=:-=---r 20 + - - - - - " i f ~ H + r ~ ~ - - ~ - ~ - - - - - : : 1 . 15 h.--:--~~~:::::::::~dIDMl~----t 10 -t-2~::::::=".-=;:::;~;::::,~;:;;;:~rffit:i:--;reon----"~----i ~ ~C. ~~e,~ sxo~ -+-RISC ---xss -.-Delta 5 +--==-~~,+.4¼,i2--e=rn:=""M"~~~---~=::-:--~ 00/,, 0 t{~~~9,blo 0 13 . -100,,:) R<cAVl!>t.Ptn 1urn® . . Jun- Dec- Jun- Dec- Jun- Oec- Jun- Dec- Jun- Dec- Jun95 95 96 96 97 97 98 -~8~ . 99 99 oo ~~~3Yl ix.~~~s 7 a.z , ~OOL-- ~~ ül., ~~~ ► i~~ l.le,~ J0V-o-- -1-~~ ~ a :f,te.t~J-t SN"Ct: Hiaoprocti:ror Rl!pon INl Stmdud Pcrf«mm(t Evwüm Coipontion. 4.5 ábra: RISC processzorok kiszorulása 4.33 Fejlődési • 1.Hatékorwsági korlátok megjelenése korlát (5. pont) • [ Öissz,ipációs korlát 1 (6. pont) • ,,Párhuzama~ buszok frekvenciakorlátja . (7. pont) .SKEW 1 1 ~b-t ., 3~ ~ vJd +-HP

~Jes1>U- (4,twiUl)JAA ~cart~l ~ A-~2-u+ (x.86) ~ 2. l,ISC 64 ,i-{S 1A -{,~e~ V1rU a ln)(t eJ,.k, w,,l r--,.IVJi)s r,kt -ei c.JJ f ldr-111,h .l,Q~at il- .-v ót-t éll: ardu:---ú~r~ 6V t --nek &lcA~L ~${-te. s,~U: .2oo1 : -Utów-A~ (N~rcecl) MJoa WlU-~ BX.· Apha 1l---hps 1low~ No~a I li,M t,t7 4 ~~s ayJ. -+- ~jez,k~ b~ Awvt. uirJ9x,l ~ ~ · ~uu 1• PoU/C/ ~,~ l 5. A Hatékonysági korlát 5. 1 Áttekintés (növekvő órafrekvenciákon tágul) A "1AV.U,Ória~~~ ~ /~o:do •• ~ I · ~- L ue:.~ J.,, Q)v~r<X 5 .1 Áttekintés (2) 1 A sebességolló konkrét megnyilvánulásai: • 1 DRAM késleltetési ideje • 1 Memória átviteli rátája • 1 L2 cache tárak elérési ideje • I A processzor busz átviteli rátája 1 1 5.2 A processzor és a memória közötti sebességolló (1) Memory latency (cycles) l!:i~~!lli!1ml t :: j 100 T / :: Il . · · · ·.··l····• .:-······-=••i;;•,1 1 ·•

·•••> l 1.Pentillll! !fO) 70 1 60 ~i:m~l~yÍJ!it:m 50 T 1 1 40 30 20 10 + ± 1 f EDO FPM t I f . •· lli-n~ 4s> P C ~ ~ ? / // • // PC 133 PC 66 ./ c(t,Lu<; (~~) Jx. ,eUe ~ri udl> • • // 486 --l---+3 6+--+--+---+--+--+---+-+-1---+---+--+--+---+-+--+--+---+--1-------+---+-+--+--+--+-+--+---+--l--+-+--+--i--+----+-+--+---+--i-> 0.5 1.0 1.5 2.0 2.5 3.0 3.5 5.1 ábra: DRAM típusok késleltetési ideje (óraciklusokban) 4.0 fc (GHz) 5.2 A processzor és a memória közötti sebességolló (2) ::: I Tmemory/fc 1h =r:,i/=~~= ,w=~;= ;.J o.so 0.70 0.60 0.50 t 1~~~~11M - k ::: F\-. , 0.20 0.10 t~ PC-I~ • 1 --il>----++---+1--+! -4-1 . I-+-1-+-1--+-1- 1 > --+-I-<l>----+1 -<l--+-1--;;--+1 -+1--+, -4-1 . I-+ I --+-1--+-1- + 1 ---+1 ---<i- -+1 -+1--+1 -+1------+I -+-1--+-1--+1 --i!--+1 -+I . I --,.,1 , 0.5 1,0 1.5 2.0 2.5 3,0 3.5 4.0 f, (GHz) 5.2 ábra: Memóriák relatív átviteli rátája (D:

kétcsatornás) 5.2 A processzor és a memória közötti sebességolló (3) fc max at intro. (GHz) L2 size (Kbyte) L2 latency (clock cycles) Willamette 1.5 128 7 Northwood 2.0 512 16 Prescott 3.4 1024 23 -~;r~&. ~ ~T-t -~4 loi~ ~ ~~~ 5.3 ábra: L2 cache tárak elérési ideje 5.2 A processzor és a memória közötti sebességolló (4) Tpblíc +---+--+--+--+--+--+----+----+--+---+----+---+--+--+--+--+---+---+----l----f----1-f--f--+---f--+-+---+-+-+-+-+-+-+--+--+-+--+--+--lr" 0.5 1.0 1.5 2.0 3.5 3.0 2.5 re (GHz) 4.0 5.4 ábra: A processzor busz relatív átviteli rátája 5.3 A 3 generációs szuperskalárok hatékonysága (1) SPECint base2000/íc =1 0.5 0.45 0.40 -------. t~ tT t ·~t T 0.30 Jrwiodalc 512K on-dic L2 2M on-dic 13 ± SO-Ot,.,fHz PC·3~C)O S.TA-150 IIT . Prtscott (2M) 2M on-tlit Ll S00~fl--lz PC-U00 SATA-150 Pnscotl{l!tl) ~ IOOM~ PC-1:" ATA-100 Coppcrminc 256K on-dic 1.2 NorthwoodC "Katmai

512Kdir Ll J!){I.,,,~ 800 MHz!PC-3200/SAT A-l5Q.1-IT 800 MHz/PC-3200/ATA-I00 $12K on-dic 1.2 JOOMHz PC-13J AT:-100 i11tfbwm1d , 512K l)R-dit L2 PC-IM SCSJ-U:!W \íll.ini:H~ 254K 011-dit J ? ,1(~ PC-!!OU RDRA.I /,TA-~6 ~ 80~ MfüPC-3201FUA-100 800 MHr;PC-~6ti71AT,-IOf1 Northwood B . 5~21{ on-di, L2 ;-;,;3~ PC-800 RDRAM ATA-1.)0 + :::: -+--+---+--+--+---+----+-----+--+--+----t----1-e--+---+-+-+-+--+--+--+--+----+----+---+----+--+--+--+---+----t---+----1-e--+---+--+-+--+-+--+-» 0.5 1.0 1.5 2.0 2.5 3.0 3.5 5.5 ábra: Intel Pentium 111 és Pentium 4 processzorainak hatékonysága fixpontos feldolgozás esetén 4.0 fe (GHz) 5.3 A 3 generációs szuperskalárok hatékonysága (2) SPECint basc2000/f e 0.65 1 C:lawh11mn1~.- ~ r„Kr.Wt> ""·FsB PC-J!C-0 ,lTll· l33 0.60 Banun 51lK oa-dii:: Ll • -IOOl-[H:z,1C-J200ATA-100 • 333 M}b/PC-2700IATA-100 Thuluuehrnd l56K on-dii:: Ll . : (i(.i MH:: PC·lH.(, AT, -!Oa ,1. •:::;:

o~.s-+--+-<---+>-0-+--1--+--+-~5--+--i--+-------ll-l- to- ; - - + --1--+-l+-5--+----+-------lc------+-----,3fO- -t--f--+--i-3-f-S--!--+-------l"-t----,~f----a> -O Íc (GHz) 5.6 ábra: AMD Athlon, Athlon XP és Athlon 64 processzorainak hatékonysága fixpontos feldolgozás esetén 5.3 A 3 generációs szuperskalárok hatékonysága (3) Core efficiency Decreasing core efficiency due to broadening the memory gap ~ Increasing core efiiciency primarily due to enhancing the memory subsystem (memory, FSB, L2) ➔ fc (GHz) 5. 7 ábra: A fejlett szuperskalárok hatékonyságát megszabó legfontosabb tényezők 5.3 A 3 generációs szuperskalárok hatékonysága (4) . SPECint b•H·lDOOlfc 1000 .t 0.65 f 1200 1400 1600 1800 - • T Pi:cl.iun1HI - Pcn1ium l V - Athlon - .~,u,,, ! . o.ss 1 IT .l 0.50 • . ~.,I 0.35 i+ """° 00 ">" " ---------- f -. •SllK/IOO • :~, Sl ?K/533

l56K/l00 .J ~ --+--+-+--+-+0.5-+-+---+-+-+l,O-+-+- + - ; - i l.-< 5 c--+-t-+2 .+0 +---t--+--,--t-25-t--t--+-t--+30-;-+---+-+-+-3S-+-t-- t - +--+·IO f, (GHz) 5.8 ábra: Intel és AMD processzorok hatékonyságának összehasonlítása 5.3 A 3 generációs szuperskalárok hatékonysága (5) ·~ ": , ·~ 0.7 . J!l.t+;A t,J . "": ÍlI , "fJ.Ul 1 JJ-l,,,~ j ~~" Q - ,,~~,m - P.,,áll,fflíV o:::>~ ,., - - .,,,, :,; • ,. 0.6) ;" - . o.ss , , . ·· 1 ·l ·" t + 5.9 ábra: Intel és AMD processzorok tervezési filozófiájának összehasonlítása 5.3 A 3 generációs szuperskalárok hatékonysága (6) A processzorok hatékonysági korlátjának konzekvenciája: Növekvő órafrekvenciákon egyre teljesítménytöbblet csökkenő 6. A disszipációs korlát (1) Disszipáció (D) : ~~ 9v.L-+ Dinamikus (Od~A~C~/4*(] Statikus .-;(~rl- ~v-k, ["Ds~vr,,,~~k) ahol: A: aktív kapuk

részaránya C: a kapuk összesített kapacitása V: tápfeszültség fe: órafrekvencia 11eak: szivárgási áram ~~ a,~~~,~~b ,. -1 t * o-th~~s1s-w,~ a("~~ a~ 6. A disszipációs korlát (2) cJJss1-1rac(ö * a f°it~ ~~&etL- Lc()lt D/die area (W/cm 2 ) /~64~ 100 * Prescott ,,.,,- 0.09:1 ,, -<·* / 50-+-----------------~, ., i-----,,L---+-----" L --~ 5 ,/ 2 t - - - - - + - - - + - - - - 1 - - - - - l - - - - - - - - - - 1 - - - - 1 - - - - . - - f c (MHz) 20 50 500 200 100 5000 2000 1000 6.1 ábra: Intel processzorok fajlagos disszipációja 6. A disszipációs korlát (3) . í 1000 1200 , "" 1 ., t t 1 . 1400 1600 1800 -.-,,;,,,,, " !l.t!t:;;; ~ -Pcr.liumrn -PcnliumlV -,~~-:. · 0.6 Co~dnia,:i., ttthnolozy "·" l o.so T , t . , lT . ··,./ s" " , l:f/1100 - -, • 1 + .,, 1 """" • 2.iSK,10/I

, • ~ , . IMl.ROO , • , , ., .::::: ~·<, " 256&/400 1 • T 256Kl200 1 ·--~· ~·- !51?K/5.l3 • ., 6.2 ábra: Intel és AMD processzorok - ~c--~ k~.ctti hili ~~is <rtU Q. f ~ 6. A disszipációs korlát (4) . Xc-on~ MPline . 304 . O.ISµ /JOlmlr:< On-dic2S6KLl On-dic Sl2K.IIM Ll 400MHzFSB µPGA 60J ,~, o.o,µ 0.13µ 1178mtn 1.SI J9/2GHz 0.llµ/286m1r:< On-dieSJ:Zl,,;Ll On-di e 1Mf2MLJ 400MHzfSB On-dic S12K Ll On-die 2M14M U 1. ◄I I Sll6GHz 11 102 O. JJµ IHmtn l.&212:ZGHz 2/lA/2.611BGHz On-die IML.l On-diclMU(?) 400MHzFSB µPOA60l µPOA60J ,,,, > J .SMHz 2.::Z/271lOGHz ,,., Xc-on DPlinr 0.ISµ t42mlB 1.41UJl 7Cilk 400Mlb:FSB µPOA6<D l,,YGA60J ., U,00 D.IJµ l 55mlnt On . SlZKU On-dic 26K Ll 400MHz:FSB / " . ,:, , IIIOl ,:,. " 0. 11µ 1◄ :Zmll"I 0. IJµ l55mlts 2Nl.lGHz 2.2C,:Z40003GHz Oo-die,12Kl.J On-die,12Kl.J 0.IJµ 1,m1rs O.llJ113mlts 0.l]Jl

l "mtrl ,/02 ,., " 1 11 0.09µ J.OJJ2/34/J6 GHz On-dicSl:ZKLl.lMLI 106&MHzFSB LGA775 604 0.09J1 1125mtri MM 0.09µ / ]lJmlts ~== ~== LOA77 . . ·"···•· o.09µ 112fa1n 0.lJJ1 20Hz On-dic 121K l.J <tOOMH.tFSB 0.09)l µPGA471 "" "" Cores wilh EM64T implem~ied bu1 no1 ciubl~d 1 11 LOA 77S 0.09J,I 2.4fBJ/"266128 GHz On-dic 256K l.J ,JJMH.tFSB ).IPGA478 ~== " J!~ .~: ;:;~,r~)lPOA471 Cores •uppming hypcnhrc:idins J 4EE GHz 3.06GHz 240026002llOCGHz 2IOEIJUU0EIJ40EGHz 28fJ0fl21J41J6GHt J20FfJ40FfJ60FGlb On-dic,12KLJ Oo--dic,12Kl.J On--dic!Ml.J On-diclMl.J On-die!Ml.J ).IPOA4711 0.IIJI 1.701-tz On-dic 128K l.J 400MH.zfSB 2000 Qllµ/1: IQm> On-chdllKLl.lMBLI l/04 YOJ @== m== m== ~== ·:>=~ [ •.,: ~ ~I On-dtc: IMLl IIOOMHz FSB µPOA604 µPOA~ ~ P O A 4 7 8 Cclcron-Unc (Value PC-s) [H UJMHzFSB )1PGA 60l µPOA ◄ 78 1.4 •• :ZOGHz On-dic26KLl 400MHzFSB 1,1 PGA471 IJPGA ◄ll

HJMHlFSB µPOA60l 0,09µ, 12Sm!B 2.1130f3l/J4!l6GHz 3.2EE GHz O!t-«SllKLl.lU1 800MHzfSB 1.411 SGHJ: 400MHzFSB O.llµ,171mtB J .06Gllz °1-die :5121. U , IM LJ E1.1rcme EdlHoa 0.11µ /42mu1; ~26t,;Ll On-die512t.:U 2.,J/266f280fl9J OH2 On-dic 256K l.J 33MH.tFSB LOA77S ,oo, "" Core11upporting EM64T ~1,1.,,1,1llA~~ ~ii 6.3 abra: Intel P4 processzorcsaládja (Netburst architektúra) ~ o. fö -sát3~ ~cr . lb ~k., 0 , 1q - fi YbS ti. 6. A disszipációs korlát (5) 80------------------- A-t& u~U: 70-----------------1 f iJ ~ .!40-------------20----- • UlraSPARC T1 . ••~••~~m~~~•u•a~~~~~~~« Lagrd J 3es ~Pont 3 0 ~21064 A IWDl(IS ( ) SPAAC J• llli- 4 (::, ~211k /1 /IHDIC7 ~9.lpefSMRC ~ .lljm2~ 4 IN0"9H4 • ,4F IIPFI t:} MFS @j -UII a-2 . Q-PC ( ~x.~w~l s 0 óL • SPAAal, Ulll>SlIRC T1 6.4 ábra: A fajlagos disszipáció értékének növekedése (általában) Forrás: R Hetherington, "The

UltraSPARC T1 Processor" White Paper, Sun Inc., 2005 6. A disszipációs korlát (6) A disszipációs korlát konzekvenciái: Az órafrekvencia növelésén alapuló fejlesztési irány háttérbe szorulása . ~ r A processzorok tervezésében a disszipáció csökkentő technikák előtérbe kerülése A,.6~ 6~~ ~ d ~ ~~~~ ~ l-tP {t-9:.- csö~h~ V R-- JA·~w-.i lus cJ.isslip~u 6 1A a.<Hv pmo~at R11--óll1ak: 1S¼"-tl<l~ L 4 ~ ~ ~ k.Qk k~~cret 1 VVli1-cl fi ~~k, ; V.€,W-- 7. Párhuzamos buszok frekvenciakorlátja (1) Kiváltó ok: Q~ I ------~--~-- J- . i : ------ -- ------ ~ 63.bit 1 -·--t-----------r----· -l--------~~- j , 1 : -~ : Skew 1 7.1 ábra: Párhuzamos buszok bitvezetékei közötti futási különbségek (skew) idő 7. Párhuzamos buszok frekvenciakorlátja (2) 7.2 ábra: A futási idő különbségek (skew) kiegyenlítése a MSI 915 G Combo alaplap processzor buszánál ., hösswLo<>Ni iL a

v15uicl ()1kx~~ú- 7. Párhuzamos buszok frekvenciakorlátja (3) r Párhuzamos buszok frekvenciakorlátja által kiváltott trend: ► ( Soros buszok használata l -------------+-"8,.Vf~$ el~ (lassú buszoknál is, költségokokból) 7.3 ábra: Jelátvitel soros buszon M~~(Mt-ef. , A fejlődési korlátok felerősödésének konzekvenciája Az órafrekvenciák növelésén alapuló fejlődési főirány hatékonysági, disszipációs és skew korlátokba ütközik és tovább már nem követhető 8. EPIC architektúrák/processzorok (1) AzórafrekVE3Dciaerőteljes növelése . (4. - 7 pontok) A l fejlődés fővonala (8. pont) 8. EPIC architektúrák/processzorok (2) Szuperskalár feldolgozás elve VLIW feldolgozás elve -------4 ~kl utasítások ~ d-- függő utasítások pvocr-p.l41,- ~--, a ~ a ui§.1,"G( ~-ina?1i~us fuggoseg kezelés .---%eJ: ~ ~<.Á ~ ~ ~ r• • • • • • l 1• • • • • • 1

r• • • • • • ·l l · • .· •· rnrn--~·:rn I független utasítások (statikus függöség ~ kezelés) l rnrn-. -~rn·icj, , (. Processror Processzor VLIW: Very Large lnstruction Word működési 8.1 ábra: VLIW processzorok - ~ .-Glc~S - u- ~cl~ 1 b~t== 8klit- oP ~1.b/ f&Ujo~ elve -t;, Ao c!b ~~ 8. EPIC architektúrák/processzorok (3) ~~a. m~tie-- &L VLIW EPIC: --- EPIC -tt Explicitly Parallel lnstruction Computer Továbbfejlesztett VLIW (fejlett szuperskalár vonások integrálása) • elágazásbecslés • explicit cache utasítások • ~· ~ 1c w.t ~ ~~-1o~,m • ~ ttel~. Ot, 6? l C-bt,, 1994: Intel, HP [ 1997: EPIC elnevezés ( 2001: IA-64 ~ elsg m~ (rieru&,) ⇒ ltanium ) · 8. EPIC architektúrák/processzorok (4) 5/01 6JOJ 7/02 A Multiprocessor (MP-line) 4/04 11/04 llanlum2 llnlum2 7/05 0 lltanlum ltanium 2 lt11nium 2 (Mcrccd) 0.18µ/25 mtrs 7331800MHz 96K L2 V4ML3 64-bitFSB 266MT/s

(Mc Kinley) 0.ISµ/220mlr5 800/1000 MHz 256KL2 1,5/3ML3 128-bitFSB 400Mr/s 0.13µ/4l0mlrs 1.5GHz 256K L2 6ML3 128-bitFSB 400MT/s (Ma<Lison) (Madison) 0.13µ /410mtrs l .4/J,6GHz 256KL2 3ML3 128-bitFSB ltanium 2 (M.-iison) 0.13µ/592mlrs 1.5/l6GHzl 256K L21 3/4/6/9ML3 (Madison) 128-bil FSB2 400Mf/s 400Mf/s 1.66GHz 256K L2 619ML3 128-bi1FSB 667Mf/s . 9/03 Uanium 2 (Madison) Dual processor (DP-line) 0.13µ /4l0mtrs 1.4GHz 256K L2 l .5ML3 128-bitFSB 400MT/s Year 2001 2003 2002 2005 2004 2 400 MT/s far 4/6/9 MB L3 GHz with 4 MB L3 400/533 MT/s far 3 MB L3 1J.5GHzwith4MBL3 1.6 GHz with 3/6/9 MB L3 8.2 ábra: ltanium alapú magok áttekintése 8. EPIC architektúrák/processzorok (5) SPECint base2000/f e lr. 1.0 128-bit FSB/400 MT/s * 0.9 256K L2/9M L3/DDR 266 256K L2/6M L3/DDR 266 1o~o,<J-e,, ~ * 0.8 w~ 256K L2/3M L3/DDR 266 0.7 0.6 64-bit FSB/266 MT/s 0.5 * 96K L2/4M dir. L3 0.4 * 96K L2/2M dir. L3 ::::::: ::::::: -+--+-- 500

t-----+---+--t---+------+- 1000 +-----+------f---+----+----+-+----+---+--c;;o, 1500 2000 8.3 ábra: ltanium processzorok hatékonysága f e (MHz) 8. EPIC architektúrák/processzorok (6) 0 4l l:il> 40% ,.• · 30% "~ 20% l. 10% · 0% 8.4 ábra: Az IA-64 architektúra elterjedésével kapcsolatos várakozások Forrás: L. Gwennap: lntels ltanium and IA-64: Technology and Market Forecast, MDR, 2000 8. EPIC architektúrák/processzorok (7) -+ June 1997 ., June 2000 ~ ~ · ·-<> June 1998 ., Aug1999 Oct 2001 March 2002 -+ April 2003 - . - Sept 2003 30 !!!e QI ! 20 j .e 111 ::, u 10 0 1999 ~ 1 2000 :IN DEMAND BUSINESS™ , 2001 2002 2003 2004 2005 2006 2007 Source: IDC Tracker ( 1 l i i ~ 2005 - llll O, ITS MY BOSUIESS 8.5 ábra: Az ltanium processzorok értékesítési elvárásainak módosulása 8. EPIC architektúrák/processzorok (8) ., r Általános célú alkalmazásokban az EPlC architektúrák/processzorok

kiszorulása ---•• ~ ~ 9. Paradigmaváltás (1) Általános célú alkalmazásokban a 2. generációs szuperskalárok megjelenésével a processzorok hatékonysága stagnálni kezdett, ez két fejlesztési főirányt váltott ki, de mindkét megközelítés korlátokba ütközött r Egymagos szuperskalárok egy korszak alkonya - 9. Paradigmaváltás (2) A rendelkezésre álló hardver komplexitás továbbra is exponenciálisan nő (Moore törvénye) "7i" h,vítbbYa is f ~ Jelenleg a tranzisztorszám ~ 24 havonta duplázódik . r ~ Paradigmaváltás a processzorok fejlesztésében A többmagos (többszálas) processzorok korszakába léptunk A magok várható duplázódási ideje is közelítőleg ~ 24 hónap 9. Paradigmaváltás (3) 6L11oí~ The Move to Intel Multi-core ltanium•· processor MP Server DP Server / ws rd~-l 20ül+ 2005 Platform ~~U~t Poulson ltaniun1" 2 Process;or 64-bit Intel Xeon rn proqessor ~~ --R;;1. s;s~L

Whitefield MP ~~~~ 64-bit Intel,, Xeon " Pro<:essor W/ 1MB cache éJ-. o2.h1ks h:i-1:2-LJC-e.t Desktop Client Pentium 4 processor 0 Pentium 4 proccssor Mobile Client Pentium M processor Yonah ltJ!l,Tf Single core IV)tJl(.i--CQr<~ / Mu lt i-c ore (>~tores) (>=4cores) 9.1 ábra:Többmagos processzorok robbanásszerű elterjedése az Intel processzorok példáján Az ILP feldolgozás fejlődése Sima Dezső 2006. szeptember Felépítés • 1. ILP feldolgozási paradigmák • 2. Az • 3. A kibocsájtási párhuzamosság bevezetése időben párhuzamos feldolgozás bevezetése • 3.1 VLIW feldolgozás • 3.2 Szuperskalár feldolgozás • 4. Az adatpárhuzamosság bevezetése • 5. A • 6. Kitekintés fejlődés fővonalának összegzése 1.1 Bevezetés (1) ··~• ENIAC NORC supercomputer Cray-1 Cray-2 Cray-3 Cray T3E ? Cray-4 • ~~r,~b mainframe (~~.,, Pentium "" value PC~ Celeron 1950

4~~ 1960 197ö~~ 19so 1.1 ábra: Számítógép kategóriák fejlődése -.1- ~~e, lg0 év« dtC&t- ~~ )~ (~ o-o{t-a ~~L ~ -ll - 2000 1990 Michl>pn,c.essw-t ) J ~stf~~Y a ~v.Aco4~-Ó ~{öcil ,~~ - - é). ~CO~v-k( -Ó- -í,. .- 1.1 Bevezetés (2) ~~~t ~~~~ Leveling ofT SPECint92 1 10000 1 P4/3200 .--~· • • Prescott (2 M) ~ · • ·Prescott (IM) Northwood B P4/24i>O P4/2800 P4/2200 0 .,,~~~0V / P4/1700 PllU600 / . 1>nmnnn -., y • 5000 2000 1000 Pll/~fr- PllU500 Pil/300. Pll/450 500 1- 200 /. Pentium/lOO / . • Pentium Pro/200 100•110 years m Pendum/133 ~ - Pentium/166 Pentium/100 ✓-• Pentium/120 100 Pentium / ~ / • 486-DX4/100 486150 / ~ - 48;-DX2/66 486/3f / " - -+486-DX2/50 50 20 486/25 ;; -✓ 10 / 386120 ✓- , ~uu, ~~ -~386125 386/16 . - / . -·/ 80286/12 2 / 80286/10 ,. , , - - / / 8088/8 0 .5 ,-/ , 0 ./ · ,, ;;,- .,:✓onouc Year 79 1980 81 82 83 84 85 86 87 88 89 1990

91 92 93 94 95 96 97 98 99 2000 01 02 03 04 05 1.2 ábra: Az x86 alapú Intel processzorok fixpontos teljesítményének növekedése 1 1.2 ILP feldolgozási paradigmák (1) Li>-ln~hvi e~~ UJlt ">~~ct ) d ~~el~~ Futószalag processzorok · VLIW processzorok ftj ~.11~f~~ ~ VLIW feldolgozás elve --- független utasítások (statikus függőség 1• • • • • r• • • • • e7 •7 kezelés) 1• • • • • el . • ·. fiJ[IJ · --w ··. · Pré>cesszor VLIW: Very Large lnstruction Word utasítások 1.2 ILP feldolgozási paradigmák (1) ( ILP feldolgozási paradigmák ] l . <$t~tH~lJsJpggöSég•: ,,. ·· lez~J~s·· ;), - llll t·.· lJQ . (·;g<:,> ~J~~. ~fhl~1:}()· ~§!g :,~Z~t~§, , ) VLIW Futószalag processzorok Szuperskalár processzorok processzorok - q. ~e.: u ~ f). ~~~~~ (<-vi~iu.~ ~w~J , A ~-os tt,f-~s. kW 5?.M~~ lou-te2lllt-cf ~ ~<Am-.ll-1· VLIW

feldolgozás elve független utasítások (statikus függőség kezelés) 1• 1• 1• • • • • • • • • • --- --- • • • utasítások Szuperskalár feldolgozás elve • 1 • • 1 függő"""°" l l l dinamikus függőség . ~ kezelés ww---w Processzor VLIW: Very Large lnstruction Word kJ~~) a-- ~M~u.,~~ Processzor 1.2 ILP feldolgozási paradigmák (1) ( ILP feldolgozási paradigmák) ) Futószalag processzorok VLIW processzorok Szuperskalár -processzorok SIMD kiterjesztés dü}m,~ ~s~f-·-~~~~, k.LJ1~ t)lJ {.,6LL, Szuperskalár proc. 0$. aLL a ~ [85 ~ [90 ~¼ v~--¾ &,l~ -~t-b~ µM~tt Szupcrskalár proc. SlMl) kiterjesztéssel ~HN 13D ~ r95 -roo 1.3 ábra: Az ILP paradigmák/ processzorok megjelenése 1.3 ILP processzorok teljesítménypotenciálja (1) cR - ~~~~ ~~~ [~ld eál i-seset ben ] [ Valósesetben ) [~A b sz-ol-ut-tel-jesi-,tm én y~) . ,,,,, , , ,, ,,, Soros P,;

= le • Futószalag l ! ! ! • !. ! ! • P,; CPI, . r /~ - . --- I VLIW/ szuperskalár ., , ~, ~ ---------- SIMD kiterjesztéssel = fc • e: 1 l c,.ws kö ~~ 2,-,) ~ raCAitJJS (S 1 -. , •{!ij~rjj - ·- . - IP l ~ hl~ • - 1 = fc *--IP CPI . ., Un Urd -., 1 pao = J<+e *CPI --*IPOPI / ~ü<li~t ,~~~ ~u.<t Md . · · · · · · · · · · t 1-.UJl~ylc~" ~1k-{ 1.3 ILP processzorok teljesítménypotenciálja (2) Pao = le * órajel frekvencia t~- 1 * CPI Időbeli párh. IP * Kibocsájtási párh. IPC IPC 1 eff - 171 ~v Adat párh. Spek. végr - hatékonysága * eff --* CPI OPI IP * OPI * 1J --.,---~ ~"" l ub-~S~~~- Órajel frekvencia Technológia/ µarchitektúra függő ,T,~lit.CIURt Hatékonyság ISA, µarchitektúra, rendszer architektúra, OR, fordító, alkalmazás függő 2. Az időben p 2.1 Bevezetés (1) :ás bevezetése

Types of temporal parallelism in ILP p1·ocessors l e., Sequential processing Pipelined EUs ~~ii Ova1éJ)ping thefetch a,d fürtha" phases Ova-l~i ng the exa::ute phases.through pipa i ni ng ii+1 i; ~F D 1 E W*F 1 D1 . 1 1 FDEW i;., F D E W ii+2 Early mainframes Mainframes Stretch 34 ( 1961) Microprocessors 37 Atlas (1963) IBM 360/91 " ( 1967) 36 CDC 7600 ( 1969) .,~~~ IBM 360/9[ (1967) 39 i80286 (1982) M68020 40 (1985) R200~; (1988~-til~ i8038(J,.,3 (1985 - ~ M6803u (1988 -H4::i ~Jr;~~-- AW{-1:!i-Cltl~~~ -6Q;;)R.~~ (F: fetch cyde, D: da:odecyde, E: executecyde, W: writecyde) ~bN-."-d~,~ ~ a.L- , , (1.j ~~~~"~ - 2.1 ábra: Az időben párhuzamos feldolgozás megvalósítási alternatívái 2.1 Bevezetés (2) 1--- - - -80286 M68000 1 - - -- - - -- ~a. ?~rf~s MIPSR - e~) - - 82 - - -- 1 - - - - - - -- 81 - 83 ,~, -68020 - - -- 84 - - 85 - - ,~, - - -,~ f--- -

- - -- R2000-- --F 86 87 88 89 k;r: !;-: ;g.j Pipelined (scalar) processors 2.2 ábra: Futószalag processzorok megjelenése 1990 91 92 - 2.2 Kiváltott feldolgozá 221 Áttekintés itszetek és feloldásuk DIAz operatív tár sávszélessége 1 (2.22) D I Az elágazáskezelés problémája 1 (2.23) 2.22 Az operatív tár sávszélessége (1) ----. óraciklusonként több utasítás és adat lehívása . nagyobb sávszélesség igény 2.22 Az operatív tár sávszélessége (2) 80286 x86 -- -- C(0,1/4) C(1/4, 1/4) C(4,4) 68020 M68000 C(4,4) 1980 81 83 82 - 84 85 86 C(16) C(4,4) R2000 MIPSR 87 89 88 1990 91 C(8,8) 92 C ] pipelined (scalar processors) pipelined (scalar processors), with cache universal cache (size ín kB) C(n) C(n/m) instruction/data cache (sizes in kB) 2.3 ábra: Gyorsítótárak bevezetése 2.23 Az elágazáskezelés problémája (1) (pi: feltételes elágazások esetén) ll lll l be dock cydes

ii ~ ~ bti ii+4 F be Conditional bra,ch bti Bra,ch tcl"get i nstructi on Brach address calculation ~~ eb d° 2.4 ábra: Feltételes elágazások kezelése 4-fokozatú futószalag processzorban 2.23 Az elágazáskezelés problémája (2) ~~- ~ Basic block uJ.L-- ~~ci. ~ m~ V Y I ~ ~ beJ;i&~~ ~ ~- Basic block e 0 I nst:ructions otha- tha, conditional brc11ches Conditi onal brc11ches 1, Guessai pcth ~ A pprova:l pcth 2. 5 ábra: Az elágazásbecslés elve egy feltételes elágazás esetén 2.23 Az elágazáskezelés problémája (3) X C(8) 1,s.0;11:(ül 80286 x86 M68000 C(0,1/4) C(1/4,1/4) C(4,4) 68020 1 68030 1!f,ffió 1 C(4,4) R2000 MIPSR 1980 81 82 83 84 C::::J ifjffi)h I 85 86 C(16) C(4,4) ! R3000 ! 88 C(8,8) 1R6000 l l~R~i,l 89 1990 91 pipelined (scalar processors) Speculative execution of branches 2. 6 ábra: Az elágazáskezelés bevezetése skalár processzorokban 92 2.3 Futószalag processzorok generációi

(1) 1. generation pipelined 2.3 Futószalag processzorok generációi (2) C(8) ~ 80286 x86 ~ - C(1/4, 1/4) C(4,4) C(0,1/4) 68020 M68000 C(4,4) 1980 81 82 83 84 85 86 ~ . ~ C(4,4) R2000 MIPSR · 87 88 89 1990 91 92 C=::J 1. - 1.5 gcncration pipclinctl: with cache, no speculative branch processing l~V:11 2. generation pipelined: no cache, no speculative branch processing generation pipelined: with cache and speculative branch processing 2.4 Az r -► időben párhuzamos feldolgozás bevezetésével elérhető teljesítménynövelés korlátja A 2. generációs futószalag processzorok érdemben már kimerítik az időbeli párhuzamosság bevezetésével elérhető telj esít1nénynövelési lehetőségeket 3.1 A kibocsátási párhuzamosság megvalósításának alternatívái Statikus függőség feloldás ~ (3.2) (iaw / ! ! l l / l l l l Futószalag feldolgozás"" Dinamikus függőség feloldás (3 .3) 3.2 A VLIW

feldolgozás (1) 3.1 ábra: A VLIW feldolgozás elve 3.2 A VLIW feldolgozás (2) Elnevezés: 1983 (Fisher)-a h-e.wtUt- 1 ö etó81i>r-- Részutasítás-hossz ~32 bit Utasítás hossz: ~n*32 bit n: feldolgozó egységek (FE) száma Statikus függőség kezelés/ párhuzamos optimalizálás , [ K o m pl ex V L IW f or d íto ] 3.2 A VLIW feldolgozás (3) ki~ib ~ Prototypes (ESL) ! iWARP LIFE StaCs2.2 (CMU) (Philips) (ESPRIT /DPS) . 1-· --·•-··- - - -- - --. cs~ ~.rto6t, Comrnercially · t · /FPS- 164/ /FPS-120B/ availáble ~ TRACE /CDC af.EI TM-1 CYDRA-5 (Philips) (Muftiflow) (Cydrome) (5~ ~f - ~~ 1 1 1975 1 1 1 77 76 Figure 6.3 78 1 i 79 1980 I 1 83 81 82 t{I- e.i"1 1 1 85 84 87 86 ! 1 88 1 i 93 1 89 91 ~990 92 Overview of proposed and commercial VLIW machines. 3.2 ábra: Kísérleti és forgalmazott VLIW processzorok 3.2 A VLIW feldolgozás (4) · A statikus függőségkezelés

előnye: ·· 1 ·I Kevésbé komplex processzor . [ Korábbi megjelenés Magasabb fe vagy nagyobblLP ) 1 1 95 94 96 3.2 A VLIW feldolgozás (5) 1 A statikus függőségkezelés hátrányai: 1 Gyökeresen 1 új ISA A fordító a függőség kezeléshez ill. párh optimalizáláshoz - ~ o!l ,lú&, S~~;} technológia függő paramétereket használ · )~g. {pl. a FE-k késleltetési,ismétlési ideje, cache elérési idők ) t. e , , , e a l ~ - - - - - - - - - - - - - - - - - - - - - - - ~ ~ l - ~~ ----+ - - - - - - - - - - - - - ald.tH <cerlel~ . Új modellekhez új fordító verziók szükségesek Ú71* ~(fiotl~JM ott ó-~l<l ~ir~ 3.2 A VLIW feldolgozás (6) A statikus függőség kezelés hátrá,nyai (folyt9tás): 1A VLIW utatítások részlegesen kitöltöttek Rossz kihasználtságú tártér és sávszélesség 3.2 A VLIW feldolgozás (7) Trace Cydra-5 (1987) (1989) Multiflow Cydrome Néhány éven belül mindkét cég tönkrement

v. ~l 1- ti-oJ{é) Fejlesztőik: -+ HP, IBM EPIC processzorok - A ~ t-ki-et. rJI, ½ eVfA- be,(;:./ kezdeményezői, fejlesztői lettek t.<1-o--lh, 1 3.2 A VLIW feldolgozás (8) Fejlett szuperskalár vonások integrálása [ 199-/íi Intel, HP együttműködés bejelentése ) a J:>i~nlsteíef le.J-l~~ a Gv-esJJ997:EPIC elrievezés ] 2001: IA-64 ⇒ ltanium ·· ·) - 2. elrod ~ bb - ~w- (j 1~L-.t ~ti~ La.tuL ~ 1QM L-o"-~~a, - ~ u~ ~ ~ta-A~ lláUM ~~ 0 ~ l~ l k~h, vtJ~1,-e,, ,~bt.C~ 3.3 Szuperskalár feldolgozás 3.31 Bevezetés (1) - i a. ni~~ Mt~t-em ~ ~ i t ,.-ol · tctB-9;. ·-vLe ! il lli il4;t~J+:~ut~t eJJ.v~s ~ Futószalag feldolgozás Párhuzamos utasítás kibocsátás -sc•u ~ eJ:l·t:rt&~ . ~-=-~-9 oC "L ~l.O~-- j Szuperskalár feldolgozás jellemzői: · I 1 Dinamikus 1 lvko~~b6 ~tel függőség kezelé~.-- ~~ ,~¼~~~~ Kompatibilis ISA ~~WS 1 3.31 Bevezetés (2) 3.3 ábra:Kísérleti szuperskalár

processzorok 1XG ~ JAX- ló~~ ., t:s v&U:-&n e). J ~s:0 · ~a1}~éM ,\% ~ &liAl-S ~ . . . Ax Al~ i~ ~~ -f<,~~táG- J. ivJ¼vh~~~-c ~ · 3.31 Bevezetés (3) M 88000 HPPA SPARC MipsR Am29000 lBIIIPOMII ---=<--=-~-------.1 Grnlcro - - - - - - - - - - - - - - - - - Grriaa/100p--- AMDK5 CYRIX M1 A vlA fd~~ p :/j;j:: 1 denotes superscalar proce:ssors. {;i,i,&i,~ti!JCÍ}(I•- - - - - ~ . : : : - - - IJi:: :J,:::;i A r~-clv öktteM.e);et 1cl~e1„ slóL~ -- b ~ ~ ( ~) - ~ ~8S"~L ~c~i~. 1 3.4 ábra:Szuperskalár processzorok megjelenése ---, e, &1--10 - ~ ~o:u:.d6~~ l 2 ~-~ :sv-~ ) ~?ARC.- vtj~~ & ~ ~ ~ d - - ~~ ~~~ -0.~ ~ ~ ~&=,u~~ ~ 11111 µ 5~S+d-R~d 1 ~ -1t--eAe$S~i~e, j-~m ~ pc•1•••••@ l•►MIMlit•r~r1,,•wdlll·e1rr1•1 EM 1 m,1r1•1■ 11 ~QS,( . w cfJ~,: d- u.~JuJ0 ~ J - ~ ~~Ju . l~l(:,€St ~~s()~ ~u ~~boY ~~ A )GJ.~ 6:s~rn~(j~ Q. ·-- 1 1 -n~ □ Pentium e,p,~aJ·~ ~

eQ95~1o~ cder+- ¾&1Aói.J 3.33 A kiváltott feldolgozási 1 A kibocsájtási 1-buffa- szűk keresztmetszet és feloldása (1) szűk keresztmetszet értelmezése 1 : i3 .: i i1 : W ,p;i33c5 ;e,w,,; 1 !t•t• Issue ~-:5öt.V: ol e,., kJ~~, ~j ee v.,v;i IAM,.e;lv ci+2 EU EU • (a): Sirnplified structure ofthe rnikroarchitekture assuming direct issue ~ -~ -ó!d-. l~ .• i : ~ Executéble instructions ~ € A . • EU hlo~a ~ 0 c.t-zes +e, lob t Dependent instructions lssue -fv.!:fj~ (b ): The issue process A- .ki~ -~ k,ö ~{». , ~.-ot-- sz .gWIQ :c-<l~h:r~~(1/) 3.5 ábra: A direkt kibocsájtás elve 2.- ~ /iA~Jr ~ 1:,.:oes- ~ & t . ~&~ Íl\ att. ! ~r a. Ml~• 2 szűk 3.33 A kiváltott feldolgozási 1ca:tie I A kibocsájtási keresztmetszet és feloldása (2) szűk keresztmetszet feloldása ::::==== ===::qsl~~ ~ 1-buffer 1 .,41~ vv.Jv, - , ~ kg(, 2 ,f~us:,, les.1-- lnstruction windcm , - -

- - - ~ - - , e,~--ev. tl(s ~ vizSJt1l~ 1nstructi ons a-e di spached wi thóut DecodeI $U8 checki ng for deperldences to the shelving buffers (reservaion staions) i!-,. Dispach i o.s~ lssue w.)1vtleA- /.fU& .,J ~~5J6 b~.)-Vi~ Shelved not dependent instructions are issucd for execution to the EU . e8J lfl.eA1-- f ·v1,-- . EU ~ EU EU - 3.6 ábra: A pufferelt (out of order) kibocsájtás elve 3.33 A kiváltott feldolgozási / ·; ·: . . >: . szűk keresztmetszet és feloldása (3) . " MáSődik ge,neráclós : Első generá~iós . . (keskeny) ·•• · ·.· (siel~s) /s?:u pérskalái"ok· .-:·" ·,· :,> , : · ·: / . s2:~P:~r~~~1arok . · · . ;, A kialakuló kibocsájtási szűk keresztmetszet feloldása és az egyes alrendszerek feldolgozási szélességének adekvát növelése j )e.,iµ 0 V- ~--5 .,e oo ~ c.,;,,«:cs :er~,íN::- ~1: ; <tk; " - ~ ~ ~ & ~-oC~ ~("Ó.~~ Ö ~ Z.~

Q.,~:s::,Q~ GL~ ~ ,,,, ; 3.34 Második generációs szuperskalárok jellemzői Első generációs llteskenycszuperskalárok Második generációs · „széles"szuperskalárok EJ [Szé/es~~g:) • 2-3 RISC utasítás/ciklus vagy 2 CISC utasítás/ciklus „széles" [Proc;mag:) • Statikus elágazásbecslés • 4 RISC utasítás/ciklus vagy 3 CISC utasítás/ciklus „széles" • • • • Elödekódolás Dinamikus elágazásbecslés Pufferelt kibocsátás Reg. átnevezés --C"~~s~ ROB-Po~f~ [G~disítót~,::] • Példák: Egyportos, blokkoló L 1 adat-gyorsítótár • Processzor buszon keresztül csatolt L2 gyorsítótár • Kétportos, nem blokkoló L 1 adat~gyorsítótár • Közvetlen csatolású L2 gyorsítótár CC,Le}s~~ ~ ~~ □ □ Alpha 21264 D PA 8000 Alpha 21064 PA 7100 □ Pentium □ □ · Pentium Pro· o ·K ff" ~~ u.,i\-:, , A ~ Y) vi /o-l 2. 6 /$~ ~ (!l">Í ? . h-,,, r-, JoJ,. ,, 3.35 A

kibocsájtási párhuzamosság kimerülése r A 2. generációs szuperskalárok zömében már kiaknázzák az általános célú alkalmazásokban rendelkezésre álló utasításszintű párhuzamosságot. e.z:zcl t(:~lt ~ &lk · ~ l -i- nib1-d l ~ ·rll.4!e, d-- ~~ fA<-- --&- ~-e.,, 4. Az adatpárhuzamosság bevezetése 4.1 Áttekintés (1) Possible approaches to introduce data parallelism o ··· -·. 0 Dual-operation instructions SIMD instructions ~x - 1 ~ me:Ll. i}k ~~a , (i=a"b+c) i· , O:?,o,, o ·o FX-SIMD FP-SJMD 2>h~s~ .<ll~w-,- <9-o~"- (MM-support) i: 10410:i, Cl:!, o,, Zce.k-i~ -t:> 2 OPI (for gcn.usc) 2/4/8/ l 6/32 . Dedicated use Dedicated use l+E >l --------ISA-extension .--ötb Y)vi vtl tl: U:-Vv~~, l~ S.U:,tst ~ u~v~~ n0 p1 : Number of operations per instructíon OPI : Average number of operations per instruction 4.1 ábra: Az adatpárhuzamosság bevezetésének alternatívái uJ-tl, ·. --t{

)( . A+,b ~~~OJ.J ·i A 2.5 és 3 generációs szuperskalárok (1) D FX SIMD (MM) D FX SIMD + FP SIMD (MM+3D) A 2.5 és 3 generációs szuperskalárok (2) SCprCIDl!9mlS Mdorcta e HP IBM """PC Alllanc:e Poirtw Poww1(41 1 ,,. MIPS R SUnlH ■ SPARC CYRIXM ! 1 :l~j--· lt~ ~itl- - PA · 11!!1111!!1 = = ,,~ M "" "" 1!B2 ,. "" 1995 1996 H;,:,,,:(( fi Mulünmas.,pport (FX-SIMD) - SJpp,rtof30(FP-SIMD) 1917 1995 1999 4.4 ábra: A 25 és 3 generációs szuperskalárok megjelenése 3Xl2 2003 4.1 Áttekintés (2) / Utasításon belüli párhuzamos Szuperskalár feldolgozás " műveletvégzés 4.2 ábra: SIMD utasítások bevezetésének elve szuperskalár ill VLIW(EPIC) processzorokban 4.2 SIMD utasítások megjelenése szuperskalárokban (1) Megvalósítás: az ISA kibővítésével (MMX, SSE, SSE2, SSE3, 3DNow!, 3DNowProfessional) CanpaqlDE · ~~-// t HP PA IBM PcMII :~ 11

PD-wr1(4) 1 MIPS ,. P2SC(S/4f 1- -1~~- ~ R SPAR ,:::::::~] -::.· l~ I -· ,c,k„J., 1 CYRJXNl,C AMDINaGJ 1., 1 1-=-- .,,,um 1 ~ 199.) 1991 1992 1993 1994 -ii- · - I .,l : : : ftii><1 li,,11- 1lm."I PoM!r2(tJ4) === I i"" SUn/Hal 1:/ Alphai Máada [C 1995 19:16 k :<:: d MultimeáaSJ-1 (FX-SMO) - SJpportof30(FP-SMO) 1007 "" - 1k;::.i 111!!!111!!!1 1999 = 4.3 ábra: FX-SIMD és FP-SIMD utasítások megjelenése szuperskalárokban A kiváltott feldolgozási szűk keresztmetszet Rendszerarchitektúra (operatív tár,megjelenítő) :::P ~~L ~~~~V~~1. ~~~u ~[ ] ~ [ A G P b u sz ] 4.3 Szuperskalár- processzor generációk áttekintése First Gawalim rTon~.-J Feamres: $ 1 No rEflélTing. Oual portod dita ca:te. 2 osmcm ct,naric t:raich i:ra:lctim. 3 No olf-dipdred coupled L2. 4 Only 9rglep.rte:tdaaca::he - - -==== = ===== = = = ~ - - ~= = = = = = == = = = = ~ - - -- == = =

= ==== = = = ~ U r•::~:r:~tllon Cumpluicy .1t:minJ & ndwiJth ~~~ o<o.~ v-XS~&~~ ~~~,-4L ~ Lt7 ~~~ wa;sW.lk/t~Q , M tl-ö dJ 1 -~ e-isi 4.4 Az adatpárhuzamos feldolgozás bevezetésével elérhető teljesítménynövelés korlátja A második generációs szuperskalárokkal: az ILP kimerülése általános célú alkalmazásokban A harmadik generációs szuperskalárokkal: az ILP kimerülése dedikált (MM,3D) alkalmazásokban is - l ~ ~~ uJ:::. é}S~ é).L Sl.A~ ~~- 4.5 SIMD utasítások megj EPIC (VLIW) processzorokban A VLIW architektúrák/processzorok még nem támogatták a SI MD utasításokat Az EPIC architektúrák/processzorok már eleve támogatják a SI MD utasításokat. (pl. az IA-64 ISL ill az ltanium csaloo processzorai ) ·- :Le. 8- ro~zoeL-- --ex~~~L Q}.~JL do- Mt-- ~iL ~ ~ -.3~ 911cc}~~-c~~ 5. A fejlődés fővonalának 5.1 Fejlődési összegzése szcenáriók --+ 5.2 A Exta,t of opereraion letel pa-allelism

fejlődés fővonala ~uential (1) ILP processing > t ~:~ ~·· ~ijJle!!~. V ~ ~ ~ 1985/88 ~ 1900/93 ~ 1994/00 Letel of ha-clwa-e redundcncy 5.1 ábra: A fejlődés fővonalának három ciklusa t 5.2 A Időbeli i: i=1 :3 fejlődés fővonala (2) kibocsájtási ➔ adat párhuzamosság bevezetése 7 a párhuzamosság egy-egy dimenziójának bevezetése t enn~k megvalósítása szűk keresztmetszet(ek)hez vezet · · ·. .-,,: , :·· :·· . ": ·: .· a kialakuló szűk keresztmetszet( ek) feloldása ·. . :··. ·. . ·. ··. . ·.· . . . ::. : · az adott dlmenzióban :renqelkezésre álló :.--• - --·• párh~zamosítási lehetősége~:-~rdernben kimerül.neki , : · : ; · . • · ~ teljesítmény további növeléséhez ap~rhuzafllosságújabb dirnenzíójának bevezetése ·. szükséges · 5.2 ábra: A 5.2 A fejlődés 1. generation ➔ 1.5 generation o Caches ➔ 2. fejlődés fővonalának fővonala

(3) -- Advél108d mEmJ1Y s.ibs;&011 - Advél108d bra1ch proceang 1. ganeration 2. generat ion o Dynanc in&. s:he:luling D REJlélT"ing D Aa:IEo:ldi ng D Dyna-nic bra,ch pralidia, OROS . D Dual portal dáa ca:hes D Nonblocking L1 dáaca:hes wi 1h ITTJlti pi e Céliie rriS:leS allowal D Off-chip dind couplal L2 generation - 1&. ectenson 2.5 generation D FX SIMDect81Sion ➔ D Brimch prediction három ciklusa o ·. · Ext81Sion of.91&011 a-chite::ture AGP On-cl)i p L2 ➔ 3. generation □ FPSIMD ertmoo ca:hes ~1985/88 ~1990/93 ~ 1994/97 5.3 ábra: A fejlődés három ciklusában bevezetett fontosabb technikák 6. Kitekintés: szálszinten párhuzamos feldolgozás bevezetése (1) Szemcsézettség 11 Több szál TP (thread-level parallelism) J l lll l l Szál (Utasításfolyam) ILP (instruction-level parallelism) 6. Kitekintés: szálszinten párhuzamos feldolgozás bevezetése (2) Párhuzamos szálak származtatása különböző

alkalmazásokból • Multiprogramming ugyanabból az alkalmazásból • Multitasking, Multithreading 6. Kitekintés: szálszinten párhuzamos feldolgozás bevezetése (3) SMP: Symmetric Multiprocessing (CMP: Chip Multiprocessing) SMT: Simultaneous Multithreading (HT: Hyperthreading (Intel)) Ugyanazon a lapkán implementált két Többszálas processzor-maggal ,---* ·--· - vagy több processzor-maggal 1 t t r----f-------------------------f-~--7 / 1 1 Mag . 14==~ 1 ~-~ 1 L2/L3 ~~~ ! • •· · §MT .• · ·· l - : Proc.-mag Lapka 1 ""-1 · · • Mag 1 . ~ - ~ 1 1 1 1 · i L 1 1 1 L3/0peratív tár L3/0peratív tár 6. Kitekintés: szálszinten párhuzamos feldolgozás bevezetése (4) SMT: Simultaneous Multithreading (HT: Hyperthreading (Intel)) Szuperskalár (négyszeres) Szál t Többszálas szuperskalár (négyszeres/két szálas) Szál 1 tt Szál 2