Informatika | Információelmélet » Rabóczki Róbert - Szoftveres hangtömörítési eljárások

Alapadatok

Év, oldalszám:2000, 141 oldal

Nyelv:magyar

Letöltések száma:320

Feltöltve:2006. február 09.

Méret:546 KB

Intézmény:
-

Megjegyzés:

Csatolmány:-

Letöltés PDF-ben:Kérlek jelentkezz be!



Értékelések

Nincs még értékelés. Legyél Te az első!


Tartalmi kivonat

Rabóczki Róbert Szoftveres hangtömörítési eljárások ismertetése és összehasonlítása EGER 2000 Bevezetés Bevezetés A személyi számítógépek és a hang közös múltja szinte egyik legrövidebb történet az informatika fejlõdésében. Kezdetben a lassú fejlõdés okát fõleg az okozta, hogy a hatvanas és hetvenes években, a kis és nagyszámítógépeket többnyire ügyviteli, CAD/CAM rendszerekre, folyamatszabályzási, time-sharing (szövegszerkesztés, táblázatkezelés ,program fejlesztési) célokra használták. Ezen alkalmazások pedig szinte semmiféle hangzásbeli követelményt nem támasztottak a gépekkel szemben. Késõbbiekben ugyan a személyi számítógép megjelenésével, megszülethetett maga a hang fogalma is a számítástechnikában, köszönhetõ ez fõleg a számítógépes játékoknak, melyek a legfõbb inspirációt jelentették a hardvergyártók számára. Viszont tovább késleltette a fejlõdését azon

tényezõ, miszerint a többségi piacot birtokló IBM kezdeti elképzeléseiben a PC-k csak a terminálok kiváltására szerepeltek és ez által a cég továbbra sem törõdött a hangtechnikával. Közben kisebb cégek, mint pl a Commodore jelentõs piaci sikereket értek el a vezetõ géptípus a PC mögött, azáltal hogy nagyobb hangsúly fektettek a gépük grafikájának és a hangjának tökéletesítésére. Az IBM klónokat gyártó cégek megirigyelvén a jelentõs sikereket és talán attól félve, hogy egyszer kiszoríthatják más, olyan piacokról is õket, ahol mindig is egyeduralkodók voltak, szintén elkezdtek az IBM által elhanyagolt játékprogramok igényeinek kielégítésül szolgáló hangtechnikával foglalkozni. A nyolcvanas évek végére a tendencia azonban kezdett merõben megváltozni. Olyan kisebb cégek, mint az ATARI vagy például a Commodore gépek utódjának szánt AMIGA család, – melynek elsõ darabja az 1000-es modell

megjelenésekor, hangtudásával szinte mérföldekkel maga mögé utasította összes vetélytársát –, lassacskán elmaradtak a fejlõdésben és egymás után sorra tönkrementek. Kiszorítván a piacról majdnem az összes konkurens géptípust, vitathatatlan tényé vált, hogy a kilencvenes évek az otthoni PC gépek évtizede lett. Grafika és a hang területén elszenvedett régebbi hátrányaikat fokozatosan leküzdve, fõbb elõnyeik leginkább az olcsóságukban, könnyû szerelhetõségükben és az elterjedtségükben rejlett a többi típushoz képest. Így a PC-kben is sorra jelentek meg az eleinte tényleg csak kezdetleges hangchipektõl a valóban komoly igényeket kielégítõ hangkártyákig. A kezdeti lépések megtétele után az iparág kellõképpen gyors és széleskörû fejlõdésnek indult ahhoz, hogy egyre többen lássanak benne jövedelmezõ üzletet. A kilencvenes években tovább nõtt a 1 Bevezetés fejlõdés üteme és nem csak a hangkártyák

területén. Kimagaslóan látványos teljesítmény megtöbbszörözõdést igazán a processzor fejlesztõk könyvelhették le. Mivel a technikai háttér már adott volt olyan szintû alkalmazások, feladatok ellátásához, melyeket régen csak külön videorendszerekkel vagy audiorendszerekkel voltak képesek pradukálni. Megszületett egy fogalom, melybõl hamarosan szlogen vált, ez a szó a „Multimédia”. Nehéz lenne eldönteni, hogy az igény, a szoftverek vagy a hardver, a technika oldal jelentett nagyobb húzóerõt az iparág fejlõdésére, inkább akkor járnánk közelebb az igazsághoz, ha azt mondanánk is-is. Hiszen a két dolog kölcsönösen egymásra gyakorolt hatása együttesen érvényesült a piacon. Azért jegyezzük meg, hogy a Multimédia, mint tárgykör nem csak a szûk értelembe vett video és audio rendszerekbõl áll. Ez azért egy nagyobb gyûjtõfogalom, melybe beletartoznak a hálózati kommunikációtól egészen az adattárolásig sok egyéb

réteg is. Eközben az audiotechnikában is fokozatosan kiszorították a digitális hangeszközök a hasonló feladat ellátására szolgáló analóg eszközöket. Talán kezdetben nem is a jobb hangminõség kedvéért, inkább a digitális tárolás azon elõnyére alapozva, hogy a letárolt adat nem veszít a minõségébõl az analóg tárolási technikákkal szemben. Megfigyelhetõ, hogy míg kezdetben a személyi számítógépek hangminõsége a csúcs Hi-fi hangzást tûzte ki célul, és az audiotechnika diktálta a fejlõdés ütemét, addigra manapság már a számítástechnika vált húzó ágazattá még az audio ipar számára is. Napjainkban is szinte kézzelfogható a telekommunikációs, az adattárolási és a megjelenítõ rendszerek nagy iramú fejlõdése. Viszont megjelent egy állandó probléma; mivel a digitális adathordozóknak és a telekommunikációs rendszereknek mind van egy véges kapacitása és hiába fejlõdnek ugyan olyan mértékben ezen

rendszerek, mint a megjelenítõ eszközök, egy lényeges differencia akkor is mindig megmarad közöttük. Mégpedig, hogy a számítógép megjelenítõ hardvereinek folyamatos minõségi javulása, az eszköz adatszükségletét is ez által egyenes arányban növeli meg. Tehát egy örök versenyfutással nézhetünk szembe a háttértárak és telekommunikációs rendszerek kapacitása és megjelenítõ eszközök adatigénye között. Ezt az állandó különbséget kompenzálandóan született meg szinte csak pár éve az informatikában egy fogalom, technikai eljárás, amit „valós idejû adattömörítésnek” neveztek el, ennek egyik konkrétabb válfaját ismertetném részletesebben, ez pedig a hangtömörítés. 2 Mi a hang és a hangzás maga? Mi a hang és a hangzás maga? Mielõtt elmélyednénk a hang digitalizálás, tárolás, visszajátszás és maga a hangtömörítés elvi jellemzõikben és felvázolásukban, szükségesnek tûnik néhány, magával

a hanggal kapcsolatos alapfogalmak áttekintése, majd az emberi fül bizonyos korlátainak bemutatása. Ezen fogalmak tisztázása nélkül minden bizonnyal kevésbé vagy egyáltalán nem lennének érthetõk az elkövetkezõ témák. Az alábbiakban a rezgØsrıl és a hullÆmokr l, a hangr l és a hangzÆsr l, valamint azok tulajdonságairól, mértékegységeikrõl és az emberi hallás jellemzõirõl esik szó. A hanghullám általános fizikális jellemzõi Fizikai jellegét tekintve a hang valamilyen rugalmas közeg mechanikai rezgésébõl áll. A rezgØsek a részecskék ide-oda mozgása révén keletkeznek és amennyiben ez a mozgás szinuszos, harmonikus rezgØsrõl beszélünk. Az emberi fül által hallható hang konkrétabban pedig nem más, mint a rezgést végzõ részecskék által létrehozott levegõben terjedõ nyomáshullám. A levegõn kívül a hang terjedhet ugyan más közegben is, mint pl.: vízben vagy szilárd testekben, viszont ez a téma

szemszögébõl tekintve már nem lényeges momentum a számunkra, így a továbbiakban csak a levegõben terjedõ léghangokkal kívánok foglalkozni. Ha egy levegõvel kitöltött tér, mint rugalmas közeg adott pontjában, rezgést keltünk, akkor az itt létrehozott nyomáseltérés a szomszéd térrészek felé kiegyenlítõdni igyekszik. A kiegyenlítõdés során a részecskék elmozdulnak, ami újabb, a szomszédos térrészekben kialakuló nyomáskülönbséget okoz. A nyomásváltozás ily módon a térben hanghullámok formájában tovaterjed. A hullámokat jellemezhetjük (11 ábra): (1.1 ábra) Egy szinuszhullám jellemzõi 3 Mi a hang és a hangzás maga? – A rezgõ mozgás és a terjedés iránya szerint, mint − keresztirÆnyœ (transzverzÆlis) hullÆm szilárd testekben, amikor a részecske rezgõ mozgása merõleges a terjedési irányra és − hosszanti (longitudinÆlis) hullÆm, amikor a részecske rezgõ mozgásának és a hullám terjedésének

iránya megegyezik. – Frekvencia (f): az egy másodperc alatti rezgések száma. Frekvenciáról csak akkor beszélünk, ha ún. periodikus (harmonikus) rezgésrõl van szó, mértékegysége az 1/s, vagy más nevén a hertz; Hz (ez határozza meg a hangmagasságot). A hang frekvenciája különbözõ típusú közegekben más és más tartományokra osztható: Infrahangok: 0-tól 20 Hz Hallható hangok: 20 Hz-tõl 20 KHz-ig Ultrahangok: 20 KHz-tõl 1 GHz-ig. Hyperhangok: 1 GHz-tõl 10 THz-ig – Peri dusidı (T): egy periódus a jelnek olyan teljes szakasza, amely ismétlõdik. Így a periódusidõ (T) két ismétlõdés (pl. két hullámcsúcs) között eltelt idõ A frekvencia és a periódusidõ között a következõ kapcsolat áll fennt: – Amplitœd T=1/f (A): a részecske legnagyobb kitérése nyugalmi helyzetébõl (ez határozza meg a hangerõt), – HullÆmhossz (λ): a hanghullámok azonos fázisú pontjai közötti távolság. A frekvenciával való szorzata

állandó érték, ez a hang terjedési sebessége: c = f × λ, ahol c a terjedési sebesség és c = 340 m/s. A léghang légnyomásingadozás formájában keletkezik, az állandó értékûnek tekinthetõ légnyomásra szuperponálódik rá a hangnyomás, melyet jelöljünk p(t)-vel. P(t) = P0+p(t) Ennek az effektív értékével jellemzik leggyakrabban a hangot fizikai szempontból. A hangnyomás mértékegysége a Pascal (Pa). 1Pa, mint tudjuk 1N erõhatást jelent 1m2 felületen. Ha pedig a hang forrása pontszerû, és ha a térben a hang minden irányban akadálytalanul terjedhet, akkor gömbhullámok keletkeznek. A hangforrástól nagy távolságra az azonos fázisú gömbfelületek alig görbülnek, ezért azokat már síkhullámoknak tekinthetjük. Síkhullámokra érvényes az, hogy a hangnyomás és a részecskesebesség hányadosa állandó: p/v = p0 × c = 410 kg/m2 sec ,ahol p0 a levegõ sûrûsége. 4 Mi a hang és a hangzás maga? A hang jellemezhetõ

az idõegység alatt a felületegységen áthaladó energia nagyságával is. Ezt nevezzük hangintenzitásnak, értékét a hangnyomás és a részecskesebesség szorzataként számítjuk. Síkhullámoknál számolhatunk a: I = p × v = p2 / p0 Az intenzitást is gyakran viszonyítva, dB-ben kifejezve adjuk meg. Könnyen belátható, hogy a viszonyítási alap I0 = 1 pW/m2, ami az 1000 Hz-en éppen meghallható szinuszhang intenzitásértéke. Ekkor az intenzitásszint: LI = 20 × lg I/I0 Méréskor viszont gyakoribb szokás az, hogy a mért hangnyomás és egy referencia érték arányát adják meg dB-ben. Ez az elfogadott referencia érték: p0 = 2010-6 Pa, ami egy átlagember számára az éppen meghallható 1000 Hz-es szinuszhang nyomásértéke. A hangnyomásszint tehát: Lp = 20 × lg p/p0 Egy hangforrás jellemezhetõ még teljesítménye alapján is,(wattban). Viszont ennek értéke rendkívül csekély, fõleg ha figyelembe vesszük, hogy a hangerıssØg vagy intenzitÆs

(I), a hangforrástól mért távolságtól négyzetes arányban csökken. Mindenképp meg kell említeni a hanghullámoknak a téma szempontjából szinte egyik legfontosabb tulajdonságát, mégpedig mikor tiszta hangról beszélünk, egy magányos szinuszrezgØsre kell gondolnunk, ami azonban csak elektronikusan állítható elõ. A termØszetes hang – amit általában röviden hangnak nevezünk – fizikai szempontból már hangzás: szinuszhangok összegébõl áll, amelyek rØsz- vagy parciÆlis hangokként állnak össze. Fourier francia matematikus felismerésének köszönhetõen ma már tudjuk, hogy minden folytonosan változó, periodikus jel felbontható állandó frekvencián rezgõ szinuszhullámok összegére, vagyis egy összetett jelet egyszerûbben, frekvenciakomponenseire bontva tudunk vizsgálni. A hang, vagy bármilyen jel frekvenciaösszetevõinek összességét a jel spektrumának nevezzük A legmélyebb részhang (alaphang) határozza meg a (természetes) hang

frekvenciáját. A felhangok ezzel szemben összetételük és a hangkeltõtõl függõ rezonanciaerõsítés révén bizonyos felhangterületeket, ún. formÆnsokat, hangsz nt alkotnak. A lágy hangok spektruma felhangszegény, az éleseké viszont felhanggazdag, emellett a dinamika is megváltoztatja a részhangspektrumot. 5 Mi a hang és a hangzás maga? A hangoknál és hangzásoknál a rezgések maguk mindig periodikusak, ellenkezõ esetben zörejrõl és zajról beszélünk. Z rej esetében a rezgések nem periodikusak, a részhangsor nem harmonikus és nagyon sûrû a részhang-kontinuumig. A zörejek hangmagassága a nagymértékben fellépõ formánsterületek miatt csak körülbelül határozható meg. Zaj (13 ábra) esetében nem periodikus, rövid rezgésimpulzusokról van szó, melyek hangszíne idõtartamuktól függ. A frekvencia – ahogyan arról fentebb már szó volt – a másodpercenkénti rezgésszámot írja le. A szabályos „szinusz” rezgéseknél (12

ábra) mértékét egyszerûen egy rezgési periódus idejének reciprokából kapjuk, a hangrezgések azonban többnyire nem szabályosak, ezért ilyen esetekben csak Fourier fentebb említett tétele segítségével juthatunk a frekvencia pontos értékéhez. Oszcilloszgrammok SoundForge 4.5-ben : - (1.2 ábra) Tiszta hang {szinuszhullám} - (1.3 ábra) Természetes hang {zongorahang} Az emberi fül alapvetõ hallásbeli tulajdonságai Megvizsgálva az emberi hallás fiziológiai jellemzõit; tapasztalatból tudjuk, hogy hallásunk mind frekvencia, mind pedig a hangnyomás tartományokban korlátozott. Nagyszámú kísérleti alannyal hangnyomásszinteket végzett vagyunk mérések alapján képesek még megállapították, éppen meghallani hogy a milyen frekvencia függvényében. Ezen mérési eredményeket hallÆsk sz bnek is szokás nevezni A hallásküszöb erõsen függ a frekvenciától. Eszerint a fül érzékenysége a néhány kHz-es tartományban a

legnagyobb, kisebb és nagyobb frekvenciákon pedig leromlik. A diagramm (1.4 ábra) alapján jól látható, hogy fülünk frekvencia tartománya 20 Hz és 20 kHz közé esik, míg a legnagyobb és legkisebb érzékelhetõ hangnyomásszint által határolt tartomány, más néven dinamika 120 dB terjedelmû. A nagyon erõs hangok fájdalomérzetet keltenek. Ezt a határt fÆjdalomk sz bnek nevezzük Ennek görbéje már nem annyira frekvenciafüggõ. Ezen korlátokon belül találhatóak a zene és a beszéd 6 Mi a hang és a hangzás maga? tartományai. Megfigyelhetõ, hogy a zene frekvencia és dinamikahatárai lényegesen nagyobbak, mint amelyekkel a beszéd rendelkezik. (1.4 ábra) Az emberi fül hallástartománya A szubjektív hangosságérzet számszerûsítésére vezették be a hangerıssØg fogalmát. Ennek alapján egy tetszõleges hang hangerõssége annyi phon, ahány dB a vele azonos hangosságérzetet keltõ 1 kHz-es szinuszhang hangnyomásszintje. Ha a frekvencia

függvényében összekötjük az azonos hangerõsségû pontokat, akkor megkapjuk az úgynevezett Fletcher-Munson görbéket (1.5 ábra) Egy adott frekvenciájú és adott hangnyomásszintû hang hangerõsségét a görbékre írt phon érték alapján állapíthatjuk meg. Az így megállapított hangerõsség jele LN Ezen az alapon már eltérõ frekvenciájú hangokat is össze tudunk hasonlítani a hangerõsségük alapján. Az egyidejûleg megszólaló hangok eredõjének meghatározására vezették be a hangossÆgot, melynek jele N és mértékegysége a son. (1.5 ábra) Fletcher-Munson görbék 7 Mi a hang és a hangzás maga? A kiszámítás módja, ha a hangerõsség meghaladja a 40 phont: N = 2 (LN-40) /10 Eszerint 10 phon hangerõsségnövekedésnek kétszer akkora hangosság felel meg. Amennyiben a különféle hangok nem közeli frekvenciájúak, akkor a son-ban kifejezett hangerõsségeik összegezhetõek. A 40 phon hangerõsség 1 son értékû Általában

fülünk kb. 325 hangerıfokozatot tud megkülönböztetni, de a hangosságérzékelés függ az idõtõl is, a teljes hangerõ meghallásához 0,2 ,a csend érzékeléséhez 0,14 másodpercre van szükségünk. Két perc után a hangosság 10 dB-el csökken (adaptÆci ), majd ez nagyjából állandó marad. Frekvenciában közeli hangoknál fellép a hangelfedØs jelensége. Ennek lényege az, hogy az elsõ, zavarónak tekintett hang megemeli a másik, a vizsgálandó hang hallásküszöbét. A hangelfedést megvizsgálták tiszta szinuszos hangokra, keskeny és szélessávú zajokra. A következõ diagrammon (16 ábra) megfigyelhetjük a különféle hangnyomásszintû 1000 Hz-es keskenysávú hangok által megnövelt hallásküszöböket. A hangelfedõ hatás a magasabb frekvenciákon erõsebben jelentkeznek. (1.6 ábra) Hangelfedés A hangjelenségek végül is térben játszódnak le, ezért igen fontos a térinformációk felismerése is. Ezek közül legjelentõsebb a

hangforrÆs irÆnya A vízszintes síkban a két fülünkbe jutó hangnyomáseltérés alapján lokalizáljuk a hangforrás irányát. Szembõl érkezõ hanghullámok szimmetria okokból azonos hangnyomást keltenek mindkét fülünkben. Oldalirányú hanghullámok útjai eltérõek lesznek. Kisfrekvencián az útkülönbség okozta fáziseltérést detektálja a fülünk, míg magasabb frekvenciákon a fej árnyékoló hatása következtében fellépõ intenzitáskülönbséget érzékeljük. Más a helyzet a függõleges irányban, ugyanis a magasabbról érkezõ hangok is azonos hangnyomásokat keltenek mindkét fülben. Emiatt a vízszintestõl való eltérést közvetlen módon nem tudjuk 8 Mi a hang és a hangzás maga? megállapítani. Az ilyen irányok érzékeléséhez a fej mozgatására is szükség van Külön említésre méltó még azon tény, hogy a legújabb kutatások szerint, ugyan nem halljuk a 20 kHz-es frekvenciatartomány feletti hangokat, de

meglétüket vagy hiányukat bizonyos szintig érzékeljük. Fülünk(agyunk) hallásbeli tulajdonságainak ismerete alapján hozhatunk létre igazán élethû mesterséges hangteret, míg hallásunk korlátait a hangtömörítésnél hasznosíthatjuk. De mindezekrõl részletesebben majd csak a késõbbiekben kívánok kitérni. 9 Hanganyagok digitalizálása Hanganyagok digitalizálása A hang általános fizikális jellemzõinek és az emberi fül alaptulajdonságainak megismerése után, most térjünk át, hogy voltaképp hogyan és milyen eszközökkel tudjuk a levegõben terjedõ hangokat számítógépen rögzíteni és bármikor újból lejátszani. A hangot vizsgálódásunk elején úgy definiáltuk, mint olyan hosszanti hullámot, amelyet a rezgést végzõ részecskék által létrehozott levegõben keletkezõ nyomásváltozások sugároznak. Tehát amikor Hangrögzítésrõl beszélünk, ezen nyomásingadozások valamifajta tárolásáról beszélünk. A

lejátszást hasonlóan definiálhatjuk, csak ott a folyamat pont fordítva játszódik le. Ahhoz hogy pontosabban megérthessük a számítógépen való hangrögzítést és lejátszást szükséges magát az egész eljárást bizonyos részekre bontva külön tárgyalnunk. Kezdve azzal hogy a levegõ nyomáshullámait hogyan alakítjuk át analóg elektromos jelsorozattá, majd ezt az analóg jelsorozatot digitális jelek tömegéve, amit már a számítógép is képes feldolgozni. Utána a gépen miként tárolhatjuk el a digitális jeleket és játszhatjuk vissza. A végén pedig a digitális jelekbõl újból analóg elektromos jeleket képezve, hogyan alakíthatjuk vissza azokat nyomáshullámokká. A hangrögzítés története Az emberekben az erre való igény szinte már a kezdet-kezdetén megjelent. Viszont a megvalósítása, csak a technikai fejlõdésének egy bizonyos szakaszától volt számunkra elérhetõ. Már az ókori Görögök is rájöttek, hogy egy

exponenciálisan bõvülõ tölcsér képes tisztán akusztikus módon a gyenge hangot felerõsíteni. Majd a hang rögzítésére és újra felidézésére irányuló törekvések azonban csak a múlt század második felében valósultak meg elõször, mikor Thomas Alva Edison 1877 decemberében megalkotta az elsõ fonográfot. Elvi mûködését tekintve a szerkezet egy hengerre feszített lágy ónfóliára rögzítette a hangot egy tû, egy membrán és egy hangfelfogó tölcsér segítségével. A henger egy csavarmenet segítségével forgott, így a tû képes volt egy spirálmenet mentén rávésni a fóliára a membrán rezgéseit. 10 évvel késõbb, 1887 szeptember 26-án kapott szabadalmat a gramofon nevû készüléke Emil Berliner német feltalálónak. A gramofon egy korong felületén létrehozott spirálmeneten rögzíti a hangot. A korong formájú 10 Hanganyagok digitalizálása hanghordozók - a lemezek - könnyen tárolhatók, a fonográfhengerekhez képest

és jóval kevesebb helyet foglalnak, egy lemez hosszabb idejû hangrészletet volt képes tárolni mint egy fonográfhenger, továbbá a lemezek másolása sokkal könnyebben megvalósítható: egy megfelelõen elkészített nyomóminta segítségével lehet a korong alapanyagba belepréselni a hanginformációt. Ily módon egy hangfelvétel során elkészült lemezrõl több száz másolatot is lehetett készíteni a lemezrõl készített nyomómintával. Ezek az elõnyös tulajdonságok hamar népszerûvé tették a gramofont és lassan kiszorították a fonográfot a piacról. A gramofonnak és a fonográfnak is megvolt azonban egy fontos tulajdonsága, miszerint mindkettõ elvi mûködését mechanikusnak tekinthetjük. Míg 1905-ben Valdemar Poulsen által feltalált magnetofon már egy merõben más rögzítési eljáráson alapult. A hangot mágneses térerõ változásokká alakította, majd ezt elõször acélhuzalra, késõbb pedig vasporral bevont szalagra vitte fel. A

manapság használatos magnókazetták õsének nevezhetjük. A hangfelvételek kezdetben mind akusztikus úton készültek, ami már akkortájt is több minõségi problémát vetett fel. Ezekkel a problémákkal kezdet el foglalkozni 1920-ban egy tudományos intézet, a Bell laboratórium. Tisztázták a hangfelvétel fizikai és matematikai összefüggéseit és több évi kutatómunka eredményeként 1924-ben megteremtették az elektromechanikus hangfelvételi eljárást. A mikrofonnal, erõsítõvel és elektromos lemezvágó géppel készített felvételek frekvenciasávja és dinamikája jóval túlhaladta az akusztikus felvételekét, torzításuk pedig nagymértékben csökkent. Itt születtek meg az elsõ elektromos jelátalakítók és az akkori nagy csoda, maga a rádió. Ez az ízig-vérig elektronikus találmány elektroncsöves erõsítõjével és hangszórójával már kezdetben jobb minõségû hangot adott, mint az addigi legjobb gramofon.

Elektroakusztikus jelátalakítók A Bell laboratórium azon felismerése, hogy a hangot legkönnyebben úgy tudjuk rögzíteni, ha a levegõben keletkezõ nyomáshullámokat valamifajta elektromos jelsorozattá alakítjuk át. Az akkoriban erre a célra megalkotott berendezések azóta természetesen jócskán korszerûsödtek, de elvi mûködésükben szinte változatlanok maradtak. Következõkben tekintsük át alaptípusaikat és azok felépítését. Tehát az elektroakusztikai átalakítók olyan eszközök, amelyek az elektromos energiát hangenergiává, a hangenergiát pedig elektromos energiává alakítják át. Az átalakítás két lépésben történik. Az elsõ lépésben az elektromos energiát alakítjuk 11 Hanganyagok digitalizálása mechanikai energiává. Ennek a folyamatnak az eszköze a valamilyen elektromos vagy mágneses erõhatáson alapuló elektromechanikai Ætalak t . Az átalakító szerves része egy mechanikai rezgõrendszer, amihez mereven

kapcsolódik a nagyfelületû membrÆn. A mechanikai mozgási energiát ez a membrán továbbítja a légtérbe, olymódon, hogy a membrán mozgásba hozza a levegõ részecskéit, és az energia hanghullámok formájában tovaterjed. Inverz mûködés esetén a fenti folyamat fordítva zajlik le, vagyis a beérkezõ hanghullámok mozgásba hozzák az átalakító mechanikai rendszerét, majd a mozgással arányos jelet kapunk az átalakító elektromos oldalán. Egyes átalakítókban a membrán és a mechanikai lengõrendszer nem különíthetõ el. Az átalakítók egy része vezØrlØses elven mûködik. Ez annyit jelent, hogy például a mechanikai energiával egy külsõ energiaforrás által leadott energiát befolyásoljuk. A vezérelt energia lényegesen nagyobb is lehet mint a vezérlõjel energiája, ezért ezeket akt v átalakítóknak is szokás nevezni. Ilyen eszköz például a távbeszélõk szénmikrofonja. Az alábbi elektromechanikai átalakítókat használják a

leggyakrabban: ElektromÆgneses Ætalak t (2.1 ábra) Állandómágnesbõl, lágyvas saruból, gerjesztõtekercsbõl, membránból és feszítõrugóból áll. Nyugalmi helyzetben az állandómágnes keltette húzóerõ és a rugóerõ vannak egyensúlyban. A nyugalmi légrésméret s/2. Ha a tekercsen áram folyik át, ami növeli a mágneskör fluxusát, akkor a húzóerõ megnõ, a légrés pedig lecsökken. Ellentétes irányú áram csökkenti a húzóerõt, ezért a horgony eltávolodik. A jól méretezett átalakítóban a tekercs áramával arányos lesz a horgony nyugalmi helyzetébõl való elmozdulása. Fordított mûködésnél a hangnyomás keltette eredõ erõ elmozdítja a horgonyt. Az elmozdulás irányának megfelelõen a fluxusváltozás feszültséget indukál a tekercsben. (2.1 ábra) Az elektromágneses átalakító elvi felépítése felépítése (2.2 ábra) Az elektrodinamikus átalakító elvi 12 Hanganyagok digitalizálása Elektrodinamikus Ætalak t

(2.2 ábra) Állandó méretû légréssel rendelkezik A légrésben mágnestér van, amelyben mozog egy áramvezetõ. Az áramvezetõ végei között feszültség indukálódik, ami arányos a légrésindukcióval, az áramvezetõ hosszával és a sebességgel. Ilymódon képes a mozgási energiát elektromossá alakítani Ha árammal tápláljuk ezt a vezetõt, akkor ugyancsak az indukcióval, az áramvezetõ hosszával, valamint az árammal arányos erõhatás lép fel. A gyakorlati megvalósítás során nem egyetlen szál vezetõt, hanem egy úgynevezett lengõtekercset használunk, amelynek a teljes huzalhossza részt vesz az átalakításban. Elektrosztatikus Ætalak t (2.3 ábra) Lényegében egy merev és egy mozgatható elektródájú kondenzátor. A mozgatható elektróda vékony fémfóliából készül, amely egyúttal az átalakító membránja is. A másik vastag fémanyagból készül, szokásos elnevezése ellenelektróda. Az átalakító lineáris mûködéséhez

szükség van egy egyenfeszültségû telepre, amely egy nagyértékû R ellenállással sorban kapcsolódik az elektródákra. Az elektrosztatikus erõ a vékony membránt az ellenelektródához vonzza Mivel a membrán szélei rögzítettek a fólia deformálódik. Járulékos feszültség hatására a sztatikus vonzóerõ az elõjeltõl függõen nõ vagy csökken. Ezáltal a membrán mozgásba jön, mivel jobban vagy kevésbé deformálódik. Ha hangnyomás éri a membránt, akkor az ismét jobban vagy kevésbé deformálódik. A méretváltozás eredményeképpen nõ vagy csökken a kapacitás. Gyors változások közben a kondenzátor töltése nem tud változni, ezért a feszültsége változik meg. A feszültségeltérés az ellenálláson jelenik meg (2.3 ábra) Az elektrosztatikus átalakító elvi mûködése Piezoelektromos Ætalak t . Egyes anyagok szerkezete olyan, hogy mechanikai deformáció hatására a felületükön elektromos töltések jelennek meg. Fordított

esetben az anyagra kapcsolt térerõtõl függõ deformáció jelentkezik. Ezt a piezoelektromos hatást használják fel mechanikai rezgések elektromos rezgésekké való átalakítására. Mikrofon típusok: Az elõzõekben láttuk, hogy a hangjelek milyen széles választékát kell továbbítani, illetve rögzíteni. Ennek megfelelõen sokféle, különbözõ típusú és minõségû mikrofonokat 13 Hanganyagok digitalizálása használunk a hangvétel céljaira. A mikrofonok jellemzésére az érzékenységet, az érzékenység frekvenciamenetét és az iránykarakterisztikát szokás megadni. Az ØrzØkenysØg az egységnyi hangnyomás hatására leadott feszültséget jelenti. A frekvenciamenet az érzékenység frekvenciafüggését jelenti. Az irÆnykarakterisztika a beérkezõ hanghullámok irányától való érzékenységfüggést (2.4 ábra) fejezi ki (2.4 ábra) Szokásos mikrofon-iránykarakterisztikák Ez lehet zárt, vagy más néven gömbkarakterisztikájú

mikrofon. A gradiensmikrofon nyitott, membránja mindkét oldalára hat a hangnyomás, ezért oldalirányból teljesen érzéketlen, a fõirányokból pedig maximális, de ellenkezõ elõjelû az érzékenysége. Az úgynevezett kardioid karakterisztika fõirányban maximális, és ez folyamatosan zérusra csökken. A távbeszélõ-készülékekben nagy tömegben gyártott, olcsó szØnmikrofonokat használunk. Elvileg ez egy egyenáramú feszültségforrásra kapcsolt változó ellenállás Az ellenállásváltozás a membránra (2.5 ábra) jutó hangnyomás hatására lép fel A középen elhelyezkedõ laza szemcséjû szénporhoz két, aranyozott elektróda érintkezik. Az alsó elektróda szigetelten a fémházhoz van erõsítve, míg a felsõ a membránnal együtt mozog. A szénszemcsék közötti átmeneti ellenállás a mozgás ütemében fog változni. Az ellenállás a kitérésnek nem lineáris függvénye, ezért a mikrofon torzítása elég nagy. Széleskörû

elterjedését az aktív, nagy jelet eredményezõ mûködésének köszönheti. Napjainkban az elektronikus készülékek megjelenésével jelentõsége csökkenõben van. Stúdió- és közszükségleti célokra egyaránt gyakran készítenek dinamikus átalakítóval mûködõ mikrofonokat. (Felépítése a 26 ábrán látható) (2.5 ábra) A szénmikrofon felépítése (2.6 ábra) A dinamikus mikrofon 14 Hanganyagok digitalizálása Az állandó mágneskör légrésébe helyezett lengõtekercs kivezetésein jelenik meg az indukált feszültség. A tekercs a membránnal együtt mozog, a hangnyomásnak megfelelõen. A mágneskör és a membrán a mikrofonházban helyezkedik el, amelyet elölrõl védõrács zár le. A zárt ház megnyitásával, a rácsméret alkalmas megválasztásával és még járulékos akusztikus elemek beiktatásával szélessávú, tetszõleges iránykarakterisztikájú mikrofon alakítható ki. A stúdió- és méréstechnika eszköze a

kondenzÆtormikrofon. Hengeres fémház (2.7 ábra) belsejében helyezkedik el szigetelten a tárcsaalakú ellenelektróda A fémház végén kifeszített fémmembrán és az ellenelektróda közötti távolság 0.01 mm nagyságrendû. A mikrofont egyenfeszültségre kapcsoljuk egy igen nagy ellenálláson keresztül. A mozgó, kifeszített membrán okozta kapacitásváltozással arányos váltófeszültség jelenik meg az ellenálláson, amit kiszajú, nagy bemeneti ellenállású elõerõsítõre vezetünk. A pontos, precíz elkészítéssel, a stabil elõfeszültséggel elérhetõ, hogy a hitelesített érzékenység hosszú ideig állandó legyen. (2.7 ábra) A kondenzátormikrofon (2.8 ábra) A kristálymikrofon Közszükségleti célokra használatos a kristÆlymikrofon. A szokásos felépítés szerint (28 ábra) a mikrofonházba rögzített bimorf kristályt a másik végéhez kapcsolt membrán mozgása fogja meghajlítani. A bimorf elem tagjai ellentétes

feszültséget produkálnak, amelyek egyszerûen összegezhetõek. Mivel nagy a belsõ ellenállás, ezért a leadott jelet nagy bemeneti ellenállású erõsítõvel kell erõsíteni. Az analóg jelek digitális feldolgozása Miután a fenti módszerek és eszközök valamelyikével a hangnyomás-változást ÆramerıssØg rögzíthetjük vagy a fesz ltsØg hangot például ingadozÆssÆ a már alakítottuk, említett további mágneses jelátalakításokkal térerõ változásként (magnószalagon), vagy mechanikusan, a hullámok alakját anyagba vésve (hanglemezen). A két módszer közös jellemzõje viszont, hogy anal g elven mûködnek, hiszen a nyomás minden pillanatban más és más, állandóan változik, és ez a változás csak egy folytonos függvénnyel írható le. A számítógép persze nem tud folytonos jelekkel dolgozni, így ha a gépen szeretnénk hanganyagot rögzíteni, át kell alakítanunk azt digitÆlis jelek sorozatává. 15 Hanganyagok

digitalizálása A digitális értékek, amelyek leírják a levegõ pillanatnyi nyomását, akármilyen gyorsan is követik egymást, sosem lesznek folytonosak, az eredeti jelet tehát át kell alakítanunk egy diszkrét, különálló pontokból álló függvénnyé, amit már tudunk a gépen is tárolni. Ezt a folyamatot nevezik anal g-digitÆl Ætalak tÆsnak (A/D konverzi nak). A digitális jelfeldolgozás jobb megértéséhez kívánatosabb elõbb megismerni a jelek típusait és struktúráit, ezért a következõkben részletesebben megnézzük mi is történik analóg-digitális átalakításkor a jellel. Az elektronikában általában úgy értelmezzük a jeleket, mint valamilyen idõtõl függõ folyamat (azaz idõfüggvény) amplitúdóját. Az amplitúdót esetünkben feszültségnek tekinthetjük, mivel a hangok az analóg elektromos rendszerekben általában feszültség formájában terjednek. Az analóg jelek (29 ábra) idõben és értéktartományban folytonosak, ez

azt jelenti, hogy a jel megfelelõ hûséggel (ugyanúgy, azaz analóg módon) képez le egy folytonosan zajló fizikai folyamatot. Az elsõ lépés a digitalizÆlÆshoz, hogy a folytonos jelnek csak egy-egy pillanatban vizsgáljuk az értékét, és ezeket az értékeket tároljuk el. (2.9 ábra) Folytonos idejû és értékû analóg jel Ha ezek a pillanatok elég sûrûn követik egymást, vagyis olyan sûrûn, hogy az eredeti jelnek közben nincs ideje nagyon megváltozni, akkor ezek a folytonos jelbõl vett minták egész jól megközelítik az eredeti jel alakját – ezt a mûveletet hívjuk mintavØtelezØsnek (sampling). Tehát a folytonos értékû jelet csak meghatározott idõpillanatokban vesszük fel, azaz idõben diszkrét függvényt kapunk (2.10 ábra) Az elsõ felmerülõ kérdés, hogy milyen sûrûn vegyük ezeket a mintákat, ha ugyanis gyakran vesszük õket, akkor a folytonos jelek biztosan elég precízen le fogják írni a mintát, viszont nagyon sok adatot

kell tárolnunk, míg ha ritkábban veszünk mintákat, könnyen elõfordulhat, hogy azok nem tudják követni a jel változását. Azt kell tehát megtudnunk, hogy a jel milyen gyorsan változik, így a mintavétel sûrûségét is meg tudjuk választani úgy, hogy a leggyorsabb változást is követni tudják mintáink. 16 Hanganyagok digitalizálása (2.10 ábra) Folytonos értékû, idõben diszkrét függvény A kérdésre Shannon, az információelmélet megalapozója adta meg a választ, tétele szerint, ugyanis ha egy jelsorozat szinuszos összetevõi közül a legnagyobb rezgésszámúnak frekvenciája f (felsı hatÆrfrekvencia vagy Nyquist-frekvencia), akkor a folytonos jelet 2f mintavételi frekvenciával mintavételezve a kapott diszkrét jelsorozat egyértelmûen leírja az eredeti jelet. Mivel az emberi hallástartomány felsõ határát 20 kHzben állapították meg, ezt az értéket tekinthetjük a határfrekvenciának, vagyis elegendõ ennek

kétszeresével, 40 kHz-el mintavételeznünk. A fenti tételbõl azonban az is kiderül, hogy a határfrekvenciánál nagyobb értékeket nem tudják majd visszaadni a diszkrét minták, ezért azokat valamilyen módon el kell távolítanunk az eredeti jelbõl. Az ilyen határfrekvencia feletti jelek még több bonyodalmat okoznak azzal, hogy amikor az ADC-re kerülnek, erõteljes torzítás lép fel – ez az ún. aliasing- vagy stroboszk phatÆs. Az aliasing jelensége abból áll, hogy ha Nyquistfrekvencia feletti jeleket mintavételezzük, akkor a diszkrét jelsorozatban ezek a jelek átalakulnak alacsonyabb frekvenciákká. Ez természetesen nem túlságosan kellemes, hiszen ezek az alacsonyabb összetevõk nem voltak meg az eredeti folytonos jelben, vagyis torzításként, zajként, idegen jelként jelentkeznek. Az aliasing hatás elkerülése végett tehát meg kell tisztítanunk a hangot a nem kívánt magas frekvenciáktól, ami rendkívül egyszerûen, egy 20 kHz vágási

pontú LPF szûrõ bekapcsolásával történhet. Ezt a szûrõt tehát az analóg jelre kell kapcsolnunk, még mielõtt azt digitalizálnánk, vagyis a szûrõnek is egy analóg elektromos szerkezetnek kell lennie. A szûrõkrõl viszont érdemes tudni, hogy csak véges meredekséggel képesek vágni, és bár számunkra az lenne az ideális, ha 20 kHz alatt mindent, felette pedig semmit nem engednének át, ez gyakorlatilag lehetetlen. Ez az oka annak, hogy a digitális audio rendszerekben nem a fenti 40 kHz-es mintavételi frekvenciát használják, hanem általában 44.1 vagy 48 kHz-et Ilyenkor a határfrekvencia értelemszerûen 22.05 illetve 24 kHz, az aluláteresztõ antialiasing szûrõt 17 Hanganyagok digitalizálása pedig meg lehet úgy konstruálni, hogy 20 kHz-ig lineáris legyen az átvitele, majd folyamatosan kezdjen el csillapítani, így a kritikus Nyquist-frekvenciára már alig enged át jeleket, vagyis elhanyagolható lesz az aliasing hatás. Visszakanyarodva az

analóg jelhez most tekintsük azon esetet, mikor az értékeket kizárólag csak az elõre meghatározott pontokban vesszük fel úgy, hogy közben maga a jel idõben folytonos maradjon (2.11 ábra) (2.11 ábra) Idõben folytonos, diszkrét értékû függvény Tehát az olyan mûveletet, ahol a függvényértékek közül csak bizonyos számokat engedünk meg, és az ettõl eltérõ értékeket az általunk használt legközelebbi számértékhez kerekítjük ún. kvantÆlÆsnak nevezz k ,és az általunk kiválasztott valamennyi értéket pedig kvantÆlÆsi szintnek vagy lØpcsınek hívjuk. Ismét felmerül azonban a kérdés, hogy hány olyan értéket kell kiválasztanunk, amire aztán kerekíteni fogunk, hiszen ha túl sokat választunk, ebben az esetben is gazdaságtalanul járunk el, ha pedig túl keveset, akkor a jel nagyon darabos lesz, azaz csak ritkán ugrik feljebb vagy lejjebb. A legkisebb és legnagyobb ábrázolható érték aránya megközelítõleg 120 dB

környezetében a legmegfelelõbb, aminek megállapításához újfent a hallástartomány adta kezünkbe a kulcsot, hiszen az ennél nagyobb dinamikájú zenét – a hallásküszöb alá esõ értékek miatt – még, az ennél nagyobb dinamikájút pedig – a fájdalomküszöb fölötti értékek miatt – már nem hallhatjuk. Az analóg lemezjátszók dinamikája 70-80 dB, a jobb kazettás magnóké is eléri a 80 dB-t manapság, ennél tehát jobb értéket kell kapnunk, ha már egyszer digitálisan rögzítünk. A digitális ábrázolás miatt a kvantálási szintek száma, vagyis a felbontÆs 2 valamelyik hatványával lesz egyenlõ – hiszen azt biteken kell ábrázolnunk –, a lépcsõk száma pedig egyben a rendszer dinamikatartomÆnyÆt is meghatározza. Amennyiben n biten ábrázolunk, a legkisebb ábrázolható érték nyilván az 1, a legnagyobb pedig 2n. Számításokkal igazolható, hogy egy bittel növelve a kódszó hosszúságát a dinamika 18 Hanganyagok

digitalizálása körülbelül 6 dB-el növekszik, azaz 8 bites szavak esetében ez megközelítõleg 48 dB lesz, ami éppen megfelel a DIN német szabvány Hi-Fi berendezésekre elõírt alsó jel-zaj viszonyának – vagy pontosabban megfogalmazva az átvihetõ hasznos jel és a keletkezõ zaj effektív dB-ben kifejezett arányának. Ezt azonban már a legrosszabb kazettás magnók is megdöntik. Két bájtot, azaz 16 bitet használva a dinamika ennek duplája, 96 dB lesz, ami már viszonylag jónak mondható. A mintavételezés közben jelent meg az aliasing problémája, optimizmus lenne tehát azt gondolni, hogy a kvantálás során nem történik a jelen semmiféle elõnytelen változás. Kvantáláskor az eredeti analóg jelet kerekítjük a kvantálási szintek értékére, így a hanghoz tulajdonképpen egy véletlenszerûen változó jelet keverünk, amely zajként jelentkezik. Ez az ún kvantÆlÆsi zaj rontja a rendszer jel-zaj viszonyát, és ezen felül még rendelkezik

egy igen érdekes tulajdonsággal, ugyanis csak akkor jelentkezik ,ha a rendszerben hang van, hiszen ekkor történik kerekítés, ilyenkor kap a rendszer új jelet. A kvantálási szinteket általában egyenletesen veszik fel a dinamikatartományban, azaz két szomszédos szint egyenlõ távolságban van, ezt lineáris kvantálásnak hívják. További gond azonban ilyenkor, hogy bár a 16 bites felbontás nagy amplitúdójú jeleknél elegendõ, de a kisebb jelek ábrázolására kevesebb kvantálási szint jut, így ezek a jelek túlzottan lépcsõsek lesznek, azaz torzulnak. Más digitális rendszerekben ezt a problémát nemlineáris kvantálással, például logaritmikussal védik ki, itt a kisebb amplitúdótartományban sûrûbben vannak a kvantálási lépcsõfokok. Az aliasing hatás és a kvantálási zaj problémájának teljes kiküszöbölésére kézenfekvõ megoldás lenne, hogy megemeljük az A/D átalakítás mintavételi frekvenciáját 44.1 kHz fölé, valamint 16

bitnél nagyobb felbontást használunk, ennél azért jelenleg gazdaságosabb megoldás bizonyos jelfeldolgozó algoritmusokat alkalmazni közvetlenül a jelátalakításban. Melyek akár szoftveres formában is alkalmazhatók, ugyanakkor már ezekkel is jelentõs javulást érhetõ el a hangminõség terén. Az imént említett módszerek legelterjedtebb változatai a tœlmintavØtelezØs (oversampling), a zajspektrum-formÆzÆs (noise shaping) és a zajmodulÆci (dithering). Miután körbejártuk mind a mintavételezési, mind a kvantálási eljárások elvi mûködését és ott fellépõ esetleges hibákat és azok kiküszöbölésének lehetõségeit, nézzük magának az átalakításnak (konvertálásnak) technikai megvalósítását. Tehát legelõször is fõ célunk, a beérkezõ folytonos, anal g jelet, minél pontosabban egy idõben és értékben diszkrét (2.12 ábra), digitÆlis jelsorozattá alakítsuk át 19 Hanganyagok digitalizálása (2.12 ábra) Diszkrét

értékû és diszkrét idejû –digitális- jel Viszont egy rendszer szempontjából egyéb fontosabb kívánalmak is felmerülhetnek, mint például a jel-átalakítás sebessége vagy a manapság egyre hangsúlyosabb költségcsökkentés mérlegelése. A sok módszer közül inkább csak két általánosabbnak mondható megoldást érdemes tüzetesebben megvizsgálnunk. Nézzük meg az integrÆl –meredekség- típusú átalakítót (2.13 ábra), melyet az angol irodalomban single slope converter-nek neveznek. Mûködési elvének lényege, hogy a bemeneti analóg feszültséget egy összehasonlító (referencia) feszültséggel vetjük össze. A referenciafeszültség folyamatosan nõ, s amíg a két feszültség egyenlõ nem lesz, egy digitális számláló folyamatosan felfelé számol. Amikor a két feszültség egyenlõvé válik, azaz a két feszültség különbsége egy általunk meghatározott minimális intervallumba esik, akkor leállítjuk a számlálást.

(2.13 ábra) Integráló típusú A/D konverter Az integrátor áramkör C kondenzátora az inicializálás után az R ellenálláson keresztül elkezd töltõdni. Az integrátor kimeneti feszültségét egy komparátor segítségével hasonlítjuk össze a bemeneti feszültséggel. Amíg a két feszültség nem egyenlõ, addig a komparátor kimeneti jele igaz (true) szintû. Az ÉS kapu kimenetén ilyenkor az órajel meg tud jelenni, azaz a számláló számol. Ha a két feszültség értéke annyira megközelíti egymást, hogy a komparátor át tud billenni, akkor a komparátor kimenetén logikai hamis 20 Hanganyagok digitalizálása (false) szint jelenik meg. Ekkor az ÉS kapu kimenetén nem tud megjelenni az órajel, így a számlálás leáll. A konverter tehát idõbeli integrálást hajtott végre, a számláló digitális kimenete arányos az integrálás idejével, az pedig arányos a bemeneti feszültséggel. Az átalakítást az inicializálás indítja el, ekkor a

kapcsoló alaphelyzetbe hozza az integrátort (azaz a kondenzátort kisüti), míg a számlálót lenullázza. Az integráló típusú átalakítás tehát valamekkora idõt vesz igénybe. Ez az idõ az integrátor R és C tagjától függ A kapcsolás elõnye, hogy viszonylag egyszerû és olcsón elõállítható, míg hátránya, hogy bizonyos frekvencia felett nem használható. Egy másik megoldás a k zvetlen fesz ltsØg- sszehasonl tÆs elvén mûködõ átalakító (2.14 ábra) (2.14 ábra) A/D átalakítás közvetlen feszültség-összehasonlítással Itt a bemeneti jelet közvetlenül több referenciafeszültséggel hasonlítja össze. Ezeknek a referenciafeszültségeknek az értékei csupán egy-egy kvantálási léptékkel térnek el egymástól. A bemeneti feszültséget (Ube) az összes komparátor összehasonlítja a saját referenciafeszültségével (Urefn), és amely referenciafeszültségeknél a bemeneti feszültség nagyobb, ott az adott komparátor átbillen.

A komparátorok kimeneteit tehát a bemeneti feszültségre jellemzõ digitális kódnak tekinthetjük. Ezt a kódot a kódoló áramkör a felbontásnak megfelelõ bitszámú bináris számmá alakítja. A módszer hátránya, hogy az átalakítónak n bit esetén 2n-1 darab komparátort kell tartalmaznia és a komparátoroknak igen pontosaknak kell lenniük, ezért sokkal költségesebb, mint az integráló módszer. Elõnye viszont, hogy sokkal gyorsabb, hiszen az átalakítás idejét itt csak a komparátorok billenési ideje és a komparátorok kimenetének kódolási ideje szabja meg. Persze ennél a módszernél is van egy felsõ sebességhatár, de az integráló módszerhez képest jóval gyorsabban tudja elvégezni az átalakítást. Az angol irodalomban ezt a típusú konvertert villanásszerû, azaz flash A/D converter-nek nevezik, utalva az átalakító sebességére. 21 Hanganyagok digitalizálása A digitális technika megjelenésé óta a jelátalakítók is

rengeteget fejlõdtek. Sebességüket, felbontó képességüket egyre nagyobb mértékben növelték. Javultak a linearitási mutatók - csökkentették a torzítási, a mintavételi és egyéb hibákat. A mikroelektronika fejlõdése azt eredményezte, hogy az A/D konverterek belsõ vezérlõ egysége egyre intelligensebbé vált, egyre összetettebb feladatokat tudott megoldani. Az átalakítók újabb változatai már bonyolult algoritmus szerint hozzák létre a kimenõ digitális értéket. Jó példa erre a manapság talán legelterjedtebb és legfejlettebb fokozatos megközelítésû konverterekben használatos szigma-delta moduláció. Tekintsünk konkrétan egy klasszikus oversampling (Σ Σ ∆ ) szigma-delta modulátoros A/D konvertert (2.15 ábra) (2.15 ábra) Elsõ generációs oversampling (Σ∆) szigma-delta ADC blokk diagram Ennél túl-mintavételezéssel történik meg a bemenõ analóg jel feldolgozása (a szükségesnél legalább 10-szer sûrûbb a

mintavétel). A modulátort decimáló szûrõ követi, az csökkenti a mintavételi gyakoriságot a szükséges szintre - ugyanakkor megnövelve a szóhosszúságot is. A szigma-delta modulátor kimenetén ugyanis egy bites a digitális jel ebbõl kell a konverterre jellemzõ szóhosszúságot létrehozni 22 Digitális jelfolyam tárolása Digitális jelfolyam tárolása A gyakorlatban az Analóg-Digitál konverterekbõl szinte mindig egy szigorúan periodikus és egyöntetû (strongly periodic & regular) digitális jelsorozatot kapunk, persze csak abban az esetben, ha az analóg jel mintavételezési frekvenciáját és annak kvantálási minõségét állandó értékeken tarjuk. Lényegében a jelfolyamban a szomszédos adatcsomagok közötti idõintervallumok és a csomagok méretei nem változnak. Az ilyen jelforrásokat nevezik digitális csatornának vagy, ha éppen audio jelekrõl van szó, akkor digitális hangcsatornának. Az alapján hogy hány ilyen független

jelfolyamot kell folyamatosan rögzítenünk, beszélhetünk egy, kettõ vagy többcsatornás digitális hangról. A kvantálás során viszont a digitális jelsorozat nem tartalmaz semmilyen információt arra vonatkozólag, hogy a visszaalakításnál milyen kvantálási hosszúságot vagy mintavételi frekvenciát kell alkalmazzunk. Ezért célszerûségi okokból az A/D konverterek kimenõjelét mindenképp bizonyos kódolási mûveletnek vetik alá. Elsõszintû kódolás Fõként két alapvetõ típusát használják a mai professzionális hangtechnikában. Elsõként tekintsük meg a legáltalánosabban használt PCM kódolási eljárást (3.1 ábra) − PCM kódolás (Pulse Code Modulation): A kimenõjelet polaritásinformációval látják el és a kvantálás során kapott bináris kódszavakat pedig kettes komplemens kódban lekódolják. Az így kapott jelet már PCM (Impulzuskódolású modulált) jelnek lehet nevezni. (3.1 ábra) PCM kódolási eljárás − DSD

kódolás (Direct Stream Digital): A DSD megjelenéséig a professzionális digitális hangtechnikában szinte csak sokbites rendszereket alkalmaztak. Kezdetben a berendezések kizárólag sokbites A/D ill D/A 23 Digitális jelfolyam tárolása konverterekkel készültek, így szinte természetes volt, hogy a sokbites hangmintákat rögzítették a hanghordozóra. Viszont az idõközben megjelenõ egybites jelátalakítók, a nagyobb felbontó képességüknek és gyorsaságuknak köszönhetõen csak nem teljesen kiszorították a régi sokbites jelátalakítókat a professzionális hangtechnikai rendszerekbõl. Az egybites A/D konverterekkel felszerelt hangrögzítõ eszközökben – elõnyös tulajdonságai és a kompatibilitás fenntartása végett – megõrizték a sokbites tárolási formát is. Sõt erre a Sony cég egy külön rendszert is kifejlesztettek, mely a SBMD (Super Bit Mapping Direct) elnevezést kapta. Itt a tervezõk fõ célkitûzése az volt, hogy a

szokásos 44.1 Khz, 16 bites konverzió mellett az SBMD lehetõvé tegye, az egybites jelfolyamnak bármely más általánosan használt formátumba való átalakítását (3.2 ábra) (3.2 ábra) SBMD rendszer konverziós lehetõségei Az egybites jelfolyamok és a sokbites hangminták közti oda-vissza irányban szükséges konverzió biztosítására, két további fokozattal bõvítették a jelfeldolgozó elektronikát (3.3 ábra). (3.3 ábra) Sokbites PCM jel létrehozása a DSD rendszerû készülékeknél Felvételkor az egybites túlmintavételezett bemeneti jelbõl a decimátor alakítja ki a rögzítésre kerülõ sokbites hangmintákat, lejátszáskor pedig az interpolátor konvertálja egybites jelfolyammá a sokbites hangmintákat. Ahogy gyakorlatilag bármely beavatkozás valamilyen mértékben -- a decimálás és az interpoláció is befolyásolja a hangzást. A decimálás pl. csökkenti a jel hangfrekvenciás spektrumának szélességét 24 Digitális jelfolyam

tárolása Néhány éve felmerült a gondolat: mi lenne, ha az egybites jelet közvetlenül rögzítenék? Így megtakarítható lenne a decimáló és az interpoláló fokozat. Továbbá, mivel az egybites formában rögzített digitális jel lényegesen érzéketlenebb az adathibákra, a sokbites rendszerek hibajavító kódolásánál lényegesebben egyszerûbb hibajavítás is elegendõ lenne. Az ötletbõl a Sonynál új kódolási koncepció született, mely a rendszer lényegét jól visszaadó, szabad fordításban a közvetlen digitális adatfolyam elnevezést kapta. Az alkalmazott egybites átalakítók ún módosított szigma-delta konverterek. A szigma-delta konverzió tulajdonképpen impulzusszélesség-moduláció A szigma-delta kódolású jel frekvenciamenete lineáris, a jel kvantálási zaja viszont – eltérõen a sokbites PCM jelek egyenletesen eloszló kvantálási zajától – 6 dB/oktáv meredekséggel növekszik. Hogy az egybites mintákkal pontosan

leírható legyen az analóg bemenõjel, a DSD mintavételi frekvenciáját 2,82 MHz-re, a CD mintavételi frekvenciájának 64-szeresére választották. A túlmintavételezés miatt a PCM rendszereknél tapasztalt átlapolódás nem lép fel, emiatt nincs szükség a bemenetre kerülõ analóg jel szûrésére. A szigma-delta jelfolyam egyik lényeges tulajdonsága, hogy egy aluláteresztõ szûrõ segítségével visszanyerhetõ belõle az analóg jel. Emiatt a DSD készülékek tulajdonképpen nem is tartalmaznak digitális-analóg konvertert. Az alábbi ábrákon látható, hogy a sokbites PCM jelátalakítók felépítése mennyivel bonyolultabb a DSD felépítésénél (3.4 ábra) (3.4 ábra) DSD rendszerû készülékek egyszerûsített blokkvázlata Mivel a szigma-delta kódolású jel kvantálási zaja a frekvenciával arányosan növekszik, a jelet ötödrendû zajformálásnak vetik alá. Így biztosítják, hogy a zajszint a hangfrekvenciás sávban a kívánt

érték alatt maradjon. Az eljárás nagymértékben hasonlít az SBMD-nél alkalmazott zajformálásra. Egy visszacsatolt jelfeldolgozó áramkör segítségével a 20 kHznél alacsonyabb frekvenciájú jelek tartományában -120 dB alá szorítják a kvantálási zajt Ez úgy lehetséges, hogy egy zajformáló szûrõ segítségével az alsó tartományból elvett zajenergiát a 20 kHz feletti tartományba transzformálja. A rendszer frekvenciamenete az elõírások szerint egészen 100 kHz-ig lineáris lesz, vagyis lehetõvé válik vele a 20 kHz-nél nagyobb frekvenciájú harmonikus komponensek rögzítése is, melyek a 44,1 kHz-cel történõ mintavételezésnél elvesznek. A nagy sávszélesség és dinamika a DSD 25 Digitális jelfolyam tárolása legfontosabb jellemzõi. A nagy jel-zaj viszony, és a kimagaslóan nagy sávszélesség biztosítja, hogy az analóg felvételeken rákerülhessen az új médiumra. lévõ információ gyakorlatilag 100%-ig A rendszer

tehát nincs konkrét médiumhoz kötve, tetszõleges adattároló alkalmazása is elképzelhetõ. Az egyetlen kritérium, hogy a hordozóra másodpercenként és csatornánként 2,82 millió bitet kell tudni felírni ill. belõle kiolvasni. Érdemes megjegyezni, hogy bár az eddig megjelent DSD hangrögzítõ rendszerekben a CD mintavételi frekvenciájának 64-szeresével történik az analóg jel digitalizálása, szakemberek már felvetették, hogy a professzionális alkalmazásokhoz 128, vagy akár még többszörös túlmintavételezés bevezetése lenne kívánatos. Hangfájl formátumok A több csatornás hangokat, mint párhuzamosan kódolt digitális jelfolyamokat archiválás, és nem utolsó sorban adattovábbítás szempontjából is mindenképp elõnyösebb egyetlen egy bájtsorozatba rendezni. Ezen összegzések megoldására az elektronikai berendezésekben általában Multiplexereket alkalmaznak. A számítógépeknél pedig különbözõ fájlformátumok

születtek, maga a digitális hangnak az archiválására. A hangfájlokat alapvetõen két csoportra oszthatjuk: mintavételezéses és kotta-alapú formátumokra és ezeken belül is lehet az állomány tömörített vagy tömörítetlen. A jobb megértés érdekében tisztázzuk az elõbb elhangzott pár új alapfogalmat. Mintavételezéssel készült hangállományon az elõzõekben tárgyalt A/D konverterekbõl nyert kódolt jelsorozatok összegzését értjük. A kotta alapú hangtárolásra jellemzõ, mint a nevébõl is következik csak zene tárolására alkalmas. Itt magát a hangot hangszerekre bontva a számítógép különbözõ hangszintetizálási eljárásokkal reprodukálja. Ami lehet analóg vagy digitális, vagy a kettõ ötvözete. Az analóg szintetizálás legfõbb hátránya, hogy az elõre rögzített hangszerek és azok száma mindenképp korlátozza az alkotót a hangzás szabadságában, ezért jelentõsége manapság folyamatosan csökken. Viszont

ne felejtsük el, hogy egyáltalán az elektromos zene, és maga a szintetizátor megszületését az anal g hangszintetizÆlÆsnak köszönhetjük. A digitÆlis hangszintetizÆlÆsnÆl használt hangszerek pedig már mintavételezési eljárásokkal rögzített hangminták, és a most megjelenõ szintetizátorok többségét is már ellátják olyan tulajdonságokkal, amik régebben csak egy sampler gépre voltak jellemzõek. Tehát a mai zenealkotók többnyire már mintavételezéssel rögzített zenei effektusokat kevernek össze, vagy esetleg a két módszert vegyítve használják. A személyi számítógépeken manapság már csak a professzionális zenei alkalmazásokban találkozhatunk hangszintetizálási eljárásokkal. 26 Digitális jelfolyam tárolása T m r tett hangformÆtumnak azokat az állományokat nevezzük, melyeknél valamilyen matematikai eljárással a tömörítetlen bájtsorozat méretét úgy redukáljuk, hogy a felhasználás, ami esetükben a

lejátszás elõtt, egy kicsomagoló (dekódoló) algoritmuson átfuttatva vagy az eredeti adatainkat vagy ahhoz közeli, hasonló értékeket kapjunk meg. Mielõtt részletesebben ismertetném a tömörítõ eljárásokat és azok alaptípusait, elõbb be kívánom mutatni azon tömörítetlen hangfájl formátumokat, melyek leginkább elterjedtek a személyi számítógépek körében. Segítséget jelenthet a sok fájlformátum közötti eligazodásban, az állomány nevének kiterjesztése, ami sokszor a formátum angol elnevezésének rövidítése vagy arra utaló mozaikszó. Tömörítetlen hangfájl-formátumok gyakori típusai: .RAW: a legalapvetõbb formátum, ami tulajdonképpen nem nevezhetõ formátumnak, hiszen mint az angol elnevezése a „raw” szó is utal, ez egy nyers adathalmaz, ezért nem tartalmaz semmiféle információt a fájl tartalmával kapcsolatban (nem mondja meg, hogy hány bites, stb.) Csakis és kizárólag a digitalizált hangot tartalmazza Ha egy

RAW fájlt le akarunk játszani, akkor meg kell tudnunk mondani a lejátszóprogramnak, hogy a hang vagy zene milyen minõségben lett bedigitalizálva, mert egyébként nem azt kapjuk majd, amire számítottunk; rossz bitmélységben való lejátszáskor hangos éles zajt, rossz mintavételezési frekvencia felhasználásánál pedig az eredeti hangot vagy zenét, de más sebességgel (pl. egy 32000Hz-es mintavételi frekvenciájú hangminta 22100Hz-en lejátszva lassabb, 44100Hz-en lejátszva gyorsabb lesz). .WAV: Waveform Audio File Format (WAVE), mely a (Resource Interchange File Format) röviden RIFF Multimédia formátum specifikációnak a tagja. A RIFF célja, hogy a grafika, hang, animáció és más információ tárolása közösen, adatfelülettõl függetlenül valósuljon meg. Ez a legáltalánosabban használt hangformátum a PC kompatíbilis gépeken, népszerûségét fõként a Microsoft támogatásával és a Windows-zal együtt érhette el. A WAV-nak több fajtája

is van, tömörített WAV is létezik, mégis elsõsorban rugalmas felépítése miatt lett igazán népszerû (például rögzíthetjük a WAV fájlban az adott zene vagy hangminta készítõjének vagy az összes közremûködõnek a nevét, és még rengeteg más, esetenként nagyon fontos adatot is). Szinte kivétel nélkül minden program támogatja. Tömörítetlen formában a következõ paramétereket használhatjuk Mintavételezés: 8, 11, 22, 44 kHz Hangfelbontás (bitmélység): 8, 16 bit Csatornák száma: 1 (mono), 2 (sztereo) 27 Digitális jelfolyam tárolása Egy lényeges jellemzõje a hangformátumoknak az a minimális adatátviteli sebesség, mely még szükséges a hang folyamatos visszajátszásához. Tehát ha ismerjük a rögzített hang paramétereit, akkor kiszámolhatjuk a hozzá tartozó adatátviteli sebességet is. Pl: vegyük a legjobb minõségû hangátvitelt, amit a WAV formátum megenged; 44.1 kHz-en mintavételezett, 16 bit-en kvantált, 2

csatornás sztereo hangnál: 2 × 44100/s × 16bit = 1411.2 Kbit/sec Ezen képlet alapján könnyen kiszámolható mondjuk egy tömörítetlen 88.2 kHz-es mintavételezésû, 24 bit-es, 8 csatornás térhatású zene lejátszásához minimálisan már 2.02 Mbyte/sec adatátvitel lenne kívánatos Ha pedig azt nézzük, hogy egy 60 perces hanganyag rögzítése ezekkel a paraméterekkel 7.1 Gbyte háttértár kapacitás igényel, belátható miért elõnyösebb fõleg a sokcsatornás(multi-channel) hangállományokat tömöríteni. A WAV tömörített formátumai: CCITT A-Law CCITT µ-Law, (Consultation Committee on International Telephone and Telegraph – A nemzetközi telefon és távíró konzíliumi bizottság által rögzített tömörítési szabványok.) DSP Group Truespeech GSM 6.10 Microsoft ADPCM, (Adaptive Differential Pulse Code Modulation – Adaptív Differenciált Impulzuskód Moduláció) IMA ADPCM, (International Multimedia Association – Nemzetközi Multimédia

Egyesülés) Lernout & Hauspie CELP Lernout & Hauspie SBC Microsoft G.7231 MSN Audio .VOC: (Voice) hangfájlok hasonlóan a WAV formátumhoz, sokféle mintavételi sebességgel rögzíthetõk és játszhatók vissza. Túlnyomórészt DOS operációs rendszer alatt futó programok használják. Tömörített változatban a 8 bites mintákat 4:1, 3:1, 2:1 arányban lehet tömöríteni, a 16 bites mintákat pedig 4:1 és 2:1 arányban. A formátum egyébiránt a Creative Labs cég elõírásait követi. 28 Digitális jelfolyam tárolása .AIF: (Audio Interchange File Format) hangfájlok a Macintosh és a Silicon Graphics világából származnak, de felépítettségükben alig térnek el az elõzõekben tárgyalt hangformátumokhoz képest. .MID: (Music Instrument Digital Interface) az elõzõekben megemlített kotta alapú hangtárolás egyik jellegzetes fájlformátuma. Valójában az angol elnevezés egy olyan digitális hangszercsatoló protokollra utal, amely lehetõvé

teszi azt, hogy a számítógép és az elektronikus hangszerek egymás között adatokat cseréljenek, valamint képes legyenek ennek az adatcserének a szabályzására is. A MIDI állományok a hangkártyákkal közvetlenül lejátszható, digitalizált hangokat tartalmazó mintavételezésen alapuló fájlformátumoktól eltérõen csak a hangok lejátszására vonatkozó utasításokat tartalmaznak. Ezen eltérés miatt a MIDI fájlok mérete jóval kisebb, mint a vele azonos mennyiségû zenét tartalmazó anyagoké. A MIDI állományban szereplõ utasítások tartalmazzák a megszólaló hangok magasságát, hosszát, idõzítését, valamint egyéb paramétereit. Nagyon sokfajta fejlettségû és különbözõ szintû hangszintetizálási módszer létezik. Az FM (frekvenciamodulációs) szintetizátorok többnyire alapszintûnek számítanak. Szabványosítottak viszont egy általánosan használt hangszertáblát, ez a General MIDI, mely meghatározza azt a

minimális számú hangszert, amiknek a kezelésére képesnek kell lennie egy szintetizátornak vagy hangkártyának, és azt, hogy ezek milyen sorszámon érhetõk el. .CMF: (Creative Music Format) állományban hangszeres blokkok vannak, amelyek az egyes hangszerek megszólaltatásához szükséges FM-szintetizátor paramétereket tartalmazzák. .MOD, STM, S3M, XM, IT: (Modul) formátum is olyan szabvány, amely a zenei információk (hangok és hangjegyek) tárolására vonatkozik. A modul elnevezés az AMIGA-világból származik és legalapvetõbb jellemzõje, hogy a benne megszólaló hangszereket, digitális hangminták formájában tárolja. De mivel az AMIGA hangtudása, a modul fájlformátum szerkezetét 4, illetve maximum 8 hangcsatornára korlátozta, ezért a késõbbiekben a PC kompatíbilis számítógépeken sorra jelentek meg az újabb trackerformátumok, melyek a modulhoz hasonló felépítettséggel, de már jóval tágabb adottságokkal rendelkeztek. Az újabb

formátumok állomány kiterjesztései pedig a zeneszerkesztõ nevére utalnak, mint például: STM – ScreamTracker, S3M – ScreamTracker 3, XM – FastTracker, IM – ImpulseTracker. Összességében a modul formátumokra jellemzõ, hogy a kotta szervezése, felépítése jelentõsen eltér a klasszikus 29 Digitális jelfolyam tárolása leírási módoktól (pl. a MIDI kottarendszerétõl) Ennek megfelelõen a modulok alapvetõen két fõ részbõl épülnek fel, a hangszerekbõl – melyek a digitális hangmintából és az ahhoz kapcsolódó különbözõ adatokból állnak –, és a zene kottÆjÆból. A hangszerekre számuk alapján szokás hivatkozni, lehetnek egyszerûek vagy loopoltak, magasságukat pedig a lejátszás sebessége határozza meg. A zene megszólaltatása sÆvokon (track) keresztül történik, egy sávon egyszerre csak egy hangszer, egy hangmagasságon szólhat. A kotta alapelemei a lapok (pattern), amelyekben adott számú, de általában

változtatható mennyiségû sor van. Minden sor különbözõ parancsokat tartalmaz a modul különbözõ sávjaira, amelyek akkor hajtódnak végre, amikor a lejátszás az adott sorhoz ér. A lapokra számukkal hivatkozhatunk, a visszajátszást késõbb az a sorrendlista határozza meg, amelyben a lapok sorszámait tároljuk a kívánt sorrendben. Egy lap természetesen többször is elõfordulhat a zenében. A sorok lejátszása a zenében ütemekre tagolódik, melyek sebesség állítható. Szintén beállítható, hogy egy sor hány ütembõl álljon Alapvetõ tömörítési eljárások Mielõtt tovább folytatnám a legelterjedtebb hangfájl formátumok felsorolását és rátérnék a tömörített állományok közkedveltebb típusaira, a jobb érthetõség kedvéért, ismertetem a tömörítési eljárások alapjait és fõbb csoportjait. A hangtömörítéseknek alapvetõen két fõ területe alakult ki napjainkra, attól függõen, hogy a magas minõségi követelményeket

támasztó zenét, vagy a kisebb frekvencia és dinamika tartományt igénylõ beszédet kell tömörítenünk. Audio Coding (Általános hang kódolás) Speech Coding (Beszéd kódolás) Megjegyezhetjük, hogy az általános hangkódolási technikákkal is lehetséges magának az emberi hangnak a tömörítése, de sokkal gazdaságtalanabb eredményhez vezet, mint ha kifejezetten erre a célra készített tömörítési eljárásokat alkalmaztunk volna. Általában a hangkódolási eljárások több csatornás hanggal dolgoznak és figyelembe veszik a sztereo, és bizonyos esetekben a térhatású hang redundanciát is. Míg a beszéd tömörítésénél nagyon ritka esetekben használnak egynél több csatornát. Továbbá mindkét két kategórián belül szintén megkülönböztethetünk alapvetõ eljárásokat és az azokat tartalmazó alcsoportokat (3.5 táblázat) Ezek között az entrópiakódolás veszteségmentes, a forráskódolás gyakran vesztséges. A hybrid elveket

alkalmazzák leggyakrabban a multimédia rendszerekben, ezek azonban mindig több kisebb kódolási eljárás kombinációi, eljárástechnikailag 30 nem jelentenek önálló Digitális jelfolyam tárolása algoritmust. A táblázatból szándékosan hagytam ki a csatornakódolást Mert ez a mindenkori átviteli rendszerhez szorosan illeszkedik. Emlékeztetõül megjegyzem, hogy a hangátviteli rendszerekben alapvetõen a már bemutatott PCM vagy DSD csatornakódolási technikát alkalmazzák. Idõtartamkódolás Entrópiakódolás Huffman-kódolás Aritmetikai kódolás Predikció (Relatív kódolás) DPCM – Differenciált Impulzuskód Moduláció LPC – Lineáris Predikció Kódolás FFT – Gyors Fourier Transzformáció DFT – Diszkrét Fourier Transzformáció Transzformáció DCT – Diszkrét Koszinusz Transzformáció Forráskódolás MDCT – Módosított Diszkrét Koszinusz Transzformáció Bithelyzet Fontosság szerint „Layered Coding”

Alulmintavételezés Subband kódolás Vektor kvantálás G.7231 Hybridkódolás MPEG Audio ATRAC (3.5 táblázat) Tömörítési eljárások alapvetõ típusai Entrópiakódolás: Ezeket az eljárásokat nem csak a hang médiumokban alkalmazzák, hiszen specifikusan függetlenek, tehát a tömörítendõ adatokat csak mint digitális adatértékek sorozatának tekintik, és azok jelentésével mit sem törõdnek. A veszteségmentességet a kódolandó és a dekódolt jel összehasonlítására értelmezzük; ha ezek az adatok megegyeznek, akkor nincs információveszteség. Így például a futáshosszkódolásnál egy adatrendszerben az adatok tetszõleges formájú tömörítésénél, mint egy fájl rendszerben, szövegben, képekben (pl. faxban vagy mozgókép részeiben) Forráskódolás: Ezek az eljárások igyekeznek minél jobban hasznosítani a kódolandó információ szemantikáját, tehát kapcsolatokat keresnek a kódolandó és a visszakódolt adatok között. Mint

itt is a legtöbb veszteséges kódolásnál az elérhetõ tömörítés médiumfüggõ. Itt a média sajátosságai jól kihasználhatók Például az audio jeleknél ily módon az idõtartományból a frekvenciatartományba való transzformálás után a formánsok kódolásával az adatmennyiség lényegesen csökkenthetõ. – A formánsok a hang spektrumában fellelhetõ maximumokkal írhatók le. – Egy beszédtömörítésnél az alapfrekvencia mellett akár elegendõ lehet 5 formáns is, hogy az eredeti hangzást az 31 Digitális jelfolyam tárolása eljárás jól tudja rekonstruálni. Más alkalmazásokban, mint pl a képalkotásnál a geometriai térnek egy kétdimenziós frekvencia térbe való transzformálását végzik el koszinusz transzformáció segítségével. A mélyfrekvenciáknak itt sokkal lényegesebbek, mint a fellépõ magasabb frekvenciák. Ezt az állóképek tömörítésénél jól ki lehet használni Az adattömörítés lényeges lépései: A 3.6

ábrán a video és audio adatfolyamok tömörítésénél alkalmazott általános eljárást szemléltetem. Általában 4 alapvetõ lépésnek kell követnie egymást a kódoló algoritmusban: (3.6 ábra) Az adattömörítés lényeges lépései 1.) Az adatelõkészítés a feldolgozandó médium információjának megfelelõ digitális ábrázolását állítja elõ. Egy képet például felbontunk kisebb álló részletekre, és megadjuk az egyes képpontokhoz rendelt bitek számát. Audiofolyam esetében különbözõ frekvenciatartományokra bonthatjuk és azokhoz rendelünk más-más értékeket. 2.) Az adatfeldolgozás legkülönbözõbb során eljárások hajtjuk végre segítségével. a Itt tömörítés történhet elsõ meg lépéseit például a az idõtartományból a frekvenciatartományba való transzformáció. 3.) A kvantálás csak a matematikailag egzakt módon végrehajtott adatfeldolgozás után következhet. Ezen elõzõ lépésbõl nyert értéket

nem lehet és nem is kell teljes pontossággal tovább feldolgozni, meghatározott felbontás és kvantálási karakterisztika mellett digitalizáljuk. A kiértékelt adatokat a transzformált térben a fontosságuknak megfelelõ súllyal dolgozzák fel (pl. különbözõ bitszámmal kvantálják). 4.) Az entrópiakódolás az egyes bitek és bájtok lineáris sorozatából kiindulva, különbözõ eljárásokkal egy befejezõ veszteségmentesen kódolt adatfolyamot hoz létre. Például a gyakorta elõforduló egymást követõ zérusokat egy a zérusok számát megadó értékkel és utána következõ karakter adatával adjuk meg és ilyen módon tömörítjük. Az adatfeldolgozás és a kvantálás ezek szerint többszörösen iteratív eljárással történhet. Eközben akár egy „visszacsatolást” is alkalmazhatnak (mint például a deltamodulációnál) vagy egymást követõen több eljárást végeznek az adatokon. A négy tömörítési lépés után a tömörített

adatokat definiált formában egyetlen digitális adatfolyammá fogják össze. 32 Digitális jelfolyam tárolása Ekkor például a tömörítés módjára vonatkozó információkat is az adatfolyamba integrálják; itt alkalmazzák a hibajavító kódokat is. A kicsomagolás a tömörítés inverz folyamata, a kódolók és a dekódolók megvalósítása azonban nagyon sokféle. Szimmetrikus tömörítési eljárásoknál a kódolás és dekódolás azonos algoritmus alapján történik, erre különösen a dialógus módozatú alkalmazásoknál törekszenek. Az aszimmetrikus eljárásoknál a dekódolás lényegesen egyszerûbben valósítható meg, mint a kódolás. Ezt különösen olyan alkalmazásoknál használják, ahol a kódolást egyszer, a dekódolást pedig többször hajtják végre. Egy tömörített hanganyagot egyszer állítunk elõ Ezt követõen, ha meg akarjuk hallgatni, csak dekódolásra van szükségünk. Viszont ezt általában többször is megtesszük,

ezért alapvetõ követelmény ennél az alkalmazásnál a valós idejû dekódolás. A következõkben elõször néhány alapvetõ eljárást ismertetek röviden. Ehhez kapcsolódóan a multimédiában leggyakrabban használt hybrid módszerekbõl mutatok be párat. A hybrid adattömörítési eljárások, maguk is több különbözõ eljárásból épülnek fel. A legegyszerûbb formája lehet egy interpoláció, amely az emberi látás vagy hallás valamilyen sajátosságait használja ki. Az emberi hallás korlátjait felhasználó algoritmusokat szokás még pszichoakusztikus modellnek (psychoacoustic model), és az ezt alkalmazó kódolási technikákat pedig érzékelésen alapuló kódolásnak (Perceptual Coding) nevezni. Ide sorolható számos olyan híres hangtömörítési eljárás, mint a Dolby cég által kifejlesztett AC-3, TwinVQ, MPEG, és a Sony cég gondozásában megjelent ATRAC. Idõtartamkódolás: Sok adat áll azonos byte-ok sorozatából. Ha a

számuk elég nagy, akkor lényeges adatcsökkenést valósíthatunk meg azáltal, ha az ismétlõdõ byte-ot és az ismétlés számát adjuk meg. Ez egy speciális M megjelölést tesz szükségessé az adatban, amelyik maga nem tartozik az adathoz. Ez az M megjelölés mind a 256 elõforduló karakterre alkalmazható a tömörítendõ adatfolyamban. A magyarázat kedvéért legyen a felkiáltójel annak a jele, hogy valamilyen byte ismétlõdik. Egy magában fellépõ felkiáltójel a kicsomagolás során, M byte-ként lesz értelmezve. Két egymást követõ felkiáltójelet pedig a kicsomagolásnál úgy fogunk értelmezni, mint egy felkiáltójelet. Ezzel egy ilyen idõtartamkódolás kezdete megjelölhetõ. Egzakt módon ez az eljárás a következõképpen írható le: ha egy byte egymásután legalább négyszer fellép, akkor az elõfordulást megszámlálhatjuk. A tömörített adat ekkor tartalmazza a szóban forgó byte-ot, az M byte-ot és az elõfordulási számot, ami

megadja, hogy a szóban forgó 33 Digitális jelfolyam tárolása byte hányszor fordul elõ. Ily módon a 4 és 259 számú elõfordulás mindig összefoglalható 3 byte-ban és mert a tömörítés csak négynél több elõfordulásnál kezdõdik, következésképpen az elõfordulási szám meghatározásánál ezt egy - 4 értékû offset -tel kell figyelembe venni. Az eljárás definíciója szerint a hossz egynél több byte-al is megadható. Ennek a megállapodásnak azonban ekkor mind a kódolásnál, mind a dekódolásnál ismertnek kell lennie. Zéruselnyomás: Az idõtartamkódolásnak a zéruselnyomás egy speciális esete. Itt a meghatározott, gyakran ismétlõdõ jelbõl indulnak ki. A szövegben ez például a szóköz Az egyesével vagy párosával fellépõ szóközöket figyelmen kívül hagyhatjuk. Három ilyen byte megjelenése után ezt egy M byte-tal és a helyettesített byte-ok számának megfelelõen byte-tal helyettesítjük. Ily módon a 3 és 258 byte

közötti elõfordulást 2 bytera tudjuk csökkenteni Az elõfordulási számot itt is egy offset -tel (-3) lehet figyelembe venni. További variációkkal a szóköz byte-ok adott számának elõfordulását tabulátorokkal is helyettesíthetjük, valamint különbözõ M byte-ok alkalmazásával, melyek különbözõ számú szóközt jelölhetnek. Például egy M5 byte jelenthet 16 szóközt, egy M4 jelölhet 8 szóközt és a kettõ egymás után 24 szóközt ad meg. Vektorkvantálás: Itt az adatfolyamot n byte-ból álló részekre kell bontani (n>1). Egy táblázatban elõkészítve rendelkezésre áll egy meghatározott számú minta. Minden részt összehasonlítunk a táblázat mintáival és egy meghatározott kritérium szerint megkeressük a szóban forgó részhez leghasonlóbb táblázati értékeket. A táblázat minden mintájához egy index van hozzárendelve. Ily módon minden részhez egy indexet rendelünk hozzá. Egy ilyen táblázat lehet több

dimenziójú is, vagyis az index egy vektor A dekóderhez szintén tartozik egy ilyen táblázat és ezért létre tudja hozni az eredeti adatfolyam közelítését a vektorokból. Minta-helyettesítés: Egy eljárás, ami szövegek tömörítésére jól alkalmazható, a gyakran elõforduló mintákat egyetlen byte-tal helyettesíti. Ez a minta-helyettesítés képezi a magasabb szintû programnyelvekben a záró szimbólumokat (Begin, End, If). Egy M byte alkalmazásával több szóra terjeszthetõ ki ez a megjelölés. Ez az M byte azt mutatja, hogy egy kódolt szó következik. Az ezt követõ byte egy indexértéket ad, ami meghatározza, hogy 256 lehetséges szó közül melyikrõl van szó. Ugyanez az eljárás kép illetve audio tömörítésnél egyaránt alkalmazható. Ezeknél azonban nem egyszerû kisszámú gyakran elõforduló mintát megadni. Inkább alkalmazzunk közelítést, ami a leghasonlóbb (nem pedig az azonos) mintát választja ki. Ez már az elõzõekben

bemutatott vektorkvantálás 34 Digitális jelfolyam tárolása Kételemû kódolás: Az a változat, amely mindig két adatbyte összefogásán alapszik, a kételemû kódolás. Ez a leggyakrabban elõforduló byte-párokat vizsgálja Az angol nyelv vizsgálata arra az eredményre vezetett, hogy a 8 leggyakrabban elõforduló pár a következõ; ’E’, ’T’, ’TH’, ’A’, ’S’, ’RE’, ’IN’, és ’HE’. Ha ezeket a byte-párokat olyan speciális egyedi byte-okkal helyettesítjük, melyek a szövegben egyébként nem fordulnak elõ, máris 10% feletti adattömörítés érhetõ el. Statisztikus kódolás: A különbözõ jeleket nem feltétlenül ugyanannyi bittel kódolni. Ezt a gondolatot már a morse abc meghatározásakor is alapul vették. A nagyon gyakran elõforduló jeleket kevés bittel, a ritkán elõfordulókat több bittel kódolták. A statisztikus kódolás az egyes jelek, vagy az adatbyte sorozatok gyakoriságához igazodik. Ekkor különösen

ügyelni kell az egyértelmû dekódolhatóságra. Különbözõ eljárások léteznek, melyek ilyen statisztikai megfontolásokon alapulnak. A legismertebbek a Huffman- és az aritmetikai kódolás. Huffman-kódolás: valószínûségeikkel Ennél jellemzik. az (Egyes eljárásnál jelek az vagy egyes jeleket elõfordulási adatbyte-sorozatok elõfordulási gyakoriságán alapszik.) A Huffman-algoritmusban a kódolást ezen elõre megadott elõfordulási valószínûségek minimális bitszámmal valósítják meg. Ezáltal a kódolt jelek különbözõ hosszúságúak (bitszámúak). A leggyakrabban elõforduló jeleknek van a legrövidebb kódjuk. Egy Huffman-kód kiértékeléséhez egy szukcesszíven kiépíthetõ bináris fa struktúra rendelhetõ. A fa levelei képezik a kódolandó jeleket. A csomópontok tartalmazzák az alacsonyabb hierarchiában található, kódolandó jelek relatív elõfordulási valószínûségeit. Az éleket mindenkor a 0 és az 1

értékekkel jellemzik. A következõ rövid példa (37 ábra) szolgál az eljárás szemléltetésére: (3.7 ábra) Példa a Huffman-kódolás bináris fa formájában történõ szemléltetésére 35 Digitális jelfolyam tárolása 1.) Legyenek a kódolandó jelek az A, B, C, D és E betûk, melyeknek relatív elõfordulási valószínûségeik adottak; p(A)=10, p(B)=30, p(C)=5, p(D)=8, p(E)=6. 2.) A legkisebb valószínûségû jeleket az elsõ bináris fába foglaljuk össze: a levelek az E és C, a közös származási pont CE relatív valószínûsége 11. A CE-t a C-vel összekötõ élhez az 1, a CE-t az E-vel összekötõ élhez a 0 értéket rendeljük. Ez a hozzárendelés itt önkényes. Ezért lehet különbözõ Huffman-kódokat ugyanazon adatokhoz rendelni. 3.) A következõ relatív valószínûségû csomópontok maradnak még; p(A)=10, p(B)=30, p(CE)=11, p(D)=8. A két legkisebb gyakoriságú csomópont az A és D Ezeket egy bináris fába foglaljuk össze: A

levelek az A és D csomópontok, a közös AD csomópont összefogott valószínûsége 18. Az AD-t az A-hoz kötõ élhez az 1, az AD-t a D-hez kötõ élhez a 0 értéket rendeljük. Ha vannak azonos valószínûségû csomópontok, mint különbözõ fák gyökerei, akkor elõször a fákat a legrövidebb maximális úton kell egybefoglalni a hozzájuk tartozó gyökér és csomópont között. 4.) A következõ relatív valószínûségû pontok maradnak még; p(AD)=18, p(B)=30, p(CE)=11. A két legkisebb valószínûségû pont az AD és a CE Ezeket egy bináris fába foglaljuk össze: A közös származású pont ADCE összefogott valószínûsége 29. Az ADCE-t az AD-hez kötõ élhez a 0-t, az ADCE a CE-hez kötõ élhez az 1-et rendeljük. 5.) Két csomópont marad a következõ relatív valószínûségekkel; p(ADCE)=29, p(B)=30. Ezeket az ADCEB csomóponttal az utolsó bináris fában foglaljuk össze: Az ADCEB-t a B-vel összekötõ élhez az 1-et, az ADCEB-t az ADCE-hez

kötõ ághoz a 0-t rendeljük. 6.) Az eljárásunk végén a következõ kódszavak állnak elõ, melyeket a legtöbbször egy táblázatban foglalnak össze; w(A)=001, w(B)=1, w(C)=011, w(D)=000, w(E)=010. Egy így elõállított táblázat érvényes lehet külön csak az adatfolyam egy részére, vagy lehet közösen az egész adathalmazra is. Ez a táblázat, mint kódoláshoz, mint dekódoláshoz szükséges. Aritmetikai kódolás: Ennél éppúgy, mint a Huffman-kódolásnál, az eljárás információelméleti szempontból optimalizált. Itt is a kódolt adatok hossza a minimumot állítja elõ. A Huffman-kódolással ellentétben az aritmetikai kódolásnál nem minden jelet önmagában vizsgálnak, hanem az összes õt megelõzõ jel figyelembevételével kódolják. 36 Digitális jelfolyam tárolása Ennek következtében egy ilyen módon kódolt jelfolyamot mindig elölrõl kezdve kell ismerni. Szabad sorrendválasztás nem lehetséges Ezen eljárással gyakorlatilag

ugyanolyan közepes tömörítés érhetõ el, mint a Huffman-kódolással. Transzformációs kódolás: Itt megint más kiindulási pontot követnek, mert az adatokat egy másik matematikai térbe transzformálják, amelyik alkalmasabb a tömörítésre. Az inverz transzformációnak mindig lehetségesnek kell lennie Erre a legegyszerûbb példa a Fourier-transzformáció, mellyel az idõtartományból a frekvenciatartományba transzformálhatjuk adatainkat. Léteznek más példák is, mint a Koszinusz-, Walsh-Hadamard-, Karthumen-Loéve-, Haar- és a Slant-transzformáció. Ezek közül a hatékonyság, használhatóság és megvalósíthatóság szempontjából lehet választani. Az audio tömörítõ eljárásokban két alapvetõ irányzat vált leginkább elterjedté; a FFT (Gyors Fourier-Transzformáció) és a MDCT (Modosított Diszkrét KoszinuszTranszformáció), amelyekhez igen gyors számítási eljárások születtek az elõzõ évtizedben. Érthetõ ezért, hogy

pár transzformációnak a szerepe az elmúlt idõszakban jelentõsen lecsökkent. Subband kódolás: Míg a transzformációs kódolásnál minden adatot egy másik térbe transzformálunk, addig a szelekt v frekvenciatranszformÆci -nál (subband transzformáció) a jelnek csak elõre meghatározott frekvenciasávokban lévõ részeit transzformáljuk. A frekvenciasávok száma itt a meghatározó minõségi kritérium Ez az eljárás jól használható beszéd és nem utolsó sorban zene tömörítésére egyaránt. Predikció vagy relatív kódolás: Byte-ok vagy byte sorozatok tömörítése helyett ezek differenciális kódolása is elvégezhetõ. Ezt differenciÆlis k dolÆs-nak vagy predikci -nak nevezzük. Ha például az egymás utáni jelek nem zérusok, de nem nagyon különböznek egymástól, akkor a megelõzõ jeltõl való eltérésük kódolható, ami a kódolás szempontjából elõnyös. A következõkben nézzünk két kiemelt példát az audiotechnikából:

DPCM (Differenciált Impulzuskód moduláció)-t egy a PCM jel mintavételi értékeire alkalmazzák. Ekkor lineáris kvantálási karakterisztikát használnak Itt nem kell minden mintavételi értéket a teljes bitszámmal meghatározni. Elegendõ csak az elsõ PCM mintavételi értékre ezt megadni, majd minden továbbinál pedig csupán az elõzõektõl való eltérést kódolni. A Delta Moduláció a DPCM egy változata Itt a különbségi érték kódolása egy bitre korlátozódik. A meredek élek ezért csak pontatlanul kódoltak Különösen akkor elõnyös az eljárás, ha az adatkódolásban nem korlátozódunk a 8 bites felbontásra. Ha a különbség kicsi, akkor a különbség kódolására messzemenõen 37 Digitális jelfolyam tárolása elegendõ kevés számú bit is. A különbségképzés minden multimédia rendszernek lényeges jellemzõje. ADPCM (Adaptív differenciált impulzuskód moduláció): A legtöbb eddig leírt tömörítési eljárás a

tömörítendõ adatok elõzetesen ismert tulajdonságainak kihasználásán alapul (például gyakran fellépõ byte-sorozatok vagy egyes byte-ok elõfordulási valószínûsége). Egy nem tipikus jelsor egy nem elõforduló tömörítésben tükrözõdik vissza. Léteznek azonban adapt v tömörítési eljárások is, amelyek lehetõvé teszik a tömörítésnek a mindenkori tömörítendõ adatokhoz való alkalmazkodását. Ez az alkalmazkodás a legkülönbözõbb módon valósulhat meg. Vegyünk egy példát, ahol induljunk ki a már korábban elõállított kódtáblázatunkból (pl. egy Huffman-kódolásnál) Ez az egyes kódolandó jelekhez tartozó kódszókat és egy további oszlopban egy számlálót tartalmaz. Kezdetben minden sorban a számláló zérusra van beállítva Most megadjuk az elsõ kódolandó jelet. A kóder ekkor szolgáltatja a táblázat szerinti kódot Ezzel egy idõben a számláló értéke eggyel növekszik az adott sorban. Ezt követõen a

táblázat csökkenõ számlálóértékek szerint rendezõdik a kódolandó jelekre. A kódszavak sorrendje változatlanul marad. Ezáltal új hozzárendelések állnak elõ, a leggyakrabban elõforduló jelek kerülnek a táblázat elejére, ezeknek nagy a számlálóban lévõ értékük. Ily módon a nagy számlálóértékû jelek lesznek a legrövidebb kódszavakkal kódoltak. Az ADPCM a DPCM-hez képest alkalmazkodik az aktuális adatfolyam sajátosságaihoz. A kóder osztja ki a mintavételi értékeket egy meghatározott konstanssal, a dekóder pedig ugyanezzel az értékkel szorozza a tömörített értéket, vagyis a jel lépésköze folyamatosan változhat. Tehát a szorzóállandó értéke mindig alkalmazkodik a DPCM kódolt jelhez. Viszont egy olyan jelnél, melyben gyakran lépnek fel nagy DPCM értékek, vagyis nagy frekvenciás tartalommal rendelkeznek, a kóder a konstansra nagy értéket vesz fel. Az eredmény egy nagyon durva kvantálás a DPCM jel meredek

élû átmeneteinél. Az alacsonyfrekvenciás összetevõt az ilyen átmeneteknél alig veszi figyelembe. Azoknál a jeleknél, melyekben viszonylag állandó a DPCM tartalom, tehát kevés a nagyfrekvenciás rész, a kóder kisértékû konstanst határoz meg. Ezáltal az ilyenkor domináló alacsonyfrekvenciás jelekre jó felbontás érhetõ el. Ha egy ilyen jelben hirtelen nagyfrekvenciás összetevõk lépnek be, akkor jeltorzítás jön létre, melyet slope overload-nak neveznek. Az éppen beállított lépésközhöz tartozó bitszám figyelembevételével lehetséges legnagyobb változás nem 38 Digitális jelfolyam tárolása elegendõ nagy ahhoz, hogy az ADPCM értékkel a DPCM értéket jól tudnák rekonstruálni. Ezért a PCM jelben az ugrás elmosódik Az adaptív módon beállítandó konstans változását a kódolás során a tömörített jelben járulékosan, közvetlen úton be lehet állítani. Másfelõl a dekóder egy ADPCM kódolt jelfolyamból a konstans

értéket maga is ki tudja számítani. Ez a prediktor úgy méretezendõ, hogy a fellépõ adatokban a hiba minimális legyen. Meg kell jegyeznünk, hogy a hiba fogalma és prediktor ehhez kötött meghatározása itt médiafüggõ és a legjobb esetben triviálisak. Olyan audiojel, melyben gyakran változik a nagyfrekvenciás és az alacsonyfrekvenciás tartalom csak bizonyos feltételekkel alkalmas az ADPCM kódolásra. A távbeszélõtechnika alkalmazásában a CCITT egy 32 Kbit/s adatátviteli sebességgel dolgozó rendszert szabványosított, mely 4 bit/mintavétel értékkel és 8 kHz mintavételi frekvenciával dolgozik. Beszédtömörítés: A beszédjelek kódolására alapvetõen két féle módszer létezik: • Hangtani tömörítés • Tartalmi tömörítés A tartalmi tömörítésen alapuló eljárások, elsõ lépésként a digitális beszédjeleket írásjelekké, vagy a beszédelemeknek csupán csak a jellegzetes ismertetõjegyeit hordozó elõre

rögzített digitális jelsorozattá alakítják át, ezt a folyamatot más néven beszédfelismerésnek nevezzük. Második lépésben a már kódolt jelekbõl, esetleg írásjelekbõl újból digitális hangmintákat rekonstruálnak, ezt pedig beszédszintetizálásnak (beszédvisszaadásnak) nevezzük. A hangtani eljáráscsoportnál a beérkezõ jelet elõször is, az emberi beszéd fizikális jellemzõit alapul véve analizálják, majd az így kapott kódolt jel alapján reprodukálják a digitalizált hangot. − Hangtani tömörítésen alapuló eljárások: Emlékezzünk, hogy a beszéd dinamika tartománya nagyságrendekkel kisebb, mint a hallástartományunk, ezért a hangtani beszédtömörítõ eljárásokkal is már nagyobb adat tömörítési arány érhetõ el, mint akár melyik univerzális hangkódolási technikával. Nézzünk erre egy példát: A PCM kódolásnál egy Hi-fi sztereó audiojelnek az átviteli sebesség igénye 1411.2 Kbit/sec, ezzel a magas

minõséggel szemben a beszédátvitelre már általában elegendõ szokott lenni 64 Kbit/sec adatsebesség is. Ha olyan általános hangtömörítési technikákat alkalmazunk, mint a DPCM, akkor legalább ilyen minõség 39 Digitális jelfolyam tárolása érhetõ el 56 Kbit/sec-on, míg az ADPCM kódolási eljárással további 32 Kbit/sec-ra csökkenthetjük az adatátvitel mértékét. A következõ ismertetésre kerülõ eljárás a csatorna vocoder, melyet akár a subband kódolási technika egyik kiterjesztésének is felfoghatunk. Itt már láthatjuk (38 ábra), hogy a beszéd hangtani sajátosságait jól kihasználva miként érhetõ el jelentõs adatcsökkenés. (3.8 ábra) Egy csatorna vocoder beszédanalízis komponensei A beérkezõ jelet egy sor frekvenciasávra bontja szét, mivel azon feltételezésbõl indul ki, hogy a beszédre mindig csal bizonyos frekvenciamaximum a jellemzõ. Továbbá járulékosan kihasználja a zöngés és a zöngétlen

hangok közötti különbségeket. A zöngétlen hangokat zajgenerátorral, a zöngés hangokat pedig impulzusok megfelelõ sorozatával gerjesztik. Ehhez az impulzusok ismétlõdési frekvenciája pontosan megfelel az elõzõleg kimért beszéd alapfrekvenciájának. Egy csatorna vocoder segítségével mintegy 3 Kbit/sec átvitelisebesség valósítható meg. A minõség azonban nem minden esetben kielégítõ. Manapság létezik számos korszerûbb beszédtömörítõ eljárás. Pl: az európai GSM mobilkommunikációs rendszereknél a 13 Kbit/sec adatátvitel az elfogadott. Viszont további csökkentéseket terveznek, egyik elérhetõ célnak a 6 Kbit/sec sebességet tekintik. Viszont ezeknek és a jövõbeli eljárásoknak is mind minimálisan, el kell érniük a tömörítetlen 64 Kbit/sec-os adatsebességû PCM kódolású jel minõségi értékeit. − Tartalmi tömörítésen alapuló eljárások: Alapvetõ hátrányuk a hangtani kódoláshoz képest, hogy itt a

beszédfelismerés során a jel elveszíti specifikus sajátosságait, mint például személyhez kötött dialektust (hanglenyomat), és esetleg az érzelmileg erõsen 40 Digitális jelfolyam tárolása befolyásolt kiejtését. Míg a hangtani tömörítéshez tartozó eljárások ugyan megõrzik a beszéd jellegére vonatkozó tulajdonságokat, de pont ez által jóval kisebb adatcsökkenést is tudnak elérni, a tartalmi tömörítésekhez képest. További fõbb hátrányuk még manapság is a beszédfelismerõ rendszereknek a megbízhatóságuk, pontosabban hogy a rendszer, milyen valószínûséggel ismer fel bizonyos szavakat (p≤1). Egy szó mindig csak meghatározott valószínûséggel ismerhetõ fel a rendszer számára, amit jelentõsén befolyásolhat a környezeti zaj, a teremakusztika és maga a beszélõ, a maga fizikai és pszichikai állapotával együtt. Példaként említsük meg egy p=0.95 egyedi szófelismerési hányadú rendkívül rossz rendszert. Ez 5%

hibásan felismert szót jelent Egy három szóból álló mondatban a helyes bevitel valószínûsége p=0.95 × 095 × 095=086-ra csökken Ez a kis példa azt kívánja megvilágítani, hogy egy beszédfelismerõ rendszernek milyen nagy egyedi szófelismerési valószínûséggel kell rendelkeznie. Ez a szótalálati pontosságot nagymértékben javítható, ha csak kifejezetten egy személyre kalibráljuk a rendszert. Ezért a beszédfelismerésnél további két alapvetõ csoportot különböztetünk meg; a BeszØlıf ggı és a BeszØlıf ggetlen rendszereket. Egy beszélõfüggetlen rendszer ugyanolyan megbízhatóság mellett lényegesen kevesebb szó felismerésére képes, mint egy „a beszélõhöz kötött rendszer”. Viszont minden beszélõfüggõ rendszert elõzõleg be kell „tanítani”. Ilyenkor legtöbbször elõre adott beszédmintákat kell utánmondani. A továbbiakban nem is kívánom részletesebben ismertetni a tartalmi beszédtömörítésen

alapuló eljárásokat, mivel a számítástechnikának ez a területe már szinte teljesen elkülönül magától az úgynevezett egzakt kódolási technikáktól. Számos jelenlegi hátrányuk ellenére is a beszédfelismerõ rendszerek mindennapi életünk során már jó pár helyen nélkülözhetetlen eszközökké váltak. Gondoljunk itt a személyazonosság vizsgálatára (pl.: bûnüldözés, biztonságtechnika), testi fogyatékosokat (vakokat, mozgássérülteket) segítõ berendezések, stb. Elõreláthatólag nagy jövõ elõtt álló beszédfelismerõ rendszerek, a technika egyre több területére be fognak törni, de a mesterséges intelligencia és a neurális hálózatok jelenlegi fejlettségi szintje mellett ez még most nem realizálható. Az alapvetõ tömörítési technikák ismeretével már könnyebben eligazodhatunk a többféle típusú tömörített hangállományok között. Ezek közül pedig nézzük kifejezetten azokat a fajtákat, melyek manapság a

legelterjedtebbek a személyi számítógépek körében: 41 Digitális jelfolyam tárolása Tömörített hangfájl-formátumok gyakori típusai: .MP1, MP2, MP3: Az MPEG (Moving Pictures Experts Group) az ISO egyik bizottsága által szabványosított, nagy fokú tömörítési eljárással készült hangfájlok. Nagyjából 8-12-szeres, adatvesztéses tömörítéssel dolgoznak. Az indexszám a kiterjesztések végén jelenti, hogy melyik eljárási réteghez (Layer I.-III) tartozó kódoló (encoder) algoritmust alkalmazták az állomány létrehozásakor. .VQF: (TwinVQ – Transform-domain Weighted Interleave Vector Quantization) A Nippon Telegraph & Telephone Corporation (NTT) cég által kifejlesztett speciális vektor kvantálási technikán alapuló hangfájl formátumok, mely az MPEG 4. generációs audio tömörítõk egyik jeles képviselõje. .AAC: (Advanced Audio Coding) az állomány kódolási algoritmusa szintén tagja MPEG 2. és 4 csoportjának is, sõt

méltán nevezhetjük az MPEG Layer-III továbbfejlesztésébõl született audio tömörítõ eljárások legújabb példányának. .WMA: (Windows Media Audio File) A Microsoft cég által kifejlesztett Hi-fi minõségi követelményeknek megfelelõ tömörítõ eljáráson alapuló fájlformátum. .ASF: (Advanced Streaming Format) Az Interneten kapott nagy nyilvánosságot az ún streaming media fogalma. Ez azt jelenti, hogy a nézett oldalt tartalmazó ("távoli") gépen létezik egy hangfájl vagy videofájl is, amit annak letöltése közben tudunk hallgatni, illetve megnézni. Mivel az Internet legtöbb esetben nem teszi lehetõvé a gyors adatátvitelt, ezért ezeket a hanganyagokat, videóállományokat a kisebb méret érdekében magas fokú tömörítési eljárásoknak vetik alá, ezáltal minõségüket sokszor csak az Internetes adatátvitel mértéke határozza meg. Sajnos, a zenék tekintetében ezek az értékek rendszerint alul maradnak a Hi-Fi hangzás

követelményeitõl. Ezt a kényszer megoldást legtöbbször rádiók alkalmazzák Internetes oldalaikon, mivel így lehetõségünk van arra, hogy maximum pár másodperces késéssel a világ másik végén is hallgathassuk az adást - igaz, gyengébb minõségben. Ekkor a rádiónál alkalmazott számítógép menetközben tömöríti be a hangfájlt, majd a lekódolt adatokat azonnal küldi is az Internetes oldalra, míg a mi gépünk azt folyamatosan fogadja és tömöríti ki. Az ASF nem is igazán fájlformátum, hanem egy gyûjtõfogalom. Több különbözõ kódolási technikát foglal magában. Idetartozik például a WAV formátum összes elõzõekben említett tömörítõ algoritmusa, plusz még ezeken kívül olyan hangtömörítõ eljárások, mint: MPEG 2. Layer III 42 Digitális jelfolyam tárolása ACELP (Adaptive Code Excited Linear Prediction) Voxware MetaSound Voxware MetaVoice Windows Media Audio (WMA) Real Audio (elfogadott jelölés még külön az .RA

állománykiterjesztés is) Ezen algoritmusok segítségével tömörített audio állományokat hallgathatunk elõben (közvetlenül) az Interneten keresztül. A legelterjedtebb ilyen streaming - formátum az RA, de ma már egyre gyakrabban alkalmaznak MPEG és WMA tömörítõ algoritmusokat is hasonló célokra. Digitális hanghordozók Már a bevezetõben említést tettem arról a tényrõl, miszerint a 1980-as években az audiotechnikában a digitális eszközök egyre jobban kiszorították az analóg berendezéseket. Ezt a technikai forradalmat még az eddig populáris zene tárolására, megjelentetésére kitûnõen alkalmas bakelit lemezek (LP) sem kerülhették el. Szükség volt egy olyan új „médiumra”, melyen már digitálisan tárolhatók a kiadásra kerülõ zeneszámok. Ahhoz pedig, hogy például egy 60 perces sztereo zeneanyagnak az analóg technikánál, LP. -nél jobb minõségben a digitális rögzítése megoldható legyen legalább kb. 605 Mbyte-i

tárolókapacitású eszköz szükséges Akkoriban a számítástechnikában használatos mágneses elven mûködõ cserélhetõ háttértárak kapacitása még jóval alul maradt ennél az értéknél, ezért egy merõben új technikai megoldást kellett keresniük a mérnököknek. A 80-as években meg is született Compact Disc (CD) néven egy olyan új médium, mely nem csak az audiotechnikát forradalmasította, hanem megalapozója volt mind a számítástechnikában és videotechnikában egyaránt kitûnõen használható teljesen új adattár nemzedéknek; az optikai lemezek családjának. A CD lemez megjelenése óta napjainkig számos különbözõ optikai lemezformátumot szabványosítottak, de ezek közül nem mindegyik szabadalom vált sikeressé a piacon. Röviden tekintsük át azokat a formátumokat, melyek leginkább elterjedtek az elmúlt 20 év során, vagy meghatározó szerepet játszottak a cserélhetõ digitális adathordozók fejlõdésében: CD-DA (Compact Disc

Digital Audio), 1982 végén jelent meg az N. V Philips és a Sony Corporation gondozásában. A technikai ajánlást az úgy nevezett Red Book-ban foglalták össze, ez a specifikáció szolgált minden további CD formátum alapjául, 43 Digitális jelfolyam tárolása melyet a Philips és a Sony cég közösen szabadalmaztatott. Már a bevezetésétõl számított elsõ öt évben 83 millió CD-DA lejátszót és 450 millió CD-DA lemezt adtak el. CD-ROM (Compact Disc Read Only Memory), 1985 novemberében mutatták be; a számítástechnikai adatok tárolására alkalmas elsõ CD lemezt. Ez a lemezformátumot, a Yellow Book-ban került publikálásra. Itt csak a fizikai formát definiálták Az ISO 9660 szabvány szerinti logikai formátumot, egy ipari vállalati csoport a High Sierra Proposal javaslata alapján született meg. Lehetõvé teszi a fájlokhoz való hozzáférést fájlnevek útján és könyvtári szervezésben. Ezzel létrejött az elsõ fontos kapocs a

számítástechnikai és az audiotechnika között. CD-I (Compact Disc Interactive), 1987-ban hozták létre azt az optikai lemezt, ami már video és audio adatok együttes tárolására is alkalmas volt. A teljes rendszerspecifikációt a Green Book tették közzé. CD-ROM/XA (CD-ROM EXtended Architecture), 1988-ban kiegészítették a Yellow Book-ban foglaltakat egy újabb formátummal. CD-MO (Compact Disc Magneto Optical), 1990-ben mutatták be az elsõ többször is írható optikai lemezt, melyet az Orange Book-ban rögzítettek. MD (Mini Disc), 1991-ben a Sony Corporation által szabványosított Magneto Optikai lemez. Minden az MD lemezzel kapcsolatos technikai információt és a további kiegészítést is a Sony cég a Rainbow Book-ban fektette le. CD-R vagy CD-WO, (Compact Disc Recordable),(Compact Disc Write Once), 1994 januárjában egy újabb lemezformátummal bõvítették az Orange Book-ban foglaltakat, egy optikai elven csak egyszer írható lemezzel. CD-RW

vagy CD-E, (Compact Disc ReWriteable),(Compact Disc Erasable), 1997-ben született meg a CD-MO utódjaként. Ezt a formátumot szintén az Orange Book egyik újabb kiegészítéseként rögzítettek. A Magneto Optikai lemezekhez hasonlóan ez is többször újraírható, csak azzal a különbséggel, hogy itt már tisztán optikai elven történik az adatok törlése és újbóli rögzítése. Az elõbb felsorolt optikai lemezek tárolókapacitásukban szinte majdnem megegyeznek, és míg a 80-as években ez méret bõven elegendõnek tûnt, addig a számítástechnika, a videotechnika és az audiotechnika rohamos fejlõdése következtében a 90-es évekre ez már egyre jobban szûkössé vált a különbözõ alkalmazások számára. Ezért szükség volt egy az eddig optikai lemezeknél jóval nagyobb kapacitású lemez megalkotása. A különbözõ fejlesztési írányokban résztvevõ cégek (Philips, Sony, Toshiba, Matsushita, 44 Digitális jelfolyam tárolása Time Warner)

konzorciumot alakítottak, és 1995-ben megállapodtak egy a Digital Versatile Disc (DVD) fantázia nevû nagy tárolókapacitású optikai lemez létrehozásában: DVD-ROM, 1996-ban mutatták be, az elsõ csak olvasható DVD lemezt. Technikai ajánlásait az úgy nevezett A Book-ban ratifikálták. DVD-Video, szintén 1996-ban szabványosították. Ez lemezformátum, mint a nevébõl is következik csúcs minõségû video filmek tárolására tervezték. A technikai specifikációját a B Book-ban rögzítették. DVD-R, 1997-ben jelent meg az egyszer írható DVD lemez, melynek technikai ajánlása a D Book-ban található. DVD-RAM, 1998-ban az E Book-ban került publikálásra a Magneto Optikai elven többször is írható DVD lemez. DVD-RW, 1999-ben jelentek meg az elsõ példányai ennek a tisztán csak optikai elven többször is újraírható lemeztípusnak. A 96-ban lefektetett alapspecifikációban ugyan nem szerepeltették ezt a formátum, ezért a késõbbiekben +RW

megjelöléssel, egy külön szekcióként csatolták a DVD lemezek szabványleírásához. DVD-Audio, ennek az új audio formátumnak az alapjait már 1996-ban lefektették a C Book-ban, de véglegesítése csak 1999. Február 9-én Tokyo-ban történt meg A világ hanghordozó-gyártóinak érdekeit képviselõ szervezetek: Recording Industry Association of America (RIAA), Recording Industry Association of Japan (RIAJ), Europe`s International Federation of Phonographic Industry (IFPI) mind felismerték, hogy súlyos hiba lenne - a becslések szerint - 500 millió(!) CD-játszó tulajdonosra ráerõltetni egy, a kompakt lemezzel csupán csak felülrõl kompatibilis új rendszert a DVD-Audio-t. Az említett szervezetek ezért létrehozták az International Steering Committee (ISC) nevet viselõ bizottságot, mely meghatározta azokat a szempontokat, melyeknek a jövõben megjelenõ nagykapacitású hanglemezeknek meg kell felelniük. A leglényegesebbek ezek közül; másolás elleni

védelem, az illegális nagyüzemi sokszorosítás elleni védettség, a hangfelvétel sztereó, illetve sokcsatornás térhatású változatán túl kísérõ információ tárolása. Ami pedig a leglényegesebb, az új hanghordozónak lejátszhatónak kell lennie a hagyományos CD-DA lejátszókon is. A kompakt lemezt megalkotó két mamutcég - a Sony és a Philips -megelégelte a „C” szabványkönyv (C Book) véglegesítése körüli huzavonákat, és kidolgozott egy az ISC elõírásának minden tekintetben megfelelõ lemezformátumot: 45 Digitális jelfolyam tárolása SACD (Super Audio Compact Disc), 1999-ben mutatták be a legelsõ példányát ennek a nagy kapacitású audio lemeznek. A következõkben csak pár optikai lemezt emelnék ki részletesebb ismertetésre, még pedig kifejezetten azokat az adathordozókat, melyek szorosabb kapcsolatban állnak az audiotechnikával: CD (Compact Disc) -krõl általánosságban: Az optikai tárolók a visszavert lézersugár

intenzitását használják információ olvasásra. Egy szubsztrát rétegen, mely polykarbonát bevonatú, a kódolandó jeleknek megfelelõ bemélyedéseket hoznak létre, melyeket pit-eknek (gödröcskéknek) neveznek. A köztes tartományokat land-nek hívják A szubsztrát réteget egy vékony reflektáló homogén réteggel vonják be. Majd a lézerdióda által keltett kb. 780 nm hullámhosszú és 07 mW teljesítményû lézersugarat a reflektáló rétegre irányítják és a szubsztrát felületére (kb. 1 µm-re) fókuszálják Ekkor a land-okról reflektált jel nagy intenzitású. A pitek a szubsztrát felület alatt vannak 012 µm mélységben. A pitekre beesõ lézersugár enyhén szóródik, ezért az innen visszaverõdõ sugár kisebb intenzitású. Az optikai lemezeknél a pit-ek és a land-ek szekvenciális elrendezésben egy pálya mentén helyezkednek el. A diszkekkel és más adathordozókkal ellentétben az optikai tárolón az egész információ egyetlen

pályán van rögzítve. Ezáltal a tárolt adatok visszaolvasása is egyszerûbb, állandó sebességgel történhet. Ez különösen elõnyös audio- és video- jeleknél, melyek maguk is folyamatos adatfolyamok. A pálya spirál alakú. A CD-nél a szomszédos barázdák között 16 µm a távolság, a pályaszélesség a piteknél 0.6 µm A pitek különbözõ hosszúságúak, de 083µm kisebbek nem lehetnek (3.9 ábra) Ezek a méretkülönbségek adják a lényeges elõnyöket a mágneses tárolókkal szemben. 166 adatbit helyezhetõ el a pálya 1 µm-én Az elérhetõ adatsûrûség 1 millió bit/mm2. Ez az adott geometria mellett 16 ezer barázda/inch Míg a mágneses adatrögzítõkön a mágnesezettség mértéke az idõvel csökken és a szomszédos szalagok között áthallás jön létre, addig ezek a jelenségek az optikai lemezeknél ismeretlenek. Ez a média ezért nagyon jó hosszúidejû tároló Csak az anyag bomlása vagy megváltozása okozhat helyrehozhatatlan

hibákat. Például a csak olvasható CD lemezek szavatosságát speciális környezetben 1000 évre becsülik, addig a CD-RW lemezeknél ez a szám már csak várhatóan maximum 50 év. 46 Digitális jelfolyam tárolása (3.9 ábra) A CD lemezek adathordozó rétegének metszeti képe A lézerforrást a lemeztõl kb. 1 mm távolságban helyezik el, ezért nem kell a lemezzel közvetlenül érintkeznie, vagy egy a mágneses lemezeknél alkalmazott légpárnán lennie. Ennek következtében az alkatrészek kopása lényegesen csökken és az élettartam növekszik. CD-DA: A CD lemezek 12 vagy 8 cm átmérõjûek. Lejátszásuk állandó kerületi sebességgel (CLV - Constant Linear Velocity) történik. Ennek következtében a fordulatszám a mindenkori lejátszandó adatok sugarától függ. Általában 12 – 14 m/s közötti tartományban ingadozik. A spirál alakú CD barázda kb 20 ezer menetbõl áll Összehasonlításként egy LP lemezen csak kb. 850 barázda található A

pitek hossza 03 µm egész számú többszöröse. Az egy kódolásának egy pit-land és egy land-pit átmenet közötti szakasz felel meg. A 0 kódolását az átmenet hiánya határozza meg az adatfolyamban. A CD-DA lemezekre két csatornás (sztereo), PCM kódolású, 441 kHz-es mintavételi frekvenciával és 16 bites kvantálással digitalizált hanganyag rögzíthetõ, melynek jelsebességét már kiszámoltuk a WAV fájlformátumnál, emlékeztetõül tehát 1411.2 kbit/sec-al egyenlõ Az analóg mikrobarázdás lemezek és hangkazetták szokásos jel-zaj viszonya kb. 50-60 dB, míg az audio CD minõsége lényegesen jobb ennél Itt egy egyszerû ökölszabály szerint 6 dB/bit –tel lehet számolni. Ebbõl a 16 bites lineáris mintavételre a következõ adódik: S/NCD-DA ≅ 6 dB/bit × 16 bit = 96 dB Az audio kompakt lemezeknél a jel/zaj viszony pontos értéke 98 dB. A CD-DA lemezeknél játékidõben négy fajtát különböztetünk meg. Abból pedig, hogy egy lemez

maximum mennyi idejû lejátszható hanganyag tárolására képes, meghatározható a lemez kapacitása. Kapacitás CD-DA = 74 min × 60 × 1411200 bit/sec = 6 265 728 000 bit ≅ 747 Mbyte 47 Digitális jelfolyam tárolása A 3.10 táblázatban és a példaként bemutatott képletben szereplõ lemezkapacitások hibajavító adatokat nem tartalmaznak. Lemez ∅ (mm) Játékidõ (perc) Kapacitás (Mbyte) 80 mm 18 min. 182 Mb 120 mm 63 min. 636 Mb 120 mm 74 min. 747 Mb 120 mm 80 min. 808 Mb (3.10 táblázat) CD-DA lemezek: átmérõje, lejátszási idejük és kapacitásuk Minden pit-land és land-pit átmenet egy-egy bit információnak felel meg a csatornában. Ha nem következik be változás, akkor ez egy Null bit információ. A pit-ek és land-ek nem követhetik egymást tetszõleges sûrûségben. Ha így lenne, akkor a lézer felbontó képessége nem lenne elegendõ pit-land-pit-land-pit [111111.] sorozatok hibátlan olvasására. Ezért abban állapodtak meg,

hogy legfeljebb 2 land és 2 pit követheti egymást. Két egy értékû csatornabit között legalább két null értékû csatornabitnek kell következnie. Másfelõl a pit-ek és land-ek nem lehetnek túl hosszúak, mert egyébként nem lehetne fázishelyes szinkronjelet (Clock) bevezetni. A pit-ek és land-ek maximális hossza ezáltal korlátozott. Ezért nem több csak legfeljebb tíz 0 értékû csatornabit következhet egymás után. Ebbõl kifolyólag a CD-DA-n egymást követõ bitek pit-land sorozatok nem felelnek meg a tényleges információnak; elõzõleg egy EFM (Eight to Fourteen Modulation) modulációt hajtanak végre az adatokon. Ezzel a modulációval biztosítják a minimális és maximális távolságok betartását. A 8 bites szavakat 14 bites szavakká kódolják át. A minimális és a maximális távolságok figyelembevételével 267 érvényes lehetõség adódik. Ebbõl 256-ot alkalmaznak Bemutatok két egyszerû példát a EFM modulációra (3.11

táblázat) Audiobit Modulált bitek 00000000 01001000100000 00000001 10000100000000 (3.11 táblázat) Példa a „8-ról a 14-re” kódolásra A modulált bitek (14-bit-értékek) egymás utáni fûzése azonban még mindig megengedi a minimális 2 és a maximális 10 bit határok megsértését. Ezért két modulált szimbólum közé 3 bitet iktatnak, miáltal a kívánt törvényszerûségek elérhetõek. A kitöltõ biteket a 48 Digitális jelfolyam tárolása szomszédos modulált bitek függvényében választják meg. Ezt kívánja szemléltetni a 312 táblázat. Audiobitek 00000000 00000001 Modulált bitek 01001000100000 10000100000000 Kitöltõ bitek 010 Csatornabitek 100 0100100100010000010010000100000000 A CD-DA lemezen l ppp l l l pppp l l l l l l ppp l l l l l ppppppppp (p = pit, l = land) (3.12 táblázat) A kitöltõ bitek integrálása A hibajavítás célja egy CD-DA formátumnál a tipikus hibás minták felismerése és kiküszöbölése. A

hiba legtöbbször valamelyik karcolás vagy elpiszkolódás következménye. Ezeket burst hibáknak nevezzük Elsõ lépésben egy Reed-Solomon-féle kétfokozatú hibakorrektort alkalmaznak. Egy 24 bitbõl álló szakaszt két csoportban 4-4 biten értékelnek. Az elsõ csoport az egy bájton bekövetkezõ hibákat, a második csoport a kettõs bájthibákat javítja ki. Az is felismerhetõ, ha több egymást követõ bájt hibás, ennek javítására azonban az ismertetett módon nincs lehetõség. Második közelítésben az egymást követõ bájtokat frame-ekbe fogják össze (egy frame 588 csatornabitbõl áll, ami 24 audio bájtnak felel meg). Az audio adatokat egymásba ágyazottan (interlaved) tárolják a CD-DA-n. Ily módon a burst mindig csak részben rontja az adatokat A hiba elõfordulásának a valószínûsége 10 –8 -ra tehetõ. Azok a burst hibák ismerhetõek fel és javíthatók egzaktul, melyek nem terjednek ki 7-nél több frame-re. Ez egy 77 mm-es

hosszú pályaszakasznak felel meg. Ekkor ebben a szakaszban más hiba nem fordulhat elõ. Egy CD-DA lemezbe egy 2 mm-es lyukat fúrhatunk, az audioadatok még akkor is hibátlanul visszanyerhetõk. Kísérletileg kimutatható, hogy a lejátszók nem javítanak ki minden az eddigiekben ismertetett hibát. Ezt az eljárást CIRC (Cross Interlaved ReedSolomon Code)-nak nevezik Az audioadatok, a hibajavító járulékos Control and Display-Byte és egy szinkronizációs minta képzi a frame-eket. Az audioadatok két 12 bájtból álló csoportba osztják. Ezek tartalmazzák a jobb és a bal csatorna alacsony helyiértékû és magas helyiértékû bájtjait. Ezután következnek a fentebb leírt hibafelismerõ és hiba kiküszöbölõ bájtok két egyenként 4 bitet tartalmazó csoportban a frame-en belül. 49 Digitális jelfolyam tárolása Minden frame-ben van egy vezérlõ (Control) és egy megjelenítõ (Display) bájt. Ez 8 bitbõl áll és P,Q,R,S,T,U,V és W (subchannel)

nevekkel kerültek megjelölésre. Ezek a bitek minden subchannel-re 98 frame-ben összefogottan, közösen kerülnek alkalmazásra. Összesen mind a 8 subchannel-re 98 bit adódik, amibõl 72 hordoz tényleges információt. Minden 98 frame képez egy blokkot Figyeljünk arra, hogy a blokkokat ne keverjük össze a frame-ekkel. Így P subchannel például arra szolgál, hogy megkülönböztessék az audioadatokat tartalmazó CD-DA-kat a számítástechnikai adatokat tartalmazó CD-ktõl. A Q csatorna például – a befûzõ részen (Lead-in Area) a tartalomjegyzékben szereplõ – a CD-DA-n hátralevõ szakaszoknak a relatív és abszolút idejének megadására használatos. A szinkronizációs minta a frame-ek kezdetének megjelölésére alkalmazzák. Ez 12db 1 és 12db 0 csatornabitbõl áll, három kitöltõ bittel. A 3.13 táblázatban áttekinthetjük egy frame komponenseit a megfelelõ bájtokkal Ezen adatokkal már könnyen megkülönböztethetõek a differenciált

jelsebességû más és más módon létrejövõ adatfolyamok. Audiobitek Modulált bitek Szinkronizáció 3+ Vezérlõ és megjelenítõ 12* adatok 12*8 4* hibakezelés 12*8 Csatorna bitek = 27 bit (14+3) = 17 bit d.h 12* (14+3) = 204 bit d.h (14+3) = 68 bit d.h 12* (14+3) = 204 bit d.h = 68 bit = 588 bit d.h 4* hibakezelés 12* adatok Kitöltõ bitek 4* 4* (14+3) Frame összesen 24 (3.13 táblázat) Egy frame komponensei Az audiobitfolyam (mely audiojelfolyamnak is nevezhetõ) 1.4112 × 106 bit/sec Itt csak a 16 bitre kvantált mintavételi értékeket tekintjük. Az audiobitfolyam tartalmazza magát, beleértve a vezérlõ, a megjelenítõ és a hibakezeléshez szükséges bájtokat is. Itt 194 × 106 bit/sec adható meg A csatornabitfolyam áll az EFM modulált audiobitfolyamból, a kitöltõ és szinkronizáló bitekbõl egyaránt. Ez kb 432 × 106 bit/sec értékû Egy CD-DA egészében véve a következõ tartományokból épül fel: 50

Digitális jelfolyam tárolása A Lead-in tartományban kerül tárolásra az audio lemez tartalomjegyzéke (TOC – Table Of Contents). Itt vannak feljegyezve az egyes track-ek kezdetei A programtartomány a CD-DA lemezen található összes track-et magában foglalja. Itt vannak maguk a tényleges audioadatok. Minden CD lemez végén van egy Lead-out tartomány. Ez a lejátszó számára tartalmaz hasznos információkat. Például nehogy az adattartományon kívül történjen olvasás Az audio CD lemezek programtartománya maximálisan 99 különbözõ hosszúságú track-et tartalmazhat, és minden CD lemezen minimálisan egy track-nek lennie kell, ami lehet audio- vagy adat- track egyaránt. Természetesen az összes track kezdetéhez tetszõleges módon hozzáférhetünk. Továbbá a Red Book szerint, a track-ek tartalmazhatnak index pontokat, amikre pozícionálható a leolvasófej. Többnyire csak két index pontot (IP) alkalmaznak, az IP0-t és az IP1-et. Az IP0 jelöli

minden track kezdetét, az IP1 pedig az audioadatok kezdetét a track-en belül. Az IP0 és IP1 közötti rész nevezik Track Pregap – nak. A CD-DA lemezek minden track-je elõtt van egy 2-3 másodperc hosszúságú Track Pregap. A frame-ek és a track-ek közé egy további struktúra elem épül be, a blokk vagy más néven szektor (3.14 ábra) (3.14 ábra) A CD-DA szektorstruktúra AudioBlokk = 1411200 bit/sec × 1/75 sec × 1/8 bit/byte = 2352 byte Egy blokkot 98 frame alkot, de az audio technika számára nincs különösebb jelentõsége a blokkoknak, viszont a számítástechnikában annál fontosabb szerep jut a számukra. Mindenképp említésre méltó, hogy nem csak a track-ek lejátszására van lehetõség, hanem azok digitális adatként való leolvasására is. Ennek az eljárásnak általános elterjedt elnevezése grabbing. Mint az angol elnevezés is sugallja, nem éppen legális eljárás egy copyright jogokkal védet zeneszám digitális lemásolása más egyéb

háttértárolókra. A „grabbing”-et végzõ programok az audio adatokat többnyire WAV formátumban rögzítik a mágneses adathordozóra. Viszont a mai személyi számítógépek 51 Digitális jelfolyam tárolása teljesítménye már bõven elegendõ, akár a grab-elt zeneszámok valós idõben közvetlen tömörített formátumban való rögzítésére is. Míg az audotechnikában használt CD olvasó egységek szinte alig változtak megjelenésük óta, addig a számítástechnikában az újabb CD-ROM meghajtók egyre nagyobb adatátviteli sebességet produkáltak. Ezt technikailag a fejlesztõ cégek fõként a lemez fordulatszámának többszörösére emelésével tudták a legegyszerûbben elérni. Alapvetõ értéknek tekintették az CD-DA lejátszók adatátviteli sebességét, tehát maximálisan csak erre a sebességre képes meghajtókat nevezték el 1× CD-ROM egységeknek. Majd mikor a Panasonic cég megalkotta az elsõ 4× CD-ROM olvasóját, akkor itt a CLV

meghajtórendszert már a nagyobb adatátviteli sebességet biztosító CAV (Constant Angular Velocity), állandó szögsebességgel mûködõ mechanika váltotta fel. Manapság ha még is annak okát akarjuk megtudni, hogy egy 50× CD olvasó optimális esetben mért csak kb. 10× sebességgel képes egy audio CD grab- elésére, akkor a Reed Book-ban lefektetett hibajavító rendszereket kell alaposabban tanulmányoznunk. CD-WO (Write Once) - Egyszer írható lemez: A CD-WO, (CD-R) -t egy elõzetesen gravírozott (pre-grooved) barázdákkal látják el a gyártás során. Az összes csak olvasható CD-n a hordozó (ami egy polykarbonát) közvetlenül egy fényreflektáló réteg határolja. Az egyszer írható lemeznél a hordozó és a reflektáló réteg között egy abszorpciós réteg is elhelyezkedik. Ez a réteg csak erõs hõterhelés hatására tudja a lézersugárral szemben mutatott reflexiós tulajdonságait irreverzibilis módon megváltoztatni. Eredeti állapotban a

lézersugár egy csupa land-ból álló lemezt lát. Egy a leolvasó lézersugárnál háromszor-négyszer erõsebb író-lézersugár (4-8 mW) az elõzetesen gravírozott pályán helyileg 250 C° fölé melegítik az anyagot. Ennek hatására a rétegben felmelegített folt az olvadás miatt zsugorodik, majd megváltoznak egyes optikai tulajdonságai (például jelentõsen csökken a transzparenciája - a fényáteresztõ képessége), így a kijelölt pit terület az íráskor bemattul. Az átlátszó információtároló réteg mögött lévõ tükrözõ réteg az olvasáskor a pitek helyén kevésbé világítható meg, mint a pit-ek közti land terület. A pit mögött megvilágított tükörrõl visszavert fényt a matt réteg ismét megszûri, így a pit-ekrõl detektált fény intenzitása (legfeljebb) 20%-kal csökken, s ez elegendõ ahhoz, hogy a CD-R-en lévõ információ leolvasható legyen. A Red Book és a Yellow Book a CD lemezek felületét három tartományra

osztotta, ezek a bevezetés (Lead In), a programterület és a kivezetés (Lead Out). A lemezre 52 Digitális jelfolyam tárolása vonatkozó összes adatot: a sávok számát, kezdetüknek és végüknek a címét a bevezetésben található Q alcsatornában lévõ tartalomjegyzék tárolja. Mivel ezek a lemezek csak olvashatóak, gyártásukkor már ismert minden adat, ezért a tartalomjegyzék összeállítása nem okoz gondot. A CD-WO (CD-R) lemeznél viszont a tartalom nem ismert elõre, ezért a tartalomjegyzék (TOC) kitöltését másképpen kellett megoldani. A szabványalkotók egy olyan szekciós felosztást alakítottak ki (3.15 ábra) az egyszer írható lemezeken, ahol a szekció felírása után történhet meg a tartalomjegyzéket rögzítése. Továbbá ezzel a felosztással biztosították még annak a lehetõséget is, hogy a nyers lemezre ne csak kötelezõen egy lépésben lehessen felírni adatainkat, hanem a késõbbiekben bármikor bõvíteni tudjuk azokat a

már részben megírt CD-R lemezünkön. A CD struktúrája maximum 99 szekciót engedélyez. Azonban a bevezetés (LI)- és kivezetés (LO)- tartománya miatt csak 46 üres szekció képezhetõ egy lemezen. Egy szekciót a Lead-in, Lead-out és a Program area (Programozható terület)-ek alkotják. A PCA terület az írás elõtt bizonyos kalibrálási folyamatokra van fenntartva, mint pl.; a kerületi sebesség szinkronizálása, az optimális írásteljesítmény beállítása, stb. A PMA maga az írható tartományra vonatkozó fontos információkat tartalmaz. Mind a PCA és a PMA területek tartalmát is már gyártáskor rögzítik, ezért a lemeznek ezek a tartományai csak olvashatóak a felhasználó számára. A többszekciós lemezeket szokás még Multi-session lemezként is emlegetni. (3.15 ábra) Egyszekciós CD-R lemez felépítettsége A CD-R lemezekre tetszõlegesen írható a CD formátumok bármelyik típusa, ezen kívül nincs megkötés arra az esetre sem, ha

különbözõ formátumú szekciókat akarunk az írható lemezünkre rögzíteni. Azt semmiképp ne felejtsük el, hogy a több szekciós lemezeken az 1992 elõtti lejátszók kivétel nélkül csak az elsõ szekciót tudják érzékelni. Az audiotechnikában pedig még a 92 után években sem tartották lényegesnek a cégek ezen 53 Digitális jelfolyam tárolása újítás bevezetését, ezért mai napig a CD-DA lejátszóknak csak igen kis hányada képes a több szekciós audio lemezek teljes körû lejátszására. RW (ReWriteable) technológia: A CD-RW egy többször is újraírható lemez (kb. 1000-szer), ami lényegében az egyszer írható CD lemez tovább fejlesztésének tekinthetõ, ezért mûködés és adatstruktúra (szekciós felosztás) szempontjából teljesen megegyezik a CD-R diszkekkel. Csak anyagszerkezeti felépítettsége és adatrögzítési elve alapján különböztethetõ meg a két lemeztípus. Anyagszerkezetileg az RW lemezeknél a felvételi réteg,

olyan fémötvözetbõl áll, melynek kristályszerkezete bizonyos nagyságú hõ hatására úgy változik meg, hogy a szabályos kristályszerkezet helyett amorf anyag képzõdik. Más hõmérsékleti tartományban pedig az átalakulási folyamat visszafordítható. Ez az oda-vissza átalakulási folyamatról kapta a fázisváltós (Phase Change) elnevezést a RW adatrögzítési technológiája. Tehát íráskor a 8-14 mW teljesítményû lézernyalábbal megvilágítják az aktuális területet mindaddig, míg el nem érik az adatrögzítéshez kívánatos hõmérsékleti tartományt (500-700 C°), ekkor az anyag folyékony halmazállapotba kerül, majd lehûlés után, pár nsec alatt összezsugorodik. Kialakítva ezzel egy gödröcskét (pit-et) Törléskor már csak kb. 200 C° körüli hõmérsékletre melegítik fel az információt tároló réteget, ilyenkor nem sokkal kevesebb idõ alatt, mint íráskor, az anyagban lévõ atomok visszarendezõdnek az eredeti

szabályos kristályrácsba. Fizikai lehetõség adott az RW adatrögzítési technológiánál arra, hogy közvetlen felírás (Direct Overwriting) módszert alkalmazzunk, hiszen a két folyamathoz idõben mindössze pár ezredmásodperc is elegendõ. De a többször is újraírható CD-RW és DVD-RW lemezek világában sajnálatos módon mind a mai napig csak számítástechnikai felhasználás területén született erre alkalmas adattárkezelõ rendszer, UDF (Universal Disc Format) elnevezéssel. Az UDF lehetõvé teszi a felhasználó számára, hogy hasonlóképpen, mint a merevlemezes mágneses háttértáraknál, szintén szabadon írhasson, törölhessen, átnevezzen fájlokat, könyvtárakat az újraírható optikai lemezein is. A CD-RW lemez olvasása már csak a szokásos 0.7 mW teljesítményû lézernyalábbal történik, ahol szintén a Kompakt diszkeknél általánosan használt reflexiós és interferencia tulajdonságait használják ki a lézerfénynek. Viszont míg

a CD-R lemezeknél a lézer 70% visszaverõdik, addig a CD-RW lemezeknél ez a szám csak 28%. Ezért a RW lemezeket a normál CD meghajtók nem ismerik fel. Ez a tény a professzionális zenetárolás szempontból egy jelentõs hátrányt támaszt a CD-RW lemezekkel szemben. 54 Digitális jelfolyam tárolása MD (Mini Disc) és az MO (Magneto Optikai) adatrögzítõ eljárások jellemzõi: A 1990-es években szabványosított CD-MO lemezek a számítástechnikában nem értek el átütõ sikereket, ennek fõ oka, valószínûsíthetõleg a hagyományos CD olvasók inkompatibilitása az MO lemezek iránt. Viszont a Sony cég Magneto Optikai lemeze a Mini Disc igazán közkedvelt adattároló eszközzé vált az audioipar számára fõként inkább a tengerentúlon és Japánban, de az elmúlt években már Európában is jelentõs sikereket könyvelhettek el az importõrök. Habár az MD lemezek alapvetõ fizikai mûködésükben és felépítettségükben nagyon hasonlók a CD-MO

lemezekhez, még is olyan lényeges különbségek, mint a geometria mérete és egyéb más egyedi jellemzõi miatt már nem illeszthetõ a CD specifikációkhoz, ezért a Sony Corporation a Szivárvány szabványkönyvben (Rainbow Book) rögzítette a kezdetben csak hang tárolására alkalmas új tárolórendszerét. Természetesen a Sony már e szabványkönyv megalkotásakor jó elõre gondolt a lemezkiadó cégekre és nem kevésbe biztosítani akarta az MD lemezeken rögzíthetõ adatok olcsó nagytömegû sorozatgyártását, ezért alapvetõen két féle típusú médiát tervezett. Az egyik a csak olvasható (ROM) tárolóeszköz szerepét hivatott betölteni, elterjedtebb elnevezése „Mini Disc Preplayed”. Ez fizikális felépítettségében és gyártástechnológiai szempontokból teljesen megegyezik a ROM típusú Kompakt lemezekkel. Emlékeztetõül: Itt is egy nyomólemez segítségével alakítják ki a pit-eket és a land-eket a szubsztrát rétegben.

Lejátszáskor pedig szintén a CD lemezeknél általánosan használt letapogatási technológiát alkalmazzák A másik típus egy többször is írható magneto-optikai lemez, melyet az „Mini Disc Recordable” elnevezéssel illettek. Rétegstruktúra szempontjából az MD teljesen megegyezik a CD-MO lemezekkel. A polykarbonát hordozón két dielektrum (szigetelõ) réteg között helyezkedik el maga a mágneses tárolóréteg. A lakkréteg alatt pedig természetesen a Reflexiós (tükör) réteg található. Az MO médiák esetében; sem az olvasás mûvelete nem összeegyeztethetõ a CD-knél és a Preplayed diszkeknél szokásos csak reflexió/interferencia jelenségen alapuló eljárással, sem a törlés/írás folyamata nem hasonlítható a CD-RW lemezeknél alkalmazott fázisváltós (Phase change) adatrögzítési technikához. – Ezen egyszerû okból kifolyólag nem képesek kezelni a CD-MO lemezeket a normál CD olvasók. – Minden magneto-optikai adathordozónál a

jelrögzítés és jelolvasás mechanizmusa az úgynevezett Mágneses módulációs (Magnetic field modulation) eljáráson alapul. Itt alapvetõen a lézersugár mágneses tulajdonságait (Kerr- és Farady- effektust) használják ki. 55 Digitális jelfolyam tárolása Lényegében ez azt jelenti, hogy a lemezen rögzített információt a mágneses adathordozó rétegben található domének (mágneses dipólusok) polaritása adja, ahol a pit-eket a domének lefelé mutató mágneses pólussal rendelkezõ csoportjai alkotják, míg a land-ek felfelé mutató mágneses pólusként kódolt doméncsoportok. Olvasáskor a lemezrõl visszaverõdõ lézer polarizációs síkja elfordul, azaz a fénynyaláb jobbra vagy balra „csavarodik”, annak megfelelõen, hogy a beesõ fény milyen polaritású (Észak/Dél) mágneses rétegrõl verõdik vissza. Ezen elfordulásokat detektálva meghatározható a pitek és a land-ek viszonya az adathordozón Íráskor pedig az aktuális

doméncsoportot felmelegítik megközelítõleg 200 C° hõmérsékletre, ilyenkor már az anyagnak annyira lecsökken a mágneses koercitív ereje, hogy egy könnyen mágnesezhetõ állapotba kerül. Ezt az anyag kémiai szerkezetére jellemzõ hõmérsékletet a jelenség felfedezõjérõl Curiepontnak nevezik. Majd a felmelegített doméneket a rögzítendõ információtól függõen egy gerjesztett (kb. a föld mágnesezettségétõl tízszer erõsebb) mágneses térrel átpolarizálják Késõbb az anyag lehûlése és a mágneses tér kikapcsolása után ez a doménpolarizáció megmarad. A mágneses modulációs eljárásnál pedig nincs szükség külön törlési mûveletre, mint például a fázisváltós adatrögzítésnél. Itt lényegében már magában az írási folyamatában benne foglaltatik, tehát nem törlés és azt követõ felírás, hanem átírás történik. Visszatérve konkrétan az MD rendszerre, itt a lemezek átmérõje 2.5-inch (64 mm) és 1.2 mm

vastag, ezt a Sony szintén a Magneto Optikai adattárolóknál használatos mûanyag tok (catridge)-ba helyezte el, aminek külsõ mérete 72×68×5 mm. Kapacitás szempontjából az audio MD lemezeknek mindössze három fajtája ismeretes, melyek 60, 74, vagy 80 perces zene rögzítésére alkalmasak, míg a számítástechnikában csak a 140 Mbyte-i adat tárolására alkalmas média terjedt el leginkább. Azonnal felmerül mindenkiben a kérdés, hogyan férhet fel 74 percnyi CD minõségû PCM kódolású hanganyag (747 Mb) egy 140 Mbyte-nyi adatterületre? A titok az ATRAC (Adaptive Transform Acoustic Coding) valós idejû hangtömörítõ eljárás használatában rejlik. Az ATRAC kódolási technika lényege, hogy a CD minõségû impulzuskóddal modulált hangot, mely köztudottan 0,02 ms (1/44.1kHz) szélességû mintavételi jelekbõl épül fel, 512 db mintát (11,6 ms) egy egységnek véve elemzik (Fourier-sorba fejtik a mintavételezett jeleken keresztül az analóg jel

hullámalakját) és az emberi fül által nem hallható tartományba esõ összetevõket - mint redundáns információt - elhagyják. Ily 56 Digitális jelfolyam tárolása módon törölhetõ megközelítõleg az információ ötöd része. (ATRAC tömörítésrõl részletesen a késõbbekben.) Míg MD meghajtók közel 1.4 Mbit/sec adatátviteli sebességre képes, addig az ATRAC dekódoló egységnek minimálisan csak 0.3 Mbit mennyiségû adat szükséges másodpercenként, a folyamatos zenelejátszás. Továbbá minden MD zenelejátszóban helyet kapott egy úgynevezett Rázásálló memória (Shock-Resistant Memory), mely a 4 Mbit terjedelmû tárolókapacitásával 10 másodpercnyi zeneanyagot képes magában eltárolni. Mûködése szempontjából leginkább egy puffere hasonlít, mivel a leolvasó rendszer az adatokat még a lejátszásuk elõtt beolvassa a memóriába, tehát úgynevezett elõreolvasást hajt végre. Ennek a puffer módszernek a segítségével

biztosítják az ATRAC dekóder számára a folyamatos adatszolgáltatást, hiszen rázkódás, vibráció vagy éppen az olvasófej pozicionálás alatt a zenelejátszás akadozna. Az – ATRAC eljárással tömörített – adatokat hasonlóan kezelik az MD lemezeken, mint a CD-DA rendszereknél, vagyis alkalmazzák a EFM modulációt és az ACIRC (Advanced Cross Interlaved Reed-Solomon Code) hibajavító eljárást, ami a CIRC továbbfejlesztésébõl született. Ahhoz pedig, hogy íráskor a lézernyaláb pontosan tudja követni a barázdákat (adatpályát) és által szavatolhatóvá tenni a lemezek kompatibilitását a különbözõ felvevõ és lejátszó egységek között, szintén a Kompakt diszkeknél kifejlesztett elõre gravírozott (pre-groove) technológiát alkalmaznak az alapanyag gyártása során. Az MD lemezek írása, olvasása állandó kerületi sebességen (CLV), zónás struktúra kiosztási elv alapján történik. Szekciós felépítettségüket a 316 ábra

szemlélteti. Látható, hogy az MD korong felosztása hasonlít a Kompakt lemezekéhez Itt is a befûzõ (Lead-in) tartományban helyezték el a TOC-t. Mûsoros (Preplayed) MD-k esetében, – mint ahogyan a CD-DA lemezeknél már megtapasztalhattuk, – szintén a TOC-ban tárolják mind azokat az információkat, melyek a PA (Program Terület) kezdetére, végére és maga a program területben elhelyezkedõ track-ek pozíciójára utal. Az írható (Recordable) diszkeknél már jelentõsen eltértek az írható CD médiák felépítettségétõl, mivel létrehoztak egy a floppy diszk könyvtárszerkezetéhez hasonló struktúrát a U-TOC (User Table Of Contents)-t. A rendszer U-TOC tárolja az összes track kezdeti és vég pozícióját. Ennek segítségével a felhasználó az MD lemezeken szabadon rendezheti felvételeit. Tetszõlegesen több részre oszthat fel, egyesíthet, törölhet, beszúrhat és cserélhet számokat (track-eket) a lemezén. Egyetlen korlátozás van a

tervezõk részérõl, hogy a track-ek száma nem haladhatja meg a 255. A TOC-ban csak a 57 Digitális jelfolyam tárolása lemez olyan egyedi jellemzõit rögzítik gyártáskor, mint például az írható tartomány helyzetét, optimális felvevõ lézersugár teljesítményét (általában 2.5-5 mW), stb A következõkben megfigyelhetjük a track-eken belüli adatcsoportok tagoltsági rendszerét a 3.17 ábrán -(3.16 ábra) MD audio lemezek szekciós szerkezete -(3.17 ábra) MD audio track-ek adatstruktúrája Egy klaszter 36 szektort tartalmaz, viszont ezen szektorok közül csak 32 hordoz tényleges zenei információkat, a maradék 4-et használják a klaszterek közötti kapcsolatok (láncok) és a csatornakódok (Subchannel) adatainak tárolására. Plusz a mûsoros MD lemezeken minden ötödik frame tartalmaz egy „Copyright Protection Bit”-et, ami egy úgynevezett SCMS rendszer legfõbb alkotóeleme. Ezen bit alapján dönti el az asztali MD rekorder, hogy

engedélyezett-e a felhasználónak a másolás joga vagy nem. SCMS (Serial Copy Management System)-t már az MD rendszer megszületése elõtt egy évvel megalkották. Azzal a fõ célkitûzéssel, hogy korlátozzák az otthoni felhasználásra szánt audioipari termékekkel végzett illegális zenemásolatok készítését. A rendszer az asztali rekordereknél csak a mûsoros példányról enged tisztán digitális felvételt készíteni. A másolatról a további digitális felvételeket már megakadályozza Analóg hangátvitellel készült felvételekre nem terjed ki az SCMS rendszer és a számítógépen végzett digitális sokszorosítás ellen sem nyújt semmiféle védelmet. Ennél a média típusnál már jól látható az adattárolási- és a hangtömörítésitechnikák miként fonódnak össze. Kezdetben pont ezért sok támadás érte az MD rendszereket, mivel még maga a Sony cég is elismerte, hogy az ATRAC eljárás volt a leggyengébb pontja az új médiumnak. A

késõbbiekben viszont a Sony cég nem adta fel és rengeteg energiát fektetett az ATRAC eljárás továbbfejlesztésében, évekbe tellett, de a munka meghozta a rég várt elismerést. 58 Digitális jelfolyam tárolása Az MD lemezek alkalmazhatósága szempontjából pedig két fõ elõnyét érdemes kiemelni mindenképp az írható Kompakt diszkekkel szemben: Az audio kompakt lemezeknél ha több szekciós (multi-session) felvételeket készítünk elsõként már említett problémával találkozunk, miszerint elég kevés zenei CD lejátszó egység képes megismerni az elsõ kivételével a több szekciót, másodszor pedig minden új szekció megnyitásakor a lemez kapacitásából kb. 1 percnyi (10 Mbyte) területet foglal le magának a rendszer. Tehát ha már tíz különbözõ alkalommal rögzítünk folytatólagosan zeneanyagot az audio CD lemezünkre, akkor például egy 74 perces CD esetében már kb. tíz perc szabad zene kapacitást veszíthetünk el Az MD

lemezeknél folyamatosan vehetünk fel és törölhetünk le zeneszámokat. Persze megoldásul szolgálhat a Kompakt diszkeknél, ha a lemez teljes kapacitását egyszerre használjuk ki, de még mindig ott van a CD-RW lemezek azon hátránya, hogy csak az egész lemezt tudjuk törölni, track-eket külön nem lehet. Ez a felhasználó szabadságot (kényelmét) jelentõsen befolyásoló tényezõt mindenképp az írható Kompakt diszkek hátrányára róható fel. Manapság is fájó pont a lemezkiadó cégek részérõl és persze a felhasználók (zenehallgatók) körében szintén már régen felvetõdött, mint igény, hogy a CD audio formátumú lemezekre gyártásakor és írásakor digitálisan rögzíthetõ legyen az elõadó neve, a számok (track-ek) címei és egyéb kisebb információk. Ezen kényelmi szolgáltatásra mindenki nagy örömére az MD lemezek már képesek. DVD lemezekrõl általánosságban: Az eddig részletesebben ismertetett optikai lemezek

adatsûrûségük szempontjából azonosak voltak, tehát a pit-ek méreteiben (min. 083µm), a barázdák közötti távolságokban (1.6µm) és a lézer hullámhosszában (780nm) mind megegyeztek Ezért kapacitásban is közel hasonló szintet képviseltek a háttértárolók körében. Idõvel azonban a gyorsan fejlõdõ különbözõ alkalmazások fokozódó adatmennyiség szükségleteit már nem voltak képesek kiszolgálni a Kompakt diszkek. Ezen probléma megoldására az 1994es években két új a CD-knél nagyobb adatsûrûségû optikai lemez is felbukkant a piacon, HDCD (High Density Compact Disc) és SDCD (Super Density Compact Disc) elnevezéssekkel. Mindkét lemeztípusnál csökkentették pit-struktúra méreteit Továbbá a még nagyobb kapacitás kedvéért a HDCD lemezeket két egymáson elhelyezkedõ adathordozó réteggel látták el, míg a SDCD-nél a pit-struktúra csökkentése mellett kisebb hullámhosszú lézersugarat és a lemez mindkét felületét

adattárolási célra kihasználó 59 Digitális jelfolyam tárolása technikai megoldást alkalmaztak. Viszont ezek az új médiumok a kifejlesztõ cégeiken kívül nem igen élveztek más jelentõsebb támogatottságot, ezért mindenképp szükség volt egy olyan újabb nagy tárkapacitású optikai lemezre, amit már minden jelentõsebb cég elfogad. A DVD megalkotásakor a tervezõk igyekeztek az elõdök – HDCD és a SDCD – minden elõnyõs technikai megoldását és kedvezõ tulajdonságait felhasználni. Az eredmény egy a CD-kkel megegyezõ geometriai jellemzõkkel bíró optikai lemez, ami viszont tárkapacitásban jóval felülmúlja a Kompakt diszkeket. A pit-ek méreteit egyezményesen 0.4 µm-hez közeli értékekre, a barázdák közötti távolságot pedig 074 µm-re redukálták (3.18 ábra) (3.18 ábra) A DVD lemezek adathordozó rétegének metszeti képe A letapogató lézernyaláb hullámhosszát 635 és 650 nm-ben rögzítették. Szerkezetileg négy

féle lemeztípust rögzítettek a szabványosítók, melyek a tároló rétegek és az oldalak kombinálásából jött létre (3.19 ábra) (3.19 ábra) A DVD lemezek anyagszerkezeti felépítettsége A különbözõ kapacitású lemezeket a 3.20 táblázatban foglaltam össze A kétrétegû lemez érdekes tulajdonsága, hogy a második adatréteg mindkét irányban olvasható. A 60 Digitális jelfolyam tárolása szabványos kötetinformáció az egy- és kétrétegû lemeznél is a korong elején található, de a második réteg kívülrõl befelé olvasva is tartalmazhat adatokat. Erre olyan alkalmazásoknál van leginkább szükség, ahol a lemezre folyamatosan felvett információt (pl. mozifilm, hang) rögzítettek, és a külsõ réteg végén azonnal folytatni kell az olvasást a belsõ rétegen. Az átváltás mûszakilag egyszerûen megoldható, sokkal nehezebb az olvasás folyamatának a fenntartása (a szinkronizálás és a csatolások követése). Ezt egy

közbensõ terület létrehozásával biztosították, amit ha érzékel az optikai fej, akkor a lézernyaláb fókuszát a meghajtó a másik réteghez állítja, majd felkészül a szinkronizálás és a csatolások követésére. Lemez ∅ (mm) Egy oldalas Két oldalas Egy rétegû Két rétegû Egy rétegû Két rétegû 80 mm 1.4 Gbyte 2.6 Gbyte 2.8 Gbyte 5.2 Gbyte 120 mm 4.7 Gbyte 8.4 Gbyte 9.4 Gbyte 17 Gbyte (3.20 táblázat) DVD lemeztípusok A DVD adattárolási technológia tervezéskor igyekeztek minden tekintetben túlszárnyalni a Kompakt diszkeket. Növelték a szabványban lerögzített minimális lemez fordulatszámot 3.49 m/s és 3.84 m/s értékekre A forgássebesség szabályzása a lemeztípusoktól független tényezõ. A meghajtón múlik, hogy CLV vagy CAV rendszerrel történik-e a korong meghajtása. Javítottak az adatbit moduláción is A csatornabiteket nem a CD lemezeknél használt EFM modulációval kódolják. Az EFM ugyanis 8

adatbitet 14 csatornabiten állít elõ. Az EFM elnevezés azonban pontatlan, mert minden 14 csatornabitet 3 összekötõ bit követ, vagyis az EFM valóban 8 bitrõl 17 bitre történõ átalakítás. A DVD adatkódolása az EFM moduláció továbbfejlesztett változatát használja, melyet EFM+ vagy „8/16 moduláció” elnevezéssel illettek. A 8 adatbit 16 csatornabitre történõ átalakítása tovább csökkenti a jelsorozat egyenáramú összetevõjét. Plusz elõnye még, hogy egyszerû áramkörrel dekódolható. A 8/16 moduláció lényegében azonos az EFM modulációval, de megtakarításra kerül 1 összekötõ bit. A CD adatmodulációjához hasonlóan itt is minden 8 bites adatot egy táblázat segítségével 14 bites kóddá alakítanak át, ezt a kódot egészítik ki 2 összekötõ bittel. Így jön létre a 16 csatornabit Az összekötõ bitek a jelsorozat egyenáramú szintjének csökkentésére szolgálnak. Ezen kívül olyan további adattárolási

újításokat vezettek be a CD jelrendszerével szemben, mint az alkód bájtok megszüntetése, ezzel együtt szüntették meg a vezérlési célú alkód csatornákat (subchannel) is. Függetlenül attól, hogy milyen típusú információt rögzítenek a DVD 61 Digitális jelfolyam tárolása lemezeken, egységesen 2048 bájt hosszú szektorokban tárolják az adatokat. – Az igaz, hogy a CD-ROM (mode 1) adatformátumnál is egy szektort 2048 bájtból álló csoport képvisel, viszont a DVD szektorforma ettõl különálló felépítettséggel rendelkezik. – Az ECC hibajavító karaktereket az elsõ szintû védelembe integrálták, ezért nincs másod szintû hibajavítás sem. Lényegében a DVD lemezen a szektorok tényleges hossza 2064 bájt, ezekbõl 2048 bájt adatbájt, 16 bájt más célokat szolgál. Egy szektor hibajavítási célból 12 sorra oszlik, minden sorban 172 felhasználói adatbájt van (3.21 táblázat) 0. sor ID IEC 1. sor 172 felhasználói

adatbájt 2. sor 172 felhasználói adatbájt 160 felhasználói adatbájt 7×172 felhasználói adatbájt 10. sor 172 felhasználói adatbájt 11. sor 168 felhasználói adatbájt EDC (3.21 táblázat) DVD szektor felépítése Az elsõ sor elején 12 bájt hosszú fejléc, az utolsó sor végén pedig 4 bájtból álló EDC (Error Detection Code) mezõ van. A fejléc elsõ 4 bájtja azonosító adatbájt (ID: Identification Data), amit 2 ID hibajavító bájt követ (IEC: ID Error Correction). A fejléc további 6 bájtja késõbbi célokra fenntartott mezõ. A DVD hibajavító algoritmusának alapját szintén a CD lemezeknél használt CIRC (átszõtt Reed-Solomon kódolás) képezi, viszont a DVD-nél használt módosított megoldással mintegy tízszer hatékonyabb eredmény érhetõ el, mint az elõd – a CIRC kódolási tematikával –. Az utódeljárás neve RPC (Reed-Solomon Product Code) A csoportos hibák ellen ez is átszövési technikával védekezik. Az

átszövésben 16 szektor összesen 192 sorból álló blokkja vesz részt (1 blokk = 16 szektor). A hibajavító bájtokat kétdimenziós módon fûzik össze - innen származik az elnevezésben a „szorzat” (Product) szó. A kétdimenziós mód azt jelenti, hogy minden sor végén van 10, továbbá a blokk végén 16 sorban soronként 182 hibajavító bájt (3.22 táblázat) Egy blokkban tehát 208 sor, és minden sorban 182 bájt (208×182 = 37856 bájt) van. Ebbõl 192×172 = 33024 bájt a szektoradat, ebbõl 16×2048 = 32768 bájt felhasználói adat. Látható, hogy a DVD lemezen tárolt adatok 87%-a szektoradat, és 86%-a felhasználói adat. Az RPC eljárás egyrétegû lemezeknél 6 mm, kétrétegû lemezeknél 6,5 mm hosszú csoportos hibát tud javítani. 62 Digitális jelfolyam tárolása 0. sor 172 bájt/sor szektoradat 190 × 172 bájt/sor szektoradat 191. sor 172 bájt/sor szektoradat 10 bájt RS adat 190 × 10 bájt RS adat 10 bájt RS adat 192. sor 182

bájt/sor RS adat 14 × 182 bájt/sor RS adat 207. sor 182 bájt/sor RS adat (3.22 táblázat) DVD blokk szerkezet Egy szektor hossza a hibajavító bájtokkal együtt 2366 bájt. (12 sorban 2064 bájt szektoradat + 12 sorban 120 bájt RS adat + 1 sorban 182 bájt RS adat = 2366 bájt). Egy szektorban 2366 bájt, azaz 18928 bit van. A 8/16 moduláció után a bitek száma megduplázódik, azaz egy szektorban 37856 bit lesz. Egy blokkban 16 szektor van, ebben 16×2064 = 33024 bájt szektoradat található, ezt egészíti ki a 192×10+16×182=4832 bájt RS adat. Minden szektor kiegészül 104 szinkronbájttal azaz 832 szinkronbittel A szinkronbájtok a szektor kezdetét jelzik, egyediek, nincsenek kapcsolatban a 8/16 modulációval. Egy szektorban található 2048 bájt (16384 bit) felhasználói adat tárolását 37856+832 = 38868 csatornabit végzi. Összehasonlításul: 2048 bájt felhasználói adatnak CD-ROM-on történõ tárolásához 57624 csatornabit szükséges, ami a DVD

lemezen használt mennyiségnek több mint 148%-a. A DVD lemezek nagyobb kapacitása a gazdaságosabb adatkódolási módszernek is köszönhetõ. Az egyszer és többször írható DVD lemezeknél is ugyan azokat az adatrögzítési technológiákat használják (DVD-R, DVD-RAM és DVD-RW), mint a CD lemezeknél. A két rendszer közötti kompatibilitás véget a DVD meghajtókat kifejezetten úgy tervezték, hogy képesek legyenek felismerni és kezelni a Kompakt diszkeket is. Viszont a DVD-RW és a CD-RW lemezekkel kapcsolatban jelentkezhetnek olyan kompatibilitási probléma, hogy a régebbi gyártású DVD meghajtók nem érzékelik ezeket a típusú médiákat. A DVD lemezek audio sajátosságai: A nagy kapacitású optikai lemezek létrehozására a legfõbb inspirációt, a minimális célt az jelentette, hogy egy darab optikai lemezre rögzíthetõ legyen egy teljes (kb. 135 perc) digitális mozifilm anyaga. Ezt a feladatot az alkotók maradéktalanul teljesítették, hiszen

egy 12 cm átmérõjû egy oldalas egy rétegû lemezre már két órás kiváló minõségû (PAL: 720×576 vagy 704×576 pixel, NTSC: 720×480 vagy 704×480 pixel) MPEG-2 kódolási technikával tömörített videofilm tárolását teszi lehetõvé. Szemben a két darab Video-CD-t is elfoglaló MPEG-1 kódolású (PAL: 352×288 pixel, NTSC: 352×240 pixel) elég gyenge 63 Digitális jelfolyam tárolása minõségû videofilmekkel. Míg a Video-CD-ken a film hangjának tárolására ADPCM vagy MPEG-1-es tömörítési eljárásokat használtak, – amik még CD minõséghez képest is jócskán alul maradtak –, addig a DVD video lemezeknél már szükségessé vált más, jobb minõségû hang tárolására is alkalmas kódolási technikákat kidolgozni. A B book készítésekor három kiforrott és elterjedt audiokódolási eljárást találtak alkalmasnak a filmek hangjának tárolására, melyek a C szabványkönyv alapjául is szolgáltak (3.23 táblázat). Eljárások:

LPCM AC-3 MPEG-2 Mintavételezési frekvencia 48 kHz vagy 96 kHz 48 kHz 48 kHz Kvantálási hossz 16 bit, vagy 20 bit, vagy 24 bit 16 bit 16 bit Használható maximális adatátvitel 6.144 Mbit/sec Hangcsatornák száma 448 Kbit/sec 640 Kbit/sec 2-8 5.1 5.1 vagy 71 (3.23 táblázat) A DVD-Video lemezeken használatos hangkódolási technikák Ami az elõzõ táblázatban számunkra ismeretlen elnevezés lehet, az a LPCM (Linear Pulse Code Modulation). Ez a PCM kódolásnak egyik speciálisan szélessávú hang tárolására tovább fejlesztett változata. A többi eljáráshoz (AC-3, MPEG) képest tömörítetlen formában és veszteségmentesen tárolja az audioadatok. Az DVD-audio specifikáció esetében csak annyival bõvül ki az opcionálisan választható hangrögzítési módszerek sora, hogy míg a Video alkalmazásoknál a maximális audiojelátviteli sebességet 6.144 Mbit/sec-ban állapították meg, – mivel a teljes adatátviteli értéken közösen

kell osztoznia a video és az audio információknak, – addig a zenei lemezeknél ezt a határértéket már 9.6 Mbit/sec-nál húzták meg Ez a határérték nem a DVD meghajtók és lemezek maximális adatátviteli sebességét jellemzi, hanem inkább a jelenlegi jelerõsítõk és analóg jelátalakítók kapacitását hivatott felmérni. Maga a 3456 Mbit/sec-nyi különbség lényegében a DVD-audio lemezeknél csak az LPCM tárolási lehetõségeknek a körét tágítja ki. Például az egy oldalas egy rétegû DVD lemezre akár olyan csúcs minõségû 74 percnyi sztereo hang is rögzíthetõ, ami 192 kHz-es, 24 bites paraméterekkel rendelkezik. Továbbá bõvítették a választható mintavételezési tartományokat is. Jelenleg a 441, 48, 882, 96, 1764 és 192 kHz-es frekvenciaértékek az elfogadottak. A AC-3 és az MPEG eljárásokról részletesebben a késõbbiekben ejtek szót A DVD video és audio lemezeken lévõ adatok lopásvédelme: 64 Digitális

jelfolyam tárolása A DVD lemezeken rögzített mozgókép és zenei adatok illegális másolásának megakadályozására az alkotók több lépcsõs védelmi rendszert hoztak létre. Sõt a világot felosztották 6 régióra: 1. Kanada, USA; 2 Japán, Európa, Dél-Afrika, Közel-Kelet; 3 Délkelet-Ázsia, Kelet-Ázsia (Hongkong is); 4. Ausztrália, Új-Zéland, csendes-óceáni szigetek, Közép-Amerika, Dél-Amerika; 5. a volt Szovjetunió területe, az indiai szubkontinens, Észak-Korea, Mongólia; 6. Kína A régiókódokkal az volt a filmipar elsõdleges célja, hogy ne fordulhasson elõ olyan eset, például; mikor Európában játszanak egy filmet a mozik, de az Észak-Amerikai kontinensen már megjelenik a kereskedelmi forgalomban az a filmfelvétel, akkor illegálisan ne kerülhessen át más régiókba (Európába) a felvétel. Szerencsére a régiós kódok használata csak a mozgóképekre engedélyezett és a világ zeneiparát jelenleg még ilyen korlátok nem

fenyegetik. A régiós felosztáson kívül még négy féle illegális másolás elleni védelmet használnak a DVD-ROM lemezeknél: APS (Analog Protection Scheme); az analóg másolás megelõzésére minden lejátszót elláttak egy Macrovision 7.0 vagy ahhoz hasonló áramkörrel, amely megvalósítja az APS rendszert. Ez megtalálható minden számítógépes videokártyán, amelyik képes kompozit vagy s-videojel kiadására. Ezekre a jelekre az APS színcsíkokat tesz a függõleges jelbe, ami megzavarja a szinkronizációt és a kereskedelmi forgalomban kapható videomagnók 95%-ban meglévõ automatikus felvételi szintbeállítást. Az APS-t a korong tudja be- és kikapcsolni, tehát a filmjogok tulajdonosa megteheti, hogy csak egyes jelenetek másolását akadályoztatja meg a lejátszóval. Ez azért érdekes, mert a másolásvédelmet szolgáló jel idõnként a vetítéskor is zavart okoz. CGMS (Copy Generation Management System); Ez a rendszer az SCMS

továbbfejlesztésébõl született, ezért hasonlóan az SCMS-hez megakadályozza a másolat továbbmásolását. Mûködését tekintve minden korong rendelkezik egy kóddal, ami azt jelzi, hogy a tartalmát szabad-e másolni. Ezt a CGMS-információt a lejátszó belekódolja a kiadott videojelbe és audiojelbe, azt pedig a rögzítõ berendezésnek kell értelmeznie. Természetesen a mesterpéldányon elhelyezett generációs kódokat már megváltoztatva rögzítik a másolatra a felvevõ egységek. CSS (Content Scrambling System); A tökéletes digitális másolattól való félelmükben ezeknél a kódoknál erõsebb védelmi lehetõségeket is a kierõszakoltak a filmgyárak és lemezkiadó cégek. A tartalomhabaró (CSS) eljárás azt hivatott megakadályozni, hogy a lemez tartalmát adatállományként kiolvasva, a lejátszórendszer közremûködését 65 Digitális jelfolyam tárolása megkerülve alakítsák át videojellé vagy audiojellé. A teljes adattartalom

rejtjelezve kerül a korongra, és csak lejátszáskor egy visszafejtõ áramkör nyeri ki az eredeti, lejátszható információt. A számítógépbe szerelt egységeknél szintén hasonlóképpen oldották meg a védelmet, mert minden DVD-játszó rendelkezik egy vezérlõ kártyával, ami végzi a visszafejtést és ha szükséges magának a tömörített adatoknak a kicsomagolását is (MPEG és AC-3 esetén). Mindez bonyolult kiegészítõ hardvert igényel a lejátszókban, kizárólag azért, hogy ne lehessen digitálisan tovább másolni a filmet. Természetesen ennek költségeit is a felhasználókkal fizettetik meg CPS (Copy Protecting System); Ennek az eljárásnak az a célja, hogy a különféle digitális berendezések, részegységek között létre lehessen hozni a tökéletes digitális kapcsolatot az illegális másolás veszélye nélkül. A CPS a CGMS rendszer egy további kibõvítése. Itt már gondoltak a Digitális televíziókra is Lényegében a rendszernek

különbséget kell tennie a digitális csatlakozáson keresztül a megjelenítõ és másoló berendezések között. Tehát ha egy DVD-játszót összekapcsolnak egy digitális tévékészülékkel, azok kulcsokat cserélve kialakítanak egymás között egy biztonságos, rejtjelezett adatcsatornát, és ezen keresztül jut el az adat a digitális tévébe. Például olyan digitális rögzítõeszköz, mint a DVD író csak olyan anyagot rögzíthet a nyers korongra, amelyen nincs rajta a sosem másolható jelzés, vagy át fogja változtatni ilyenre az „egyszer másolható" kódot, mielõtt egyáltalán felírna bármilyen tartalmú információt a korongra. SACD jellemzõi: A szuper audio kompakt diszk létrehozásával a Sony és a Philips cégek fõ törekvése egy olyan nagy kapacitású audio lemez megalkotása volt, amire rögzíthetõ több csatornás (nem csak sztereo) csúcs minõségû zene és még a régi CD-DA meghajtókon is lejátszható maradjon. A fizikai

megvalósíthatóság szempontjából az SACD-nél ezeket a tulajdonságokat úgy tudták elérni, hogy a DVD lemezek mintájára a korongon olyan két adathordozó réteget alakítottak ki, ahol az egyik rétegen a Kompakt diszkével, a másikon pedig a DVD-vel megegyezõ pit-struktúrát hoztak létre (3.25 ábra) Ezt a fizikai formát hybrid elnevezéssel illették. A hybrid koronggal együtt összesen három lemeztípust definiáltak, amik kapacitását a 3.24 táblázat tartalmazza 1HD rétegû lemez 1CD+1HD rétegû (Hybrid) lemez 2HD rétegû lemez 4.7 Gbyte 780 Mbyte + 4.7 Gbyte (3.24 táblázat) SACD lemeztípusok 66 9 Gbyte Digitális jelfolyam tárolása Az elõzõ táblázatban megfigyelhetõ, hogy míg a szimpla rétegû lemeztípus csak egy nagy adatsûrûségû (HD – High Density) réteget tartalmaz, addig a 2HD típusú lemezeknél mindkét adathordozó réteget nagy sûrûségû pit-struktúrával látták el. Mint az a 326 ábrán látható, a Hybrid korong

két 0,6 mm vastagságú lemezbõl áll. A lemezeket fröccsöntéssel polykarbonátból készítik. A felsõ réteg tulajdonképp egy vékony CD réteg, mely csupán csak vastagságában tér el a Reed Book-ban foglaltaktól, annak éppen fele. A korong felsõ oldalában találhatók a pit-ek, a pit-ek felett a tükrözõ réteg, a védõlakk, majd legfelül a címke. Az alsó nagykapacitású rétegnél a finom pit-struktúra szintén a korong felsõ oldalán helyezkedik el. A pit-ekre aranyosan csillogó féligáteresztõ tükrözõ réteget visznek fel, majd a két réteget egymáshoz ragasztják. (3.25 ábra) Hybrid lemezek szerkezete (3.26 ábra) Hybrid lemezek metszeti képe A dielektromos tulajdonságú féligátersztõ réteg visszaverõ-képessége (transzparencia) hullámhosszfüggõ. A CD-játszó 780 nm-es lézersugara számára majdnem tökéletesen áttetszõ, így nem befolyásolja a felsõ CD réteg letapogatását. A nagykapacitású réteg letapogatásához

használt 650 nm hullámhosszúságú lézersugár viszont részben visszaverõdik róla, biztosítva ezzel a lejátszhatóságot. Mivel a dielektromos réteg 100%os fényáteresztését nem lehet biztosítani, a CD réteg tükrözõ rétegeként alumínium helyett – az alumíniumnál nagyobb fokú visszaverõdést biztosító – aranyat, ezüstöt vagy rezet gõzölnek fel. A két lemezfél egymáshoz ragasztására UV fényre kötõ lakkal történik hasonlóan, mint a két rétegû DVD korongoknál. Az SACD lemezek mind fizikális paramétereit, mind adatszerkezeti ajánlásait a Sony és a Philips cég a „Scarlet Book” szabványkönyvben fektette le. A HD rétegen alapvetõen 1 bites, 2.8224 Mhz-es mintavételezésû, 5 vagy 51 vagy 6 csatornás DSD adatfolyam tárolását tûzték ki célul, de a szabvány leírás lehetõséget ad arra is, hogy több bites (16,20,24) PCM kódolású jelfolyamok szintén rögzíthetõk legyenek a nagy kapacitású rétegen, méghozzá olyan

tetszõlegesen választható tömörített formában, mint 67 Digitális jelfolyam tárolása MPEG vagy AC-3. Viszont felvetõdik a kérdés a DSD kódolású hang rögzítésével kapcsolatban, hogy ha kiszámoljuk, mennyi minimális tárolókapacitást igényel egy 74 percnyi, 6 csatornás DSD hangfelvétel, akkor hogyan férhet fel egy 8.7 Gbyte-os adatállomány a csak 4.7 Gbyte terjedelmû rétegre: A probléma leküzdése érdekében a Philips mérnökei kifejlesztettek egy DST (Direct Stream Transfer)-nek nevezett veszteségmentes adatredukciós kódoló eljárást. A DST segítségével a hangállományok kapacitásigénye a felére csökkenthetõ és itt nem jön létre adatvesztés, szemben az MPEG és az AC-3 hangtömörítõ eljárásokkal, ezáltal közvetlen hangminõség romlás se lép fel. Továbbá a Scarlet szabványspecifikáció lehetõvé teszi, hogy az új hanghordozóra ne csak zenei információ, hanem olyan más egyéb audio anyagokhoz kapcsolódó adatok

is rögzíthetõk legyenek, mint például szöveges állományok, vagy akár MPEG kódolású mozgóképek is. Az SACD-t szabványosító cégek okulva a DVD lemezek adatbiztonsági rendszerének bukásán, már különösen odafigyeltek a lemezek illegális másolásának védelmére. Ezért a szuper audio lemezeknél ezt a feladatot egy igen újnak számító megoldással, a digitális vízjellel (Digital Watermarking) oldották meg. Ennek lényege, hogy a nagykapacitású réteg üveg-masterének vágásakor a vágólézer teljesítményének változtatásával modulálják a pitek szélességét. Az SACD fogadására alkalmas hibrid lejátszókba pedig egy speciális pit-szélesség figyelõ úgy nevezett PSP (Pit Signal Processing) elektronikát építenek be, mely megakadályozza az illegálisan készített lemezek lejátszását. Érdekessége az eljárásnak, hogy a pit-ek szélességét ciklikusan változtatva látható ábrákat, feliratokat tudnak létrehozni a lemez

lézersugár felöli oldalán, vagyis hagyományos értelemben vett, vizuálisan is ellenõrizhetõ vízjelet készíthetnek. Persze logikusan következik az a tény, hogy ezzel az eljárással csak a HD rétegen elhelyezkedõ adatokat tudják megvédeni az illegális másolástól, mert a hagyományos CD-DA lejátszók nem rendelkeznek PSP elektronikával, ha pedig a 44.1 kHz-es, sztereo zene információkat is így próbálnák védeni, akkor elveszítené a hybrid lemez a kompatibilitását a Kompakt diszk rendszerek felé. 68 Hanganyagok visszajátszása Hanganyagok visszajátszása Az elõzõekben megismertük, hogy miként lehet az akusztikus hanghullámokat digitális jelfolyammá átalakítani, és majd az ezekbõl képzett digitális adatállományok hogyan tárolhatók, illetve rögzíthetõk. Most a következõkben megnézzük, milyen eljárások és eszközök, berendezések szükségesek ahhoz, hogy a már rögzített digitális adatainkat visszajátszva, azokat

újból hanghullámok formájában megszólaltathassuk. Lényegében a mûvelethez ugyan azt az utat kell bejárnunk csak pont fordítva ahhoz, mint mikor a hangenergiát átalakítottuk elektromos energiává, majd az így kapott analóg elektromos jeleket digitális jelsorozattá. Digital – Analóg konverzió Elsõ lépésben vizsgáljuk meg, az A/D konverterekkel létrehozott digitális jelsorozatok visszaalakítását elektromos jelingadozássá. Ezt a folyamatot az úgynevezett – a ADC jelfeldolgozó elektronikával ellentétes mûködésû – DAC (Digital Analog Converter)-ek végzik. Elhamarkodott lenne azt gondolnunk, hogy a jel visszaalakítása sokkal egyszerûbb feladat, azért mert nem kell foglalkoznunk a minták gyakoriságának és a kvantálási hossznak a megválasztásával. Sajnos a D/A konverzió által visszaalakított jelben olyan spektrális összetevõk is elõfordulhatnak, amelyet az eredeti analóg jel még nem tartalmazott. Ezeknek a nem kívánatos

összetevõknek a kiküszöbölése céljából a jelet rávezetik egy aluláteresztõ szûrõre. Fontos a szûrõ határfrekvenciájának jó megválasztása. A hangfrekvenciás alkalmazásoknál használt D/A konverterek alapfelépítettségüket tekintve, több bináris súlyozású referenciafeszültségbõl állnak, miket sorba kötve mûködtetnek. A szemléltetés kedvéért a 41 ábra egy hárombites DAC szerkezeti vázlatát mutatja. A digitális bemenet bitjei egy-egy ilyen referenciafeszültség forrást kapcsolnak be a hálózatba, ha az adott bit 1 értékû, illetve kapcsolnak ki a hálózatból, ha az adott bit 0 értékû. A feszültség értékek súlyozása a bináris kód súlyozásának felel meg (LSB jelenti a legalacsonyabb helyi értékû bitet, míg az MSB a legmagasabb helyi értékût). Így az adott feszültségek összeadódnak, és a kimeneti feszültségek a bekapcsolt források feszültségének összege lesz. A mai D/A konverterek többsége,

hasonlóan a korszerû ADC átalakítókhoz szintén (Σ∆) szigma-delta modulációt és több lépcsõs interpolációs algoritmusokat alkalmaznak az eredeti analóg jel 69 Hanganyagok visszajátszása rekonstrukciójánál. Túlmintavételezési (oversampling) eljárásoknál pedig, akár a 128× és a 256× értékek sem számítanak ritkaságnak. (4.1 ábra) Hárombites D/A konverter szerkezeti vázlata Egy hangtechnikai rendszernél, ami leszûkítve általánosságban egy lejátszó egységbõl, egy jelerõsítõ berendezésbõl és végül több hangsugárzó eszközbõl (hangfalakból) épül fel, a D/A konverterek a rendszer bármelyik egységében elhelyezhetõek, nincs megkötés. Sõt a gyártók, azért hogy termékük rugalmasan minél több különbözõ típusú rendszerbe becsatlakoztatható legyen, a digitális adattovábbítási lehetõségeken kívül, még pluszban DAC jelátalakítóval és analóg kimenetekkel is ellátják. Manapság már olyan

megoldások is születtek, ahol a D/A konvertereket közvetlenül az aktív hangfalakban helyezték el. Hangkártyák és a számítógépes hang történetének rövid áttekintése A számítógépekben általában mind a ADC, mind a DAC egységeket a hangkártyákon szokás elhelyezni. Nem mindig volt ez így, és talán nem is lesz így a jövõben sem De mielõtt mindjárt végére szaladnánk a történetnek, nézzük meg az elõzményeket. A válasz hogy miért nem volt D/A átalakító a legelsõ hangkártyákon; mert mikor egyáltalán megjelent a számítógépeken a „gépi zenélés” tudománya, akkoriban még a kártyák a hangokat csak kezdeti analóg szintetizálási módszerekkel tudták elõállítani és még nem voltak képesek mintavételezési és kvantálási feladatok ellátására. A pontosság kedvéért még érdemes megjegyeznünk, hogy a PC kompatibilis gépek szinte a kezdetektõl fogva rendelkeztek egy speaker nevezetû hanggenerátorral. Ennek a

hangminõsége nem is érdemes méltatni, hiszen a tervezõknek alapvetõ célja a speaker-rel csak az volt, hogy a gép bizonyos hangjelzéseket (csipogás) tudjon közvetíteni a felhasználó felé. 1982-ben megjelenõ Commodore cég 64-es modellje a 6581 SID hangchipjével, mai füllel meghallgatva elég kezdetleges gépies hangzásra volt csak képes, mégis már zenére emlékeztetõ akusztikájával örökre belopta magát a C64-es felhasználók népes 70 Hanganyagok visszajátszása táborának szívébe. A C64-es nosztalgia kultuszhoz kialakulásához vitathatatlanul a gép zenéje járult hozzá talán a legtöbbet. 1985-ben a számítógép felhasználók körét újból mély döbbenet rázta meg, mikor meghallották a Commodore cég gondozásában megjelenõ AMIGA termékcsalád elsõ tagjának, az 1000-es modellnek a sztereo hangját. A döbbenetért egy Paula nevezetû hangchip volt a felelõs. Jócskán köszönhetõ ez a cég fejlesztõ mérnökeinek is, kik

egyetlen integrált lapkán helyezték el a 4 darab, egymástól független, 8 bites D/A konvertert. Az is bizonyítja az AMIGA-ának kezdetben kiemelkedõ hangtulajdonságait, hogy a késõbbi modelleknél egészen a cég bukásáig, – közel 10 éven keresztül – semmit sem változtattak a hangchipen. Az utolsóknak számító 1200 és 4000 modelleknél ez már inkább hátrányt, mint elõnyt jelentett a piaci versenyben. Tehát nagyban közrejátszhatott az a tény is a Commodore cég és az AMIGA hanyatlásában, hogy a hangtechnikában szerzett elõnyeiket hagyták könnyelmûen elúszni. 1987-ben látott napvilágot szinte az elsõ PC-s hangkártyák között az SSI 2001 az ICC (Innovation Computer Corporation) termékeként. A kártyán pedig a kissé már idejét múlt 6581 SID chip szolgáltatta a hangot. Az SSI 2001 példája is jól mutatja, hogy a PC kompatíbilis számítógépek még csak akkoriban kezdték megtenni elsõ „gyámoltalan” lépéseiket a zenélés

tudománya felé. 1988-ban a Creativ Labs cég, mely manapság szinte egyeduralkodó a hangkártyák piacán kihozta legelsõ hangkártyáját Game Blaster elnevezéssel. A kártyán lévõ két CMS-301-es hangchip által generált hang a rossz nyelvek szerint hozzávetõlegesen úgy szólt, mint tizenegy speaker egyszerre. A cégnek ez a típus hangkártyája nem igazán vált népszerûvé, nem úgy, mint a késõbbiek során megjelenõ újabb termékei. Még ugyan ebben az évben jelent meg a hangkártyák piacán az AdLib. Szintetizálás szempontjából a Yamaha OPL2 chipnek köszönhetõen, több mint elfogadható hangzást tudott produkált. A Creativ Labs a kártya sikerét elirigyelve hamarosan megjelentette saját, szintén erre a hangchipre épülõ konstrukcióját, Sound Blaster elnevezéssel, amely napjaink egyik legismertebb kártyacsaládjának elsõ terméke volt. 1989-ben látott napvilágot az elsõ olyan PC-s hangkártya, mely már tartalmazott D/A átalakítót. Ez

a Covox cég Sound Master elnevezésû terméke tulajdonképp nem is volt más, mint egy a párhuzamos porton keresztül kommunikáló 8 bites DAC jelátalakító egység. Kicsiny szoftver támogatottsága miatt lassan a süllyesztõbe került 71 Hanganyagok visszajátszása 1991-ben a Gravis Ultrasound (GUS), Gravis GF1 hangchip-jével olyan régi álma teljesülhetett a felhasználóknak, amire már a CD lemezek megjelenése óta vágytak, pontosabban hogy a hangkártyák elérjék a CD minõségû hangzást. Köszönhetõ ez a GF1-es chip-ben helyet foglaló max. 48 kHz-es mintavételezésre és 16 bites kvantálási hosszra képes 2 darab D/A konverternek. Ez a kártya nevezhetõ a fordulópontnak a PC számítógépek hangtudása és más konkurens gépek hangbeli képességei között. A GUS hangkártya csak tetõzése volt egy olyan folyamatnak, amivel végképp minden tekintetben megelõzték a PC kompatibilis gépek a régi vetélytársaikat. A Creativ Labs nem ijedt meg

túlzottan a GUS sikerétõl, hiszen a piac jókora hányadát akkor már a közben szinte szabvánnyá lett Sound Blaster termékcsalád uralta. Válasza a Sound Blaster 16-os elnevezésû hangkártya volt, melynek CT 17x0 hangchipje már szintén rendelkezett 16 bites DAC-al és sztereo hangkimenettel. 1992-ben meg egy utolsó elkeseredett hangzásbeli támadás érte a PC számítógépek trendjét, melyet az ATARI cég Falcon fantázia nevû modelljével intézett. A gép képes volt nem csak sztereo, 44.1 kHz-es, 16 bites hang megszólaltatására, hanem ugyan ebben a minõségben digitalizálni is tudott. Ami akkoriban még a PC-s hangkártyák körében is elég ritka dolognak számított. 1992-1998-ig sorra jelentek meg különbözõ cégek gondozásában Sound Blaster kompatibilis hangkártyák és a Creativ Labs is számos újabb kártyatípust hozott ki, de ezek hangzásbeli tudásukban kisebb-nagyobb eltérésekkel, szinte azonos jellemzõkkel rendelkeztek. Az újabb

hangkártyáknak idõközben inkább csak illesztési és egyéb más tulajdonságait fejlesztették. Míg 1998 szeptemberében ki más, ha nem a Creativ Labs egy forradalmian új hangzást produkálni tudó kártyával lepte meg a felhasználókat. A CT 46x0 hangchipnek köszönhetõen nem csak sztereo-ban élvezhetjük személyi számítógépünk hangját, hanem úgynevezett kvadrofónikus térben. (A késõbbiekben errõl még részletesebben lesz szó ) Az 1999-es évektõl már a gyakorlatban is megfigyelhetõ azaz új technikai elgondolás, miszerint a D/A átalakítást, ha lehet minél késõbb végzik el a digitális adatfolyamon. A konverziót mielõtt még az adatokat elektromos jelingadozás formájában a hangsugárzókra küldenénk ki, mindenképp szükséges végrehajtani. Célszerûség szempontjából, azért hasznos várni a legutolsó lehetõségig a Digital Analóg átalakítással, mert hiszen a digitális jelekhez képest az analóg jeleket

továbbítása sokkal 72 Hanganyagok visszajátszása problematikusabb feladat és fennáll annak is a veszélye, hogy minél több berendezésen és minél hosszabb elektromos vezetõn (kábelon) jut el a rendeltetési helyére (a hangszórókba) a jel, annál több zavar és torzítás kerülhet bele magába a megszólaltatni kívánt hangba. Manapság mind az audiotechnikában, mind a számítástechnikában az elfogadott irányzat az, hogy a D/A konverziót a különbözõ típusú és szabványú jelerõsítõkre bízzák és a lejátszó berendezésekbõl digitális kimeneteken távozik a jel. Nem csak hogy nem léphet fel minõségromlás az adattovábbítás során, hanem eddig ahány csatornás hangot kellett továbbítani, közel annyi szál elektromos kábelre volt szükség. Most az egy vezetõpáron továbbítható maximális hangcsatornák számát, csak a folyamatos zenelejátszáshoz szükséges minimális adatsebesség, a kábel maximális jelsebesség és egy

csatorna átviteléhez szükséges adatmennyiség határozza meg. A filmforgalmazó és zenekiadó cégek, mint az elõzõekben már megemlítésre került, félvén az illegálisan készíthetõ tökéletes digitális másolatoktól, – amit a lejátszó és felvevõ egységek közötti digitális adattovábbítás segítségével tudnának létrehozni –, hogy inkább megvárták egy olyan biztonságos továbbítási protokoll (csatlakozási rendszer) megjelenését a piacon, ami garantálja a cégek számára adataik teljes körû védelmet. A probléma megoldására sok cégnek számos megoldása született, de széleskörû támogatottságra csak a S/PDIF (Sony/Philips Digital Interchange Format) elnevezésû digitális adattovábbítási rendszere talált. Manapság forgalomban kerülõ hangkártyák közül már egyre többet látnak el ilyen digitális hangbemenettel és kimenettel. Felmerül a kérdés, ha a jövõben a hangkártyák nem végez D/A konverziót, akkor nem is

befolyásolhatják a hang minõségét, ezáltal mi különbség lesz a különbözõ gyártók különbözõ hangkártyáinak hangképzésében. A válasz semmi, hiszen magát a konverziót a jelerõsítõ berendezések fogják végezni, tehát a hangnak a fizikális jellegére csak az erõsítõk és a hangszórók lesznek befolyással. Lehet, hogy a hangkártya gyártó cégek idõvel csak szoftverkeretet fognak biztosítani az S/PDIF csatlakozás kezelésére. Ez sem tudható pontosan elõre, mivel még jelenleg is kialakulóban vannak azok a tényleges adatstruktúra szabványok, amik alapján majd értelmezni fogják a lejátszó és megjelenítõ eszközök egymás adatait az S/PDIF által kialakított digitális kommunikációs csatornákon keresztül. Sõt ha messzemenõ következtetéseket próbálnánk levonni, akkor minden bizonnyal, mint a speaker valószínûleg ez is az alaplapra (motherboard, mainboard) fog kerül általános csatlakozásként. A hangkártyák

megszûnni ugyan biztosan nem fognak, csak feladatkörük alakul át. A jövõben 73 lehetséges, hogy csak speciálisan Hanganyagok visszajátszása zenekomponálási (hangszintetizálási) vagy kódolási/dekódolási mûveletekre fogják alkalmazni. Mivel viszont ezek a folyamatok csak manapság indultak el, ezért a további találgatásoknak semmi értelmük nem lenne. Mesterséges hangtér létrehozása Utolsó lépésként nézzük meg miként alakítható át az elektromos energia hangenergiává. Ennek legfontosabb eszközei a hangszórók. A mikrofonokhoz hasonlóan a hangszórók is különféle kivitelben készülnek. A hangsugárzóknak két alapvetõ típusa létezik az elektroakusztikus és az elektrodinamikus. A kettõ típus közötti alapvetõ különbségekrõl a hangrögzítés kapcsán már esett szó. Manapság a legnagyobb példányszámban a dinamikus hangszórók vannak jelen a piacon. Ezek általános szerkezeti felépítését a 42 ábrán

látható. Az állandó mágneses mágneskör légrésében található a lengõcséve, ami a kúpos membránhoz csatlakozik. A membrán tengelyirányú mozgását a külsõ és a belsõ megfogások (rim, pille) biztosítják. A mágneskörhöz rögzített kosár tartja a rimet, és a hajlékony tekercskivezetések is a kosáron végzõdnek. A kivezetéseken a tekercsbe áramot bocsátunk. Az áram és a mágnestér kölcsönhatásaként tengelyirányú erõ keletkezik. Az erõ mozgásba hozza a nagy felületû membránt és ezáltal hanghullámokat kelt. (4.2 ábra) Dinamikus hangszóró általános metszeti képe 74 Hanganyagok visszajátszása Az elsõ idõkben még csak elektroakusztikus eszközöket használtak hangkeltésre, ahol a mágneses teret elektromos úton egy tekercs által gerjesztették. Ennek több oka is volt, az elsõ, hogy nem tudtak elég erõs mágneseket készíteni, viszont a tekercsre adott áram, illetve feszültség nagyságával tudták az indukció

nagyságát befolyásolni. A másik ok, kisebb rafinációt rejt magában, mivel a tekercseket többé-kevésbé csak szûretlen egyenfeszültséggel tudták ellátni, ami egyrészrõl természetesen minõségromlást okozott, másrészrõl viszont ugyan ezen okból kifolyólag némi teljesítményre többletet is eredményezett. Ma már mindez a múlté, hiszen porkohászati úton olyan erõsségû mágnest készítenek, amilyet akarnak. A lényeg nem más, mint hogy a lengõtekercs légrésében pont akkora mágneses fluxus álljon rendelkezésre, amekkorára a lengõtekercsnek szüksége van ahhoz, hogy a lehetõ leglineárisabb mozgást végezze. Hogy ezt mekkora útvonalon teszi, a lesugárzott hangtartománytól függ. Pontosabban minél mélyebb a hang, annál nagyobb a lökete. Viszont felmerült az a gyakorlati probléma, hogy nem létezik olyan rugalmas anyag és kialakítási forma, ami akár az emberi fül teljes hallás tartományát képezõ összes hangfrekvenciát

optimálisan vissza tudná adni. Ennek leküzdésére 1936-ban az amerikai Bell telefontársaság mérnökei azt a megoldást találták ki, hogy a hang rezgésszámától függõen különbözõ tartományokban más-más hangszórókat alkalmaznak. Azt a berendezést pedig, mely a frekvencia alapján kiválasztja (szétbontja a hangokat), frekvenciavÆlt elnevezéssel illették. Napjainkban a 4 részre történõ felbontás a legelterjedtebb, ezért alapvetõen magas, közép, mély és extra mély (subwoofer) elnevezésû hangsugárzó csoportok különböztetünk meg egymástól. Visszakanyarodva a kezdetekhez, amíg fel nem találták a lágy felfüggesztésû hangszórókat, a membrán felfüggesztés is abból az anyagból készült, mint a membrán, vagyis többnyire papírból. Hogy a lehetõségekhez képest mégis rugalmas legyen, ezt úgy érték el, hogy harmonikaszerûen megredõzték, úgy, mint a központosító rúgót. Ez utóbbi szerepérõl csak annyit, ez a

rúgó hivatott vissza húzni a helyére a membránt, valamilyen kiinduló helyzetet teremtve közben és természetesen – nevébõl eredõen – a légrés közepén tartani a lengõcsévét, nem jobbra, nem balra, nem 20°-ra az epicentrumtól. A lágy felfüggesztésû membrán peremek az utóbbi idõk trendje szerint, készülhetnek gumiból, mûgumiból, gumírozott vászonból, habosított gumiból. Ez utóbbival készített mélysugárzók pereme egy idõ után elporlad, ezzel jelezvén, hogy erre a célra nem ez az igazán jó anyag. 75 Hanganyagok visszajátszása Mind a mai napig a legtöbb kísérleten maga a membrán ment át. Pontosabban az õ anyaga, mert neki kell a legkülönbözõbb feltételeket teljesítenie: Elsõként kellõen könnyûnek kell lennie, másodsorban viszont nem szabad, hogy önálló úgynevezett parciális rezgései legyenek. Azaz, nem engedhetõ meg a membrán részfelületeinek önálló élete. Márpedig az egyik legáltalánosabban

használt anyag a papír, erre sajnos hajlamos. Ezeket próbálják megakadályozni a kónusz exponenciális préselésével (nawimembrán), impregnálással, rétegezéssel, stb Az impregnálás egyébként sem árt, mivel a papír hajlamos a levegõ nedvesség tartalmát magába szívni. Készült membrán polipropilénbõl, bextrénbõl (polisztrén-neoprén keveréke), – kevlárból, carbon-fiberbõl – azaz szénszálas erõsítésû anyagból, selyembõl, titánfilmbõl, kerámiából és az utóbbi idõkben alumíniumból. Egyes anyagminõségek a hangnak más-más frekvencia tartományokban különféleképpen reagálnak, ezért általában a basszus tartományra és középsávra többnyire kónuszos hangszórókat terveznek, a magashangok és esetleg a középtartomány lesugárzására úgynevezett dóm sugárzókat használnak. Az eddig felsorolt részegységeken kívül már csak a lengõcséve maradt, ami a hang minõségére közvetlen befolyással bírhat. Itt a fõ

problémát az okozhatja, hogy milyen keresztmetszetû drótot, milyen hosszan kell feltekerni a cséve testre. Mert ugyanis ha vékony a drót, akkor nagyobb teljesítményt nem bír el, ha vastag, akkor meg sok kell belõle a középarányos ellenállás eléréséhez. Majd, ott van még a tekercs hossza, ha rövidebb a kelleténél, akkor bizony kiszalad a légrésnek azon tartományából, ahol még lineárisak az erõvonalak, ha meg hosszabb, az igaz hogy egy része mindig bent marad a résben, de akkor könnyebben nekiütõdhet valahol, például az „alagút” falának. Ennek a „jut is, marad is” filozófiának az lett az eredménye, hogy noha az áram a teljes tekercsen átfolyik, a tekercs nagy része éppen kinn van a lyukból, és nem vesz részt a munkában. Emiatt cserébe sajnos leromlik a hangszóró érzékenysége. A Telefunken cég viszont a kompromisszumok csökkentése érdekében kifejlesztett egy olyan „mágneses száraz folyadék” jellegû anyagot,

amely egészen meglepõ tulajdonságokkal rendelkezik. A megalkotói a magnetofluid elnevezéssel illették A mûanyag alapú (diészterbázisú), kolloid vasat tartalmazó anyag a mágneskör légrését tölti ki. Ily módon rugalmas mágneses résben, egyfajta kompakt folyadékpárna alakul ki, nem szakad meg a mágneskör, mivel a magnetofluid 200-as permeabilitási tényezõvel rendelkezik. Maga a mágneses folyadék 10 nm átmérõjû ferritszemcsékbõl áll, amelyet egy rendkívül vékony (monomolekuláris) mûanyag burkolat takar, az eredõ átmérõ 12.5 76 Hanganyagok visszajátszása nm. A folyadék áldásos tevékenysége folytán megszûnik a lengõcséve támolygó mozgása, hûti a lengõtekercset, hatásosan csillapítja a rezonancia frekvencia környéki impedancia menetet. A hangsugárzó részegységeibõl egyetlen egy fontos dolog még a végére maradt, mégpedig maga a hangszórókosár és annak az anyagválasztása. Látszólag ugyan a kosár egy szimpla

egyszerû alkatrésznek tûnik, de a valóságban ettõl némi eltérést tapasztaltak: Elõállítás szempontjából a kosarat nem öntik – mint általában, pl. alumíniumból –, hanem vékony lemezbõl húzzák vagy robbantják Viszont a lemez változatnak alig-alig van tartása és hajlamos a rezonanciára, különösen, hogy hátul ott himbálódzik rajta a jóval nagyobb tömegû mágnes. Azért hogy valamelyest stabilabbá tegyék, hátul csak egészen kis ablakokat vágnak rajta, miáltal üreg képzõdik a membrán mögött és most õ fog rezonálni. Mi több, a kosáron most kevesebb lett a kijárat, mint a bejárat; így a levegõ csak elõrefele tud könnyedén távozni, hátrafelé már úgymond „tülekednie” kellene. A dinamikus és az akusztikus hangszórók mellett léteznek még olyan extrémnek nevezhetõ megoldások is, mint például Walsh, Air Motion Transformer, pulzáló gömb és kondenzátor hangsugárzók. Részletesebben ezekre nem kívánok

kitérni Még egy dologról azonban szólni kell. Nevezetesen azokról a paraméterekrõl, amelyek az alapját adják a modern hangdoboz tervezésnek. Két ausztrál mérnök, Neville Thiele és Richard Small, a 60-as és 70-es években megalkottak egy paramétersort, amelyek segítségével matematikailag modellezhetõ illetve számolható mindenfajta hangdoboz típus. Sõt, ma ezek a számítások képezik az alapján, olyan bonyolult számítógépes modellezõ programoknak, melyeket egy új hangsugárzó tervezésekor szoktak használni a cégek. Térhatás (surround) keltése: Egy mesterséges hangtér létrehozásánál, csak úgy érhetõ el minél tökéletesebb, realisztikusabb hangzás, ha a hang fizikális jellemzõin kívül, figyelembe vesszük azok geometriai (térbeli) elhelyezkedését is. Már a kezdet kezdetén rájöttek, hogy egy hangszóróval csak úgynevezett mono hangzás érhetõ el, ami nélkülöz bármiféle térérzetet a hallgatók számára. Ezzel a

problémával elõször a 30-as években a Bell laboratórium munkatársai kezdtek el foglalkozni. Felismerték, hogy a mono rendszer egy hangcsatornájával szemben a megoldást mindenképp csak több, a hallgatóhoz viszonyítva különbözõ elhelyezkedésû csatorna és hangsugárzó használata jelentheti. Az maradt csupán kérdéses, hogy milyen geometriai elrendezésben és minimum hány darab szükséges ezen eszközökbõl a 77 Hanganyagok visszajátszása térhatású sztereo hangtér elõállításához. Itt mindjárt érdemes tisztázni egy fogalomzavart, miszerint manapság a térhatású hang megnevezése kapcsán gyakran találkozhatunk azzal az angol nyelvû kifejezéssel, hogy „Surround”. Már pedig ha az angol szó eredeti magyar megfelelõjét nézzük, akkor szó szerinti jelentése „körülölelni”. Ahhoz, hogy pontosabban megérthessük mit is takar a Surround elnevezés és miért vált külön a kezdetben még azonos jelentést hordozó sztereo

hangzás és térhangzás fogalma, elõbb meg kell ismernünk a hangrendszerek fejlõdését, azok kialakulásának fõbb okait a kezdetektõl egészen napjainkig: 1930-as években a Bell laboratóriumban a sztereo (tér) érzet mesterséges elõállítása érdekében eredetileg 3 külön álló hangcsatornával kísérleteztek. 1940-es évektõl a mozik próbálkoztak a sztereo térhatás elérésével. Az elsõ többcsatornás mozifelvételt a Walt Disney stúdiójában készítették egy 35mm szélességû mágnesszalagra, amin 3 optikai hangsávot helyeztek el. 1950-es években a 35mm-es kópiákon már a mágnescsíkos megoldást alkalmazták a 4 csatornás hang rögzítésére. A sztereo hatást a bal, közép, jobb és effekt csatornákkal érték el (4.3 ábra) Az effekt elnevezése a használatából ered, mivel ezt a csatornát olyan alkalmankénti drámai effektusok számára tartották fenn, mint például vallási eposzokban földöntúli hangzások keltésére. E mellett

volt egy 70mm-es szuperszélesvásznú filmszalag is, mely 6 hangcsatorna tárolására szolgáló mágnescsíkokkal volt ellátva. A hangcsatornák (bal, balközép, közép, jobbközép, jobb és effekt) általános elhelyezésüket a 4.4 ábra mutatja (4.3 ábra) 35mm-es mozifilmen rögzített (4.4 ábra) 70mm-es mozifilmen rögzített 4 hangcsatorna általános térbeli helyzete 6 hangcsatorna általános térbeli helyzete 1958-ban adták ki az elsõ sztereo hanglemezt (LP), amelyekre ha annak idején technikailag megoldható lett volna, valószínûleg nem csak két csatornás hangot rögzítettek volna. 78 Hanganyagok visszajátszása 1960-as években az amerikai filmipar átmeneti válságba került. Ennek fõbb okát a mai napig, az akkor megjelenõ televíziózás robbanásszerû elterjedésével magyarázzák. A filmgyárak a mágnescsíkos hang magas költségei miatt, lehagyták a 35mm-es kópiákról, és helyette visszatértek az optikai hangos

mono vagy sztereo filmszalagokhoz. 1961-ben megjelenõ 2 csatornás sztereo FM rádió és mûsorszórás csak megerõsítette azt a nézetet, hogy a térhatás eléréséhez bõven elegendõ két hangcsatorna is. Azaz igazság, hogy a két hangcsatornával csak korlátozott térhatás érhetõ el, hiszen minden hangot magunk elõttünk hallunk, esetleg más-más irányból. További hátránya, hogy a két hangforrás tõlünk mért távolsága között minél nagyobb a különbség, annál jobban csökken a hang térérzete. A hangszórók hangerejének külön szabályzásával ugyan némiképp korrigálható az elõzõ probléma, viszont a különbözõ hangnyomással rendelkezõ hullámok másképp verõdnek vissza zárt térben, mint az azonos hangerõt képviselõ hullámok, ezért csak részben nyújt megoldást. Sztereo fejhallgató használata esetén pedig, olykor úgy érezzük, mint ha közvetlenül a fejünkben szólalnának meg a hangok. Mindezen hátrányok ellenére

a 60-as évektõl sorra jelentek meg a két csatornás hangrendszerre épülõ audio-, majd késõbb videotechnikai berendezések. Például: 1970 Dolby-B audio kazettarendszer, 1972 video kazettarendszer (mono), 1978 sztereo video kazettarendszer és 1986 sztereo televíziós mûsorszórás. Így véglegesen a sztereo fogalma, mint két csatornás hangrendszer vonult be a köztudatba. A 70-es évektõl a filmipar válaszul a televízió népszerûségére. Mind látványban, mind hangzásban többet akart nyújtani a mozilátogatóknak, a TV rendszereknél. Kísérleteket folytattak, hogy az úgynevezett kvadrof nikus hangtér segítségével, a hallgatóknál hogyan érhetõ el a legteljesebb sztereo (tér) érzet keltése. A többféle kvadrofónikus rendszer közül: 1976-ban bemutatott Dolby Sztereo (4 optikai rögzítésû hangcsatornájával; bal, közép, jobb, surround) bizonyult a legéletképesebbnek. A hangsugárzók elrendezése a 4.5 ábrán figyelhetõ meg 79

Hanganyagok visszajátszása (4.5 ábra) Dolby Sztereo hangrendszer 4 csatornájának térbeli helyzete Itt már nem véletlenül surround elnevezést használtak a régebben effekt csatornaként emlegetett hangsávra. Míg a mágnescsíkos szalagoknál csak alkalmanként használták ezt a csatornát, addig a 70-es évekre szerepe némiképp megváltozott. Fõképpen folyamatos háttér zenék és zajok megszólaltatására alkalmazták és a nagyobb térhatást érdekében a surround hangszórókat a nézõk háta mögé helyezték el, innen ered az új általános „surround” elnevezés. Az otthoni audiotechnikában viszont még akkoriban nem ért el átütõ sikert a kvadrofónikus hangzás, mivel a sztereo 2 csatornás rendszerek addigra már annyira egyeduralkodóvá váltak, hogy a felvevõket, lejátszókat és tároló eszközöket gyártó cégeknek, nem volt kedvük beruházni, és a 4 különálló hang fogadására alkalmas újabb berendezéseket kifejleszteniük. A

Dolby sztereo rendszer a késõbbiekben olyan praktikusnak bizonyultak, hogy napjainkban is világszerte több tízezer mozi van felszerelve ilyen típusú berendezésekkel. 1978-ban a Dolby Sztereo Surround (6 optikai rögzítésû csatornájával; bal, bal subwoofer, közép, jobb subwoofer, jobb és surround) rendszerével a cég elérte, hogy a 70mm-es Dolby sztereo mágnesszalagokon a normál 4 hangsávon kívül, további plusz két alacsony frekvenciájú mélynyomó csatorna is elhelyezhetõ legyen. A hangszórók elhelyezkedése szempontjából visszanyúltak az 50-es évek használt 6 csatornás mágnescsíkos hangrendszerekhez (4.4 ábra), azzal a különbséggel, hogy a balközép és jobbközép normál teljes frekvenciás hangszórók helyett már csak két bal és jobb alacsony frekvenciájú (subwoofer) hangsugárzót alkalmaztak. A subwoofer eszközöket kifejezetten 300 Hz alatti hangtartomány megszólaltatására tervezték. Más 80 Hanganyagok visszajátszása

egyéb elnevezések is használatosak a subwoofer-re, mint mélynyomó a magyar szakzsargonban vagy sub-bass az angol nyelvkörnyezetben. 1982-ben megjelenõ Dolby Surround elnevezésû, 3 csatornás (bal, jobb és surround) otthoni térhatású hangrendszerével (4.6 ábra) a Dolby Laboratórium bizonyította, hogy nem nyugodtak bele azon ténybe, miszerint a 70-es évektõl a mozikat sorra meghódító kvadrofónikus hangzás nem tudott utat törni magának az otthoni audiotechnikai berendezések világában. Az, hogy a Dolby cég a kvadrofónikus hangrendszerét még is képes volt elfogadtatni a szinte kizárólag csak sztereo berendezéseket használó fogyasztókkal, nagyban köszönhetõ az új rendszer lefelé kompatíbilis tulajdonságának. Nem kellet tehát lecserélni a régi sztereo video és audio egységeket, mert azok hozzáilleszthetõk voltak az új hangrendszerhez. Technikailag ezt a lefelé kompatibilitást a Dolby úgy tudta megoldani, hogy megvásárolt a CBS-tõl

egy a kvadró rendszer kódolására alkalmas mátrix eljárást. Ezzel a passzív mátrixkódolással a szokásos két hangsávban el tudtak rejteni egy további harmadik surround csatornát is. 1987-ben a Dolby Surround Pro Logic 4 csatornás (bal, jobb, bal surround, jobb surround) otthoni felhasználásra alkalmas hangrendszerének a lelkét egy javított márrix eljárás alkotta. Itt az aktív kódolási algoritmus segítségével a normál két hangsávban már két független surround csatornát tudtak elhelyezni (4.7 ábra) Ezt a Pro Logic kódolási rendszert még manapság is elõszeretettel használják, pont a legnagyobb elõnye miatt, mivel hogy a jeltovábbítás szempontjából megõrizte kompatibilitását a sztereo két csatornás eszközökkel. (4.6 ábra) Dolby Surround hangrendszer (4.7 ábra) Dolby Surround Pro Logic hang- 3 csatornájának térbeli helyzete rendszer 4 csatornájának térbeli helyzete 1987 végén, még ugyan abban az évben mutatkozott be a

mozikban a Dolby SR (Spectral Recording) a Dolby cég elsõ digitális hangrendszere. A 4 optikai rögzítésû 81 Hanganyagok visszajátszása digitális hangcsatornát (bal, közép, jobb és surround) szintén a Dolby Sztereo rendszernél használt elhelyezésben szólaltatták meg (4.5 ábra) Régebben is folytak már kísérletek, arra vonatkozóan, hogy miként lehet digitális hi-fi minõségû több csatornás hangot rögzíteni a mágnesszalagokra. A legfõbb gondot a helyhiány és a leolvasó optika szûkös jelátviteli sebessége jelentette. A Dolby Laboratóriumban ezen problémák kiküszöbölésére kifejlesztettek egy veszteséges digitális hangtömörítõ eljárást, melyet AC (Audio Coder) elnevezéssel illettek. Ennek végül a második generációs változatát (AC-2)-t alkalmazták a Dolby SR hangrendszereknél. Az elsõ generációs verziót eredetileg a DSP chip-ekhez készítették. Az AC-2 tömörítõ algoritmus leginkább a Adaptív transzformációs

kódoló eljárások elvén alapszik. Továbbá az adatredukciós mûveletnél figyelembe veszi az emberi hallás több pszichoakusztikus jellemzõit is. Az eredetileg hangcsatornánként 768 kbit/sec sebességû jeltovábbítást igénylõ 48kHz-es, 16 bites digitális hangnak az AC-2 tömörítésével a minimális átviteli sebesség értéke csatornánként 128 kbit/sec csökkenthetõ. Ez közel 10:1 tömörítési arányt jelent 1992-ben a mozikban megjelenõ Dolby Digital (5.1 optikai rögzítésû csatornájával) tekinthetõ a Dolby SR továbbfejlesztésének is. Növelték a hangcsatornák számát (bal, LFE, közép, jobb, bal surround, jobb surround), megváltoztatták azok térbeli elhelyezését (4.8 ábra) és visszanyúltak a jó öreg effekt csatornához, annyi változtatással, hogy tulajdonságait tekintve a 90-es évekhez igazították. (4.8 ábra) Dolby Digital mozirendszer 51 csatornáinak térbeli helyzete A „.1” jelöléssel is az LFE (Low Frequency

Effects) alacsony frekvenciájú effekt csatorna meglétét hangsúlyozták ki. A Dolby Laboratórium ajánlásaiban fokozottan felhívta rá a felhasználók figyelmét, hogy az LFE nem egyenértékû a subwoofer-ekkel. Kisebb frekvencia tartományával (3Hz - 120Hz-ig) csak az elsõ hangfalakon 82 Hanganyagok visszajátszása megjelenõ bass effektek hangerejét hivatott 5-6 dB-el megemelni a hatás kedvéért. Erre utal az elnevezésében található effekt szó. A másik nagy elõrelépést a Dolby cég az AC tömörítõ eljárás további tökéletesítésével érte el. Elkészítette a kódoló algoritmus harmadik generációs változatát az AC-3 –at. Javítottak az algoritmus pszichoakusztikus modeljén a jobb hangmínõség érdekében, megnövelték a tömörítési arányt 12:1 –re és külön figyelmet fordítottak az LFE csatorna hatékony tömörítésére is. Így a 6 darab hangsáv lejátszásához csak 320 kbit/sec jelátviteli sebesség szükséges. A

rendszernek az otthonokban való elterjedése a kezdet kezdetén ennél is nehezen indult meg. Ennek okai a berendezések relatív drágaságában, de legfõképp a mûsoranyag szûkös voltában keresendõ. A problémát egycsapásra megoldotta az 1996-ben megjelenõ DVD video lemezek feltûnése a videofilmek piacán. Ez olyan lendületet adott a Dolby Digital házi térhatású (4.9 ábra) hangrendszernek, hogy a mai napig is egyre jobban nõ a népszerûsége az otthoni szórakoztató technikai berendezések területén. A késõbb megjelenõ Szuper Audio Kompakt diszk pedig csak tovább növelte a Dolby Digital rendszerek elterjedésének az ütemét. (4.9 ábra) Dolby Digital „házi mozi” rendszer 51 csatornáinak térbeli helyzete 1993-ban látott napvilágot a DTS (Digital Theater Systems) a Dolby Digitál vetélytársaként emlegetett hangrendszer. Még 91-ben Terry Beard és Jim Ketcham a Steven Spielberg nevével fémjelzett Universal Stúdióval együttmûködve

belekezdtek egy új digitális hangrendszer kifejlesztésébe. Rossz nyelvek azért azonosítják a Dolby Digital rendszerrel, mert mind csatornakiosztásban, mind azok elhelyezésében (4.8 ábra) megegyezik társával. A különbség a tömörítõ eljárásban és a magának a hangnak a tárolásában rejlik. A DTS rendszer egy saját szintén veszteséges kódoló eljárást használ a 6 csatorna tömörítésére, amit Acoustic Audio Coding névre kereszteltek. Vigyázat! Itt nem szoktak rövidítést használni, mivel akkor könnyen 83 Hanganyagok visszajátszása összekeverhetõ lenne az AAC-Advanced Audio Coding MPEG 4-dik generációs kódoló eljárással. A Dolby AC-3 –as eljárásával ellentétben, az Akusztikus Audio kódolással 1:1 és 4:1 közötti tömörítési arány érhetõ el, a jel pszichoakusztikus jellemzõitõl függõen. A jelátvitel sebessége nem haladja meg a 1040 kbit/sec értéket A hang tárolása szempontjából pedig, olyan megoldással

rukkoltak elõ, mely eddig teljesen egyedi a mozi történetében, természetesen leszámítva a mozgókép hajnalát, a némafilmek korszakát. A mozifilm hangját nem a mágnesszalagra viszik fel, a képi anyag mellé, hanem egy külön CD korongon kerül rögzítésre. Egy normál 650 Mbyte kapacitású CD lemezen a 100 percnyi idõtartamtól egészen az 5 órás felvételekig a jel összetételétõl függõen tárolható a film hangja. A vetítõ berendezésekhez egy idõ kód olvasó (Time Code Reader) kiegészítõ egységet kell illeszteni. A film vetítése közben ez generálja azt a kódot, ami segítségével nem engedik, hogy a dupla sebességû CDROM olvasóval menet közben lejátszott hang elcsúszhasson a képhez képest. Ezt a különálló rögzítési technikát a késõbbiekben nem-szinkron hangtárolásnak (non-sync sound recording) is nevezik. A DTS és Dolby Digital rendszerek közötti minõségi különbségek még ma is heves viták tárgyát képezik. Egy

biztos, hogy ha a DTS effektív beruházási költségeit nézzük, akkor az jóval alatta marad a Dolby Digital –hoz viszonyítva. 1993-ban négy hónappal a DTS megjelenése után a Sony cég bemutatta az SDDS (Sony Dynamic Digital Sound)-t, mely az elsõ 7.1 csatornakiosztású digitális hangrendszer. Csak moziban található meg A csatornák (bal, balközép, közép, jobbközép, jobb, bal surround, jobb surround, LFE) elhelyezését a 4.10 ábra szemlélteti. A több, mint 90 dB dinamika tartományú 8 csatornás digitális hang rögzítését úgy oldották meg a Sony szakemberei, hogy elõször is a már megemlített ATRAC (Adaptive Transform Acoustic Coding) hangtömörítõ eljárást alkalmaztak, majd a kódolt információt mikroszkopikus méretû pontokként (spots), mint egy nagyon vékony csíkot alkotva rögzítették a filmszalag mindkét oldalának külsõ peremén. Az SDDS talán egyetlen hátránya az lehet, hogy beruházási költségeit nézve szinte a

legmagasabbak az összes hangrendszer között. 84 Hanganyagok visszajátszása (4.10 ábra) SDDS mozirendszer 71 csatornáinak térbeli helyzete 1998 november 30-án hallhatta a nagyközönség elõször a mozikban a Dolby Digital Surround EX (Extended)-et a Dolby Laboratórium legújabb hangrendszerét. Mint az angol elnevezése is sugallja, a Dolby Digital kibõvítésébõl született. Az elõd 2 darab surround csatornájával szemben itt már megtoldották egy további harmadik csatornával is. Az így kialakított 61 csatornakiosztást (bal, LFE, közép, jobb, bal surround, hátsó surround és jobb surround) és azok elhelyezését a 4.11 ábrán látható. A cég állítása szerint, ezzel a hármas surround megbontással sokkal realisztikusabban megjeleníthetõk a nézõk háta mögött zajló hangok, pontosabban a filmben szereplõ háttérzajok. Fõképp a mozgó tárgyak által keltett zajok ábrázolhatók precízebben, mint például repülõgép, helikopter,

kocsi, stb. A rendszer többi jellemzõje a Dolby Digital –hoz képest változatlan maradt. A tömörítési eljárásnál szintén az AC-3 –as kódolási algoritmus alkalmazzák. 1999 március 9-én a DTS-ES (Extended Surround) rendszer bemutatója valószínûleg a Digital Theater Systems válasza volt, a Dolby cég EX rendszerére. Ez is, hasonlóan az EX rendszerhez, még mind a mai napig csak a mozikban található meg. A DTS-ES –nél sem változtattak a DTS rendszer alapvetõ jellemzõin, csak ugyan azt a surround csatornakibõvítést alkalmazták, mint a Dolby Laboratórium szakemberei az EX hangrendszernél (4.11 ábra) Megmaradt a nem-szinkron hangrögzítési technika és az Akusztikus Audio kódolás is. 85 Hanganyagok visszajátszása (4.11 ábra) Dolby Digital EX és DTS-ES hangrendszerek 61 csatornáinak térbeli helyzete THX (Tom Holmans Experiment): Ezt sokan egy új hangformátumnak gondolnák, pedig nem az. Ez a hárombetûs rövidítés egy

meglehetõsen szigorú szabványgyûjtemény, melyet a Lucasfilm hozott létre. A feltételek maradéktalan teljesítésével lehet kiérdemelni a jogot a THX logó használatához. A szabvány célja, hogy a filmek hanghatásai a lehetõ legközelebb legyenek az eredeti, valóságos effektusokhoz. Emiatt egy THX minõségû berendezés esetében az összekötõ kábeleknek keresztül a rendszer minden egyes apró alkatrészének meg kell felelniük a nem éppen alacsony követelmény szintnek. Megfigyelhetõ a hangrendszerek fejlõdésének története alapján, hogy a moziknak a televízióval és videóval folytatott állandó harca, a nézõk filmszínházakba való becsalogatása során, mindig arra inspirálta a mozivállalatokat, minél jobb látványt és hangélményt nyújtsanak a nézõk számára. Ezen okok miatt az összes újabb hangrendszer egytõl-egyig a mozikban került elõször bevezetésre, és esetleg onnan adoptálták tovább az otthoni audiotechnikai

rendszerekhez. Egy az egyben egy moziban alkalmazott audio rendszer sosem tehetõ át házi használatra, hiszen jelentõs különbség van a lakószobák és a mozitermek mérete és akusztikai jellemzõi között. Más tehát a hangcsatornák idõkésleltetése, más a termek rezonanciája. Mivel szobánk falait nem rombolhatjuk le, és építhetjük újra kedvünk szerint, ezért a cégek olyan digitális hangprocesszorokat alkalmaznak a teremhangok modellezésére, mellyel a szobánkat szinte egy moziteremmé varázsolják át. Innen származik a „házi mozi” elnevezés További kérdés marad viszont, hogy miért a filmipar jelentett nagyobb húzóerõt a térhatású hangrendszerek fejlõdésére és például miért nem a lemezkiadó cégek, az audioipar? Erre is található egy magyarázat, miszerint az audioipar kezdetben nem látott kellõ fantáziát a a surround hangrendszerekben, mivel azok nagyobb akusztikus teret és több hangfalat igényeltek, egy kocsiban vagy egy

walkman -hez kapcsolódó fejhallgatókban viszont ezt a 86 Hanganyagok visszajátszása térhatást nem tudták produkálni, ez különbségi tényezõ pedig zavarta volna az audiotechnikai berendezések kompatibilitását. Manapság már ezek az akadályok is elhárultak a surround hangrendszerek elterjedése kapcsán. Számos cég, köztük a Dolby Laboratórium is kifejlesztett már olyan fejhallgató egységeket, amik segítségével közel azonos térhatás érhetõ el, mint ha egy hangfalakkal felszerelt terem közepén állna a hallgató. Egy jármû utasterében szintén kifogástalan minõségû, minden ülõ személy számára azonosan élvezhetõ surround hatást tudnak elõállítani. 87 ATRAC ATRAC Az ATRAC (Adaptive Transform Acoustic Coding) egy olyan audio tömörítõ eljárás, amelyet alapvetõen 1991-ben a Mini Disc (MD) rendszerekhez fejlesztett ki a Sony Corporation. Maga az adatredukciós mûvelet pszichoakusztikus elveken alapszik A bemenõ jelet

három olyan alsávra (subbands) osztják fel, amelyeket aztán különbözõ frekvencia tartományokba (frequency domain) transzformálnak többféle blokk-hosszúság felhasználásával. A transzformációs együtthatókat, további olyan külön sávokba csoportosítják, amelyek reflektálják az emberi hallórendszert, majd kvantálják dinamikus érzékenységük és a takarási (masking) jellegzetességeik alapján. Az ATRAC összesûríti az eredeti audio jelet hozzávetõlegesen 1/5.5 adatarányban úgy, hogy az ne okozzon hallható károsodást a hangminõségben. Mikor a digitális audio adathalmazt összetömörítik, általában keletkezik egy adott mennyiségû kvantálási zaj is, amely a jelnél kimutatkozik. Számos audio kódoló rendszernek egyik fõ célja az, hogy a jelnek a zaj és idõ-frekvencia elosztását úgy tudja szabályozni, hogy azaz emberi fül számára ne legyen hallható. Ha ez teljességgel sikeres, az újraszerkesztett és az eredeti jel között

a hallgató számára nincs érzékelhetõ különbség. Általánosságában, a pszichoakusztikus audio-kódoló rendszerek (perceptual coding) mûködésüket tekintve, szétbontják a bemenõ jelet egy egységsorozatra, ahol minden egyes egység az adott idõ és frekvencia sorért felelõs. Az idõ-frekvencia felosztást alkalmazva a jel pszichoakusztikus alapszabályoknak megfelelõ elemezését hajtják végre. Ezen elemzés megjelöli, hogy mely részek a jelben kritikusak és nagy pontossággal kódolandók, valamint mely részek kevésbé érzékenyek eltûrvén kisebb kvantálási zajt anélkül, hogy csökkentenék az érzékelt hang minõségét. Ezt az információt kihasználva, a felhasználható bitek számát felosztják a különbözõ idõ-frekvencia transzformációs egységek között. Azután pedig a spektrális együtthatók alapján minden egyes egységben kvantálják az aktuális biteket. A dekóderben a kvantált bitek spektrumát újjászervezik a

felosztásnak megfelelõen, végeredményül az eredeti jelhez hasonló szintetizált audio jelet képeznek a tömörített adatból. Az ATRAC rendszer a fent említettek szerint mûködik, számos egyéb fokozással egyetemben. A pszichoakusztikai elemzést mind a bitelosztás (bit allokáció) algoritmusában, mind a idõ-frekvencia felosztásánál egyaránt alkalmazzák. Az alsáv 88 ATRAC (subband) kódolás és a transzformációs kódolási technikák együttes kombinációját használva, az ATRAC a bemenõ jelet olyan változtatható frekvencia felosztásokban elemzi, amellyel kiemelten kezelhetõk még a fontosabb alacsony frekvenciájú területeket is. Mindamellett egy olyan transzformációs blokk-hosszúságot tartalmaz, amely a bemenõ jelnél is szintén alkalmazható. Mindezen tulajdonságok biztosítják, hogy a jelben a folyamatos átmenetek hatékony kódolás alá essenek anélkül, hogy a rendszer a szükségesnél több idõt pazarolna a meredekebb,

problematikusabb átmenetekre. Elõször szükség szerint átnézzük a témával kapcsolatos pszichoakusztikai alapszabályokat. Majd bemutatásra kerül az ATRAC kódoló (encoding) eljáráson belül; a bemenõ jelnek az idõ-frekvencia egységek közötti szétosztása, továbbá a jel spektrális együtthatói alapján a már szétosztott adatok kvantálása, valamint folytatólagosan a bit-elosztás (bit allokációs) függvény mûködése. Végezetül, pedig az ATRAC dekódoló (decoding) egység jellemezzük. Pszichoakusztika Hangerõsség kiegyenlítõ görbék (Equi-loudness Cruves): A fül érzékenysége a frekvenciával együttesen változik. Legérzékenyebb a 4kHz körüli tartományban, viszont a hangnyomás azon szintjei, amelyek csak 4kHz-n észlelhetõek számunkra, más szomszédos frekvenciákon viszont már nem biztos, hogy érzékeljük. (5.1 ábra) Hangerõsség kiegyenlítõ görbék 89 ATRAC Általában, ugyanazon két hangerõt különbözõ

frekvencián nem azonos hangerõvel halljuk. Egy hang észlelt hangerõssége kifejezhetõ son –ban (hangosság egységekben) is, ahol 1 son, 1 kHz-es 40dB erõsséggel hang felel meg. Az elõbbi 51 ábrán a kiegyenlítõ görbék számos hangerõsségi szintnen figyelhetõk meg. Azon görbe, ami a hallásküszöböt jelöli, méghozzá azt a minimum szintet (a definíció szerint 0 son), amely felett az emberi fül még képes érzékelni egy bizonyos hangszínt egy adott frekvencián. Továbbiakban a diagrammon az is jól látható, hogy a fül néhány frekvenciánál sokkal érzékenyebb, mint más frekvenciák esetében. A görbületek (torzítások) érzéketlenebb frekvencia tartományokban kevésbé hallhatóak a számunkra, mint az érzékenyebb frekvencia területeknél. Takarás (Masking): Elfedés jelensége akkor jön létre, amikor a hang egy másik hang által a fülünk számára takarásba kerül, nem hallhatóvá válik (5.2 ábra) Egyidejû takarás jelentkezik

akkor, amikor két hang tûnik fel ugyanazon idõben, így például akkor, amikor egy beszélgetés (a takart jel) nem hallhatóan mutatkozik egy elszáguldó vonat (az elfedõ hang) zaja által. Hátra irányuló takarás keletkezik akkor, mikor a takart jel véget ér mielõtt az õt eltakaró hang jelentkezne. Elõre irányuló takarás lép fel, amikor a takart jel akkor jelentkezik, miután az õt elfedõ jel már befejezõdött. A takarás erõteljesebbé válhat, ahogyan a két hang egyre közelebb kerül egymáshoz idõben és frekvenciában egyaránt. (5.2 ábra) Hangelfedés jelensége 90 ATRAC Például, a egyidejû takarás erõsebb, mint az elõre vagy hátra irányuló takarás jelensége, mert a hangok egyazon pillanatban jelennek meg. Továbbá a 52 ábrán a fehér hangnak (white noise), mint takaró jelnek a keskeny sávját, kinagyítva a különbözõ idõ és frekvencia értékek függvényében a 5.3 grafikon tartalmazza, ahol már jól kivehetõek az

egyidejû- és átmeneti elfedés közötti különbségek. (5.3 ábra) Átmeneti hangelfedés jellemzõi A hangelfedést ábrázoló grafikonokból az alábbi fontos következtetéseket lehet levonni: Elõször is, egyidejû takarás csak akkor jöhet létre, ha a takart jel frekvenciája megegyezik vagy magasabb, mint az õt eltakaró jel frekvenciája. Másodsorban, míg az elõre irányuló takarás sokkal hosszabb idõciklus alatt játszódik le, egészen a takaró jel megszûnéséig, addig a hátra irányuló takarás esetében ez csak kevesebb, mint 2 vagy 3 ms alatt megy végbe a takaró jel kezdetétõl számítva. Kritikus sávok (Critical Bands): A kritikus sávokat azon elgondolás alapján hozták létre, hogy a fülünk miként „értelmezi” a számára hallható hangokat azok frekvenciája szerint. Az így keletkezõ frekvencia sorok (5.4 táblázat) szolgálnak a hangtömörítéseknél gyakran használt subbands (alsávok) alapjául. Egy kritikus sávon

belüli frekvenciák hasonlóan, a fül észlelési mechanizmusához, együttesen kerülnek feldolgozásra, eltérõen más kritikus sávoktól. A kritikus sávok természetesen az emberi hallás tapasztalataiból erednek, valamint a belsõ fülben található érzékelõ cellák elhelyezkedésébõl származtatják. A kritikus sávokat úgy kell elképzelnünk, mint azt a frekvencia skálát, amit a fülünk használ. Az már tisztán kivehetõ a táblázatból, hogy a magasabb frekvenciájú kritikus sávok sokkal keskenyebbek, mint alacsonyabb frekvenciák sávjai; valójában a kritikus sávok háromnegyede az 5 kHz alatti tartománnyal azonosítható be. 91 ATRAC Kritikus Frekvencia (Hz) Alsó Felsõ határ határ 0. 0 1. Kritikus Frekvencia (Hz) Alsó Felsõ határ határ 13. 2000 2320 320 100 14. 2320 2700 380 300 100 15. 2700 3150 450 300 400 100 16. 3150 3700 550 4. 400 510 110 17. 3700 4400 700 5. 510 630 120

18. 4400 5300 900 6. 630 770 140 19. 5300 6400 1100 7. 770 920 150 20. 6400 7700 1300 8. 920 1080 160 21. 7700 9500 1800 9. 1080 1270 190 22. 9500 12000 2500 10. 1270 1480 210 23. 12000 15500 3500 11. 1480 1720 240 24. 15500 22050 6550 12. 1720 2000 280 Sáv Szélesség Sáv 100 100 100 200 2. 200 3. Szélesség (5.4 táblázat) Kritikus Hangsávok frekvencia szerinti megbontásban Ez azt jelenti, hogy a fülünk sokkal több információt érzékel az alacsonyabb frekvenciákból és jóval kevesebbet a magasabb frekvenciákon. ATRAC Kódoló Egység (ATRAC Encoder) A kódoló szerkezetének blokk-diagrammját a 5.5 ábra mutatja A kódoló három részbõl áll. Az idõ-frekvencia elemzõ blokk a bemenõ jelet spektrális együtthatói alapján csoportokra bontja a BFU (Block Floating Unit) egységek számára. (5.5 ábra) Az ATRAC kódoló egység blokk struktúrája 92 ATRAC A bit-elosztó (Bit Allokációs)

blokk pedig a felhasználható bitek számát osztja fel a BFU-k között úgy, hogy a kevesebb bit szám a jel érzéketlenebb tartományaira korlátozódjon. A kvantáló blokkban a különbözõ sávokra bontott jelnek minden egyes spektrális tényezõjét a kiosztott szóhosszúságnak megfelelõen kvantálják. Idõ-frekvencia elemzés (Time-Frequency Analysis): Ezt blokkot lényegében a BFU egy három lépcsõs eljárása alkotja (5.6 ábra), ahol kombináltan alkalmazzák mind a subband (alsáv), mind a transzformációs kódolási technikákat egyaránt. Elõször, a jel három alsáv szerint kerül szétbontásra: 0-55 kHz, 5.5-11 kHz és 11-22 kHz Ezen alsávok mindegyike azután áttranszformálódik az adott frekvencia tartományokba, ezáltal megteremtve egy sor spektrális együtthatót. Végezetül, pedig ezen spektrális együtthatókat a különbözõ BFU egységek között csoportosítanak. (5.6 ábra) Idõ-Frekvencia Analizátor szerkezeti felépítettsége Az

alsáv felosztását az Integrál Tükör Szûrõk (QMF – Quadrature Mirror Filter) végzik el. Az elsõ QMF blokkban, a bemenõ jelet a felsõ- és alsóbb frekvencia sávokra választják ketté, majd az alacsonyabb frekvencia komponenseket még további két részre osszák fel a második QMF blokkban. A QMF-ek használatával biztosítják azt is, hogy az alsáv felosztás következtében fellépõ aliasing hatás (torzítás) ne jelenhessen meg az audio jel rekonstrukciója során. Azután mindhárom alsávot áttranszformálják az MDCT (Modified Discrete Cosine Transform) matematikai eljárás segítségével a frekvencia tartományba. Az MDCT transzformációs mûveletnél egészen 50%-ig engedélyezett az átlapolás (overlap) az idõtartományok között, feljavítva ezzel a kritikus minták frekvencia felbontó képességét. Az ATRAC a fix transzformációs blokk-hosszúság használata helyett, inkább egy 93 ATRAC rugalmasabb eljárást alkalmazva, minden egyes

sávnak a jel-karakterisztikájához mérten, külön választja meg a blokk hosszúságát. Kétfajta mód létezik: a hosszú mód (Long mode – 11.6 ms) és a rövid mód (Short mode; 145 ms a magas frekcencia sávoknak, 29 ms pedig a több alsávnak). Normális esetben a hosszú módot arra használják, hogy tömörebb frekvencia felbontást biztosítson (5.7 ábra) (5.7 ábra) Hosszú mód Azonban felmerülhetnek olyan problémák a jel részekre bontása közben, hogy a kvantáláskor keletkezõ zaj szétterjed az egész jelblokkban és kilép az eredeti jel takarása alól. Ez a problém az elõ-visszhang (pre-echo) elnevezést kapta Ha pedig elõ-visszhang jelentkezik a jelben, olyankor az ATRAC a torzítás elkerülése érdekében rövid módra kapcsol át (5.8 ábra) a spektrális szétbontása során (5.8 ábra) Rövid mód 94 ATRAC Ezen jelenség kapcsán, mivel a zajnak csak egy rövid töredéke jelentkezik a felbontás elõtt, a hangnak a hátra irányuló

takarása által a zaj fedésbe hozható. A hátra irányuló takarás viszont nem eredményezne eléggé hatékony elfedést a Hosszú Módnál, annak pont rövid idõtartama következtében. Így az ATRAC a rövidebb blokk-hosszúság felhasználásával hatékony tudja tömöríteni a jel kisebb változásait és hosszabb blokkméretet alkalmaz a hang élesebb átmenetinél. Meg kell még jegyeznünk azt, hogy a jel lecsengéséhez rövid blokk-hosszúság nem szükségeltetik, mivel a kvantálási zajt az elõre irányuló takarás elfedi és az idõben jóval tovább tart, mint a hátra irányuló takarás. A rendszer maximális rugalmassága érdekében, a blokkméretek minden egyes sáv számára a többitõl függetlenül szelektálható. Az MDCT spektrális együtthatói azután BFU-ban kerülnek csoportosításra (5.9 ábra). Mindegyik egység bizonyos mértékben tartalmaz fix számú együtthatókat is (5.9 ábra) Egy lehetséges példa az idõ-frekvencia szerinti

csoportosításra A hosszú mód esetén, az egységek a jel 11.6 ms terjedelmû keskeny frekvenciasávját reflektálják, míg rövid mód esetén minden egyes blokk csak a jel rövidebb idõtartományát, de annak egy szélesebb frekvenciasávját adja vissza. Következésképpen a BFU egységekben a jel koncentrációja (tömörsége) alacsonyabb frekvenciákon nagyobb lesz, 95 ATRAC mint a magasabb frekvencia tartományokban. A tömörítés mindezen tulajdonságai az emberi fül pszichoakusztikus jellemzõit hivatott tükrözni. Spektrális kvantálás (Spectral Quantization): A jel spektrális értékeinek két jellemzõ paramétert veszik figyelembe a kvantálás során: annak szóhosszúságát (wordlength) és felosztási tényezõjét (skálázási faktor – scale factor). A felosztási tényezõvel jelöljük ki a kvantálás teljes értéktartományát, a szóhosszúsággal pedig a kijelölt tartomány kvantálási pontosságát határozzuk meg. Minden egyes BFU

ugyanazon szóhosszúsággal és felosztási tényezõvel rendelkezik; amely az azonos frekvencia csoportokban tartozó hangok pszichoakusztikus hasonlóságát példázza. A rendszer a felosztási tényezõt lehetõség szerint úgy válassza meg, hogy az híven tükrözze a jel spektrális terjedelmét minden egyes BFU számára. Minden egyes frame (hang-keret), ami megfelel 512 db bemeneti élnek (input points) az alábbi információkat hordozza magával: MDCT blokk méret (hosszú vagy rövid mód). Szóhosszúsági adatok (Wordlength data) külön-külön minden egyes BFU egységnél. Felosztási tényezõ (Scale factor code) szintén minden egyes BFU egységnél. Kvantált spektrális együtthatók (Quantized spectral coefficients). Továbbá biztosítani kellett az elõbb felsorolt adatok redundáns tárolását, még hozzá úgy, hogy azok jól elkülönített formában, majd az audio jel rekonstrukciója során felhasználhatók legyenek. Végeredményében ezek a

mennyiségi információk, mint adathalmazok kerülnek rögzítésre a különféle tároló médiákon. Bit elhelyezés (Bit Allocation): A bit allokációs algoritmus osztja fel a különbözõ BFU egységek között a felhasználható bitek számát. Azon egységekben, amelyikhez nagy számú bit került kiosztásra a kvantálási zaj szinte minimális lesz, viszont amik kevés vagy nulla bittel rendelkeznek, ott jelentõsebb nagyságú kvantálási zaj képzõdik. A jó hangminõség érdekében, a bit allokációs algoritmusnak kell biztosítania azt, hogy a kritikus egységek mindig rendelkezzenek a megfelelõ bit számmal, miközben a nem kritikus egységeknél fellépõ zaj még éppen ne haladja meg fülünk érzékelési határait (észrevétlen maradjon). Az ATRAC szabványkönyvébe az alkotók szándékosan nem foglalták bele a bit allokációs algoritmus pontos jellemzõit, ezért bármely az aktuális rendszerhez illeszkedõ algoritmus használható. Azáltal, hogy a

médiára a kvantált spektrális adatok mellett minden egyes BFU egységhez tartozó szóhosszúságot is felrögzítenek, a dekódoló 96 ATRAC rendszer teljességében független az allokációs algoritmustól. Ez a két egység közötti függetlenség biztosítja az ATRAC kódoló evolúciós fejlõdését anélkül, hogy meg kellene változtatni a dekóder vagy a tárolómédia formátumát. Nagyon sokféle lehetséges Bit Allokációs algoritmus létezik az ATRAC számára, az egészen egyszerûtõl, a különlegesen bonyolultig. Ne gondoljuk azt, hogy a kódoló rendszer által produkált hangminõség egyedül csak az allokációs algoritmuson múlik. Az ATRAC képes a jó hangminõségre még a legegyszerûbb algoritmus használatával is, fõleg ha az pszichoakusztikus szabályokon alapul. Az ATRAC adaptív idõ-frekvencia szerkezete már eleve az érzékelésen alapuló kódolási technikára utal, tehát ezzel is kis mértékben tehermentesítve van a Bit Allokációs

algoritmus a rendszer minõségi jellemzõitõl. Egy komplexebb algoritmus általában fix és változó bitek kombinációját használja a felosztás mûveleténél. Példaképpen az 510 ábrán egy elképzelt Bit felosztás látható (5.10 ábra) Egy példa a Bit Allokációs egység mûködésére 97 ATRAC A fix bitek kiemelik (emphasis) az alacsony frekvenciájú területeket, míg a megmaradó biteket az algoritmus felosztja a BFU magasabb frekvenciái között. Lényegében az algoritmus a variálható biteket a spektrális együtthatóknak megfelelõen ossza fel az összes BFU egységen belül. A teljes bit felosztás a btot, a fix bitek és a bfix(k), a variálható bitek, bvar(k) súlyozott összege. Ez a következõket jelenti minden egyes BFU egység számára: btot(k) = Tbvar + (1-T)bfix A súlyozott T a jel tonalitásának a mértéke. Ha ezt az értéket közel 1-nek vesszük, akkor a tiszta tónusok mértékét kapjuk meg, míg ha 0-hoz közelítünk a fehér

zajok (takarás effektusnál fellépõ) mértékét foglalja magában. Ez azt jelenti, hogy a fix és variálható bitek aránya együttesen is variálható. Így, a tiszta tónusoknál a felhasználható bitek csak bizonyos kevés számú BFU egységekre fognak koncentrálódni. A többi zajhoz hasonlatos jelnél pedig, az algoritmus fogja kiemelni a fix biteket, annak érdekében, hogy csökkentse mindenütt azon bitek számát, amelyek a kevésbé érzékeny magas frekvenciákhoz lettek kiosztva. A fent említett egyenlet nincs kapcsolatban az összes felosztható bit arányával, és ezért valószínûleg sokkal több bitet fog felosztani, mint ami elérhetõ lenne a rendszer számára. A fix adatarány biztosítása érdekében egy kezdeti boff (minden BFU egység számára egyenlõ) tényezõvel kell kiegészíteni a képletet. A btot(k) –ból minden egység számára ki kell vonni a boff értékét, megadván ezzel a ténylegesen felosztható bitszámot: b(k)= integer {

btot(k) - boff } Ha a kivonás egy negatív szóhosszúságot eredményez, akkor azon BFU számára 0 bit kerül felosztásra. ATRAC Dekóder (ATRAC Decoder) A dekóder szerkezetének blokk diagrammja a 5.11 ábrán található (5.11 ábra) ATRAC dekóder blokk struktúrája 98 ATRAC A dekóder elõször a kvantált értékekbõl visszatranszformálja az MDCT eljárással átalakított spektrális együtthatókat, felhasználva hozzá a szóhosszúság (wordlength), valamint a felosztási tényezõ (scale factor) paramétereit. Ezen spektrális együtthatók segítségével pedig rekonstruálja az eredeti audio jelet. Tehát elsõként az együtthatókat egy fordított MDCT (Inverse-MDCT) függvény által visszaalakítja az idõtartományba, miközben figyelembe veszi, hogy a jel kódoltsági szintje hosszú vagy a rövid módot takar, ahogyan az a paraméterekben meg van adva. Végezetül, a három idõ-tartomány szignál egy kimenõ jelben szintetizálódik, méghozzá a QMF

szintézis filterek segítségével. Generációs különbségek Azon technikák kombinációin keresztül, amikbe beletartozik a pszichoakusztika, az subband (alsáv) kódolás, és a transzformációs kódolás, az ATRAC vitathatatlan sikereket ért el a digitális audio jel tömörítésének területén. Köszönhetõ ez fõként a Sony cég fáradhatatlan fejlesztõ munkájának, hiszen a legelsõ (nevezhetjük elsõ generációs) ATRAC kódolási eljárás megjelenése óta, már bevezetésre kerültek az ATRAC második, sõt a harmadik generációs algoritmusai is. Míg a normál ATRAC (elsõ generációs) eljárással köztudottan 5.5:1 tömörítési arány érhetõ el, ami csatornánként 146 kbit/sec jelátviteli sebességet eredményez, addig az ATRAC 2 algoritmus kb. 10:1 mértékû adatcsökkenést és csatornánként 73 kbits/sec jelátvitelt képes produkálni, ugyanazon hangminõségben. A nagyobb tömörítési arány következtében az ATRAC 2 eljárással a 140

Mbyte kapacitású MD lemezekre, már közel 148 percnyi CD minõségû audio felvétel rögzíthetõ. A második generációs algoritmusban, az elsõ generációs eljáráshoz képest megváltoztatták az Idõ-Frekvencia Analizátor szerkezeti felépítését. A régebbi 3 frekvencia felosztást alkalmazó QMF (Quadrature Mirror Filter) felváltották, egy PQF (Polyphase Quadrature Filter – Többfázisú Integrál Szûrõ) elnevezésû egységgel, mely a bemenõ szignált a 3 helyett 4 frekvencia sávra bontja fel. A felosztást a 0-551kHz, a 5.51-1103 kHz, a 1103-1654 kHz és a 1654-2205 kHz terjedelmû frekvencia tartományok képezik. Mindezen változtatás egy hatékonyabb pszichoakusztkus modell kialakítását tette lehetõvé a kódoló (encoder) rendszerekben. Az újabb modell alkalmazása pedig már szinte kétszer nagyobb fokú adatredukció elérését biztosítja a korábbi elsõ generációs eljáráshoz képest. A harmadik generációs algoritmus megalkotására a

legfõbb inspirációt már nem a tömörítés mértékének növelése jelentette. Az idõközben megjelenõ és egyre népszerûbbé 99 ATRAC váló többcsatornás, a CD-nél magasabb audiominõséget képviselõ hangrendszerek mind inkább arra ösztönözték a Sony szakembereit, hogy egy olyan új ATRAC kódoló/dekódoló egységet hozzanak létre, ami már képes illeszkedni akár az ilyen típusú hangrendszerekhez is. Ezért talán nem véletlen, hogy az ATRAC 3 a Sony saját SDDS elnevezésû mozi-alkalmazásra kifejlesztett hangrendszerével együtt debütált. A harmadik generációs tömörítõ algoritmus megalkotásakor a mérnökök nagyban figyeltek annak széles alkalmazhatóságra, következésképpen szinte a manapság használatos összes; a DSD –tõl egészen a 24 bites, 192 kHz mintavételezésû PCM –ig, bármilyen minõségû és kódolású audio jelfolyam egyaránt tömöríthetõ vele. Mindamellett, az ATRAC 3 hatékonyan

felhasználható mind a kompakt, mind a hordozható zenei rendszerekben, mivel megõrizte az elsõ és a második generációs algoritmusokkal való teljes kompatibilitását is. 100 MPEG Audio MPEG Audio 1988 májusában négy munkacsoportot alakítottak a Nemzetközi Szabványügyi Hivatal (ISO – International Standards Organisation) és a Nemzetközi Elektrotechnikai Bizottság (IEC – International Electrotechnical Commission) elnevezésû szervezetek közösen. Mindegyik munkacsoportot más-más céllal, de ugyan azon feladattal hozták létre, hogy egységesen szabványokban foglalják a különbözõ tömörítési algoritmusokat: JPEG (Joint Photographic Experts Group); a nagy színmélységû állóképek kódolási algoritmusának kidolgozására. JBIG (Joint Bi-Level Expert Group); a progresszív felépítésû, kétszintû kódoló algoritmusok kidolgozására. CGEG (Computer Graphics Expert Group); az egyszerûbb grafikai állóképek kódolási algoritmusának

kidolgozására. MPEG (Moving Picture Expert Group); az audio és mozgóképek kódolási algoritmusának kidolgozására. Végeredményében, az MPEG szabályozza az alacsony sávszélességû mozgókép (video)– és hangátviteli tömörítõ rendszereket és az ehhez alkalmazkodó kóder/dekóder programok mûködését, ezáltal pontosan nem határozza meg magát a kódolási eljárásokat. Ez teszi lehetõvé a tömörítõprogramok állandó fejlõdését és rugalmas alkalmazkodásukat az átvitel-szabványok határain belül. A videó- és hangtömörítés mellett az MPEG elõírja az adatfolyam és a kitömörítés szabványosságát ellenõrzõ tesztek módszereit, és nyilvánosságra hozza az ezekkel kapcsolatos technikai beszámolókat. 1988-ban a kor adatátvitel-technikai szintjéhez mérten a tömörített adatfolyam maximális jelátviteli sebességét 1.5 Mbit/sec –ban korlátozták Ebbõl 12 Mbit/sec a mozgóképnek és 0.3 Mbit/sec az audio tartalomnak

osztottak ki A hangtömörítések szabványosításával foglalkozó szekcióban a különbözõ átviteli rendszerek jellemzõihez mérten idõközben, annak több fázisát hozták létre: MPEG 1, 1992 novemberében deklarálták. Célja közel CD minõségû tömörített digitális hang létrehozása, ezért 32, 44.1 és 48 kHz mintavételezésû mono vagy sztereo audio folyam kódolási elõírásait foglalja magában. A tömörítési eljárásnak továbbá három különbözõ réteget definiálták: - Layer I. (32-448 kbit/sec jelátviteli sebesség határok között korlátozva) - Layer II. (32-384 kbit/sec jelátviteli sebesség határok között korlátozva) 101 MPEG Audio - Layer III. (24-320 kbit/sec jelátviteli sebesség határok között korlátozva) A 3 réteg fõként a kódoló algoritmus komplexitásában tér el egymástól, méghozzá a réteg jelölõ római szám nagyságához mérten. Ebbõl következõen a harmadik (Layer III.) réteg a másik

kettõhöz (Layer I-II) viszonyítva, a legtöbb és legidõigényesebb számítási mûveleteket tartalmazza, mindamellett viszont a legnagyobb adat tömörítési arányt képes produkálni, ugyanazon hangminõség megtartásával. Mindhárom réteg dekóder modulja a harmadiktól visszafelé kezdve kompatibilis az alatta elhelyezkedõ rétegekkel, ez mellett az alkotók még külön létrehoztak négy letömörítési módozat: - Mono (Monophonic) mód; mint mono egy hangcsatorna kerül kódolásra. - Kettõs mono (Dual-monophonic) mód; a két hangcsatorna, mint független jelfolyamok kerülnek kódolásra. - Sztereo (Stereo) mód; a két hangcsatorna egy jelfolyamban kerül kódolás alá. - Egyesített sztereo (Joint-stereo) mód; a kódoláskor figyelembe veszik a két hangcsatorna közötti sztereo redundanciát (pszichoakusztikus egyezõséget) is. Csak a harmadik réteg esetében alkalmazható. Létrehoztak még olyan kiegészítõ opciókat is, mint: CRC (Cyclic

Redundancy Check) – hibajavító kódeszköz –, Private, Original, Emphasis, Copyrighted. MPEG 2, 1994 novemberében fogadták el. Ennek a fázisnak két fõ célkitûzése volt Az elsõ egy alacsony jelátviteli sebességhez alkalmazkodó és gyengébb hangminõséget hordozó (kisebb, mint 64 kbit/sec és 16, 22.05, 24 kHz) algoritmusok szabványosítását képezte, mégpedig az MPEG 1 fázisban már elfogadott 3 féle réteg felhasználásával. Míg a második a többcsatornás audio jelfolyamok tömörítési eljárásainak kidolgozását szabályozta. - „MPEG 2.5” néven pár hónappal késõbb, mint a Layer III egyik alkotója a Fraunhofer IIS cég által szabványon kívüli létrehozott bõvítést vált ismeretessé. Kifejezetten gyenge hangminõségi elõírásokat (8, 11.025, 12 kHz) és nagyon alacsony jelátviteli korlátokat (8, 16 kbit/sec) határoz meg. Beszéd tömörítésére használható leginkább. - AAC (Advanced Audio Coding) nevû kódoló

eljárást a Fraunhofer IIS a Sony, az AT&T és a Dolby cégekkel karöltve elsõsorban többcsatornás audio folyam tömörítésére fejlesztették ki, majd 1997 áprilisában publikálták. Az eljárás nem kompatíbilis (NBC – Non Backward Compatible) az elõzõ három réteggel (Layer IIII.), viszont a megalkotásakor már figyelembe vették az alkotók, hogy az 102 MPEG Audio algoritmus az MPEG 1 fázis rétegeihez mérten nagyobb rugalmassággal rendelkezzen, ezért az AAC kódolással a 8 – 96 kHz mintavételezési tartományban maximum összesen Megkülönböztetett 48 hangcsatorna figyelemmel az tömörítése esetleges valósítható alacsony meg. frekvenciás hangcsatornákra (LFE) is. Továbbá szintén a rugalmasság növelése érdekében az AAC eljárásnak három különbözõ profilját hozták létre: Fõprofil (Main Profile); legmagasabb hangminõség és mûveleti komplexitás Csökkentett komplexitású (LC – Low Complexity) profil;

elõrejelzés mûveletét elhagyják és korlátozzák az idõbeni zajformáló modult (TNS – Temporal Noise Shaping) Lépcsõzetes mintavételezési tartományokkal (SSR – Scalable Sampling Rate) dolgozó profil; az eljárásban elsõ részében egy úgynevezett hybrid szûrõsort alakítanak ki, ami segítségével 4 különbözõ méretû frekvencia sávra bontják szét a bemenõ jelet, majd az alsávonként kerül transzformálásra az idõ tartományból a frekvencia tartományba. A dinamikus blokkfelosztásnál nem alkalmaznak átlapolást, mint a fõprofil esetében, ezáltal ugyan azon minta (samples) mennyiségre, csak fele annyi MDCT együttható jut, így a fõprofilhoz mérten nem csak a kódolás mûveleti ideje csökken le, hanem romlik az adatredundancia és a hangminõség aránya is. MPEG 4; 1999 decemberében került végleges elfogadásra. Már a szabvány szerkezeti felépítésekor arra törekedtek az alkotók, hogy a kódoló algoritmusok szabadon és

rugalmasan az aktuális igényekhez mérten alakíthatók legyenek. Ennek érdekében az eljárásokat osztályokba sorolták, amiket még további objektumba csoportosítottak. Létrehozták a fõalgoritmusokhoz szabadon illeszthetõ eszközöket, és az eljárásoknak különbözõ profiljait. Két fõ objektumot alakítottak ki: - Természetes hangok (Natural Sound). Ezen belül két osztály található: Beszéd kódolás (Speech Coding); 2-24 kbit/sec jelátvitellel és 8-16 kHz mintavételezéssel rendelkezõ eljárások, amit még két külön részre tagolták: Keskeny sávú (Narrowband, ≤12kbit/sec), és Szélessávú (Wideband, ≥18kbit/sec) átvitel Általános hangkódolás (General Audio Coding). A 6 kbit/sec jelátviteli sebességet és a 8 kHz mintavételezési tartományt meghaladó eljárások. 103 MPEG Audio - Szintetizált hangok (Synthesized Sound). Ez az objektum végeredményében a szövegrõl beszédre való szintetizálási eljárásokat foglalja

magában. Szokásos elnevezése még „Szöveget Beszédre Alakító Interfész” TTSI (Text To Speech Interface). 200 bit/sec –tól 12kbit/sec –ig terjedõ átviteli sebességben és 100 Hz – 3800 Hz közötti frekvencia határokban korlátozódik. Ezen objektumban az MPEG 4 két fõ irányzatot (nyelvet) foglal magában: SAOL (Structured Audio Orchestra Language) SASL (Structured Audio Score Language) Egyik legfõbb eszközcsoport a „Hibatûrõ képesség” (Error Robustness) elnevezéssel illették. Két alcsoportját különböztettek meg: - Rugalmas hibajavító eszközök (ER – Error Resilience tools), mely 3 eszközt tartalmaz: Viruális Kódkönyv eszköz (VCB 11 – Virtual CodeBook tool) Reverzibilis szabadon variálható kód hosszúságú eszköz (RVLC – Reversible Variable Length Coding tool) Huffman kódszó újrarendezõ eszköz (HCR – Huffman Codeword Reordering tool) - Hibavédelmi eszköz (EP – Error Protection tool), sokkal érzékenyebb és

erõsebb védelmet jelent az esetlegesen fellépõ hibákkal szemben, mint a rugalmas hibajavító eszközök (ER). A következõ eszközök nem csak egy másik algoritmus kiegészítéseként szolgálnak, hanem egyedi tömörítõ eljárásként is alkalmazhatók: - BSAC (Bit-Sliced Arithmetic Coding) ez egy veszteségmentes (entrópikus) kódolást hajt végre a bitfolyamon. Önmagában általában 16 és 24 kbit/sec átviteli sebességnél alkalmazzák, míg hatékony kiegészítésül szolgálhat a 40 és 56 kbit/sec jelátvivõ algoritmusok számára. - HILN (Harmonic Individual Lines plus Noise) a Parametrikus eszköztár (Parametric Audio Coding tools) egyik tagja. 4-16 kbit/sec jelátviteli értékek között önmagában is jól alkalmazható. - HVXC (Harmonic Vector Excitation Coding) a Parametrikus eszköztár másik és egyben utolsó képviselõje. - TwinVQ (Transform-Domain Weighted Interleave Vector Quantization) önmagában is felhasználható, de legfõképp az

AAC kódoló eljárás utolsó modulját képezõ 104 MPEG Audio Huffman algoritmust helyettesíti. A Vektor kvantálási technikát esetenként más eljárásokban is alkalmazzák, mint egyedi profilt. (lásd majd CELP) Maradt további két kódolási eljárás, amit általában csak önállóan alkalmaznak, kiegészítésként nem szerepelnek más algoritmusokban, de a szabvány nem zárja ki teljesen különálló eljárások ötvözését, pontosabban egymás való kapcsolódásukat: - AAC (Advanced Audio Coding) az MPEG 2 fázisban foglaltakhoz képest egy újabb profillal bõvítették ki: Alacsony késleltetésû (LD – Low Delay) mintavételezést alkalmazó profil. Az egy blokkot (keretet) általánosan 960 vagy 1024, vagy 2048 darab mintából (samples) felépítõ eljárásoknál, az LD profil lecsökkenti ezeket a mennyiségeket 512 vagy 480-as értékekre. Nem csak az AAC profiljaként értelmezhetõ. - CELP (Code Excited Linear Prediction), 4-24 kbit/sec

átviteli tartományra alkalmazható. 2-2 profilját különböztetjük meg, melyek páronként szabadon variálhatók: Kvantálási mód szerint: Skaláris Kvantálás (SQ – Scalar Quantisation) Vektor Kvantálás (VQ – Vector Quantisation) A Lineáris Extrapoláló Filtert (Linear Prediction Filter) kiszolgáló gerjesztõ modul (Excitation module) típusa szerint: Egyenletesen impulzus gerjesztés (RPE – Regular Pulse Excitation) Többértékû impulzus gerjesztés (MPE – Multi-Pulse Excitation) Nézzünk két példát az MPEG 4 fázisban szereplõ algoritmusok jelölésére: HCR AAC LD+SSR+TwinVQ – HCR hibajavító algoritmussal rendelkezõ AAC kódolás, amit LD és SSR profilokkal és TwinVQ modullal egészítettek ki. EP CELP VQ+MPE – EP hibajavító algoritmussal rendelkezõ CELP kódolás, ami Vektor kvantálást (VQ) és többértékû impulzus gerjesztést (MPE) alkalmaz MPEG 7 elõreláthatólag csak 2001 júliusában kerül véglegesítésre. Jelenleg

annyit lehet róla tudni, hogy az audio szekciónak 3 különálló fejlõdési irányzatát tûzték ki célul: - Hangeffektusok (Sound effects) rendszerezése. - Zenehangszereket (Music Instrument Sound) leíró nyelvek tömöríthetõsége. - Beszéd felismerõ (Speech Recognition) rendszerek szabványosítása. 105 MPEG Audio Az MPEG Audio szekció szerkezeti felépítettségének megismerése után, tekintsünk át részletesebben 5 alapvetõ tömörítési eljárását. Legelõször az MPEG 1-es fázisba tartozó három réteget (Layer I-III. ) ismertetem, majd AAC és végül a TwinVQ kódoló algoritmusok kerülnek bemutatásra. MPEG Audio Layer I-III. A már megismert ATRAC kódoláshoz hasonlóan ez a három réteg is érzékelésen alapuló redundanciát alkalmaz és szintén a hybrid tömörítõ eljárásokhoz sorolhatók, mivel a subband (alsáv) és a transzformációs kódolási technikák együttes ötvözetét foglalják magukban. A 61 ábrán jól látható

az algoritmusok ATRAC-hoz hasonlító mûködése A kódoló egységbe beérkezõ audio szignál egyidejûleg halad át a szûrõ soron és a pszichoakusztikus modellen. A szûrõk a beérkezõ jelet több elõre meghatározott terjedelmû frekvencia sávra bontják szét, míg a pszichoakusztkus modell meghatározza minden egyes alsávban a jelintenzitás mértékét, méghozzá a hangelfedési küszöbhöz igazítva. Az allokációs egység ezen viszonyszámhoz mérten arányosan szétossza az alsávok kvantálására felhasználható összes kódbitet úgy, hogy a kvantáláskor keletkezõ zaj és az élõ visszhang (pre-echo) észlelhetõsége a legminimálisabb legyen. Végezetül a kódoló egység utolsó blokkja a kvantált alsáv mintákból, olyan kódolt bitfolyamot reprezentál, ami a dekóder oldal számára egységes értelmezést biztosít. A dekóder miután megfejtette a bitfolyamot, visszaállítja a kvantált alsávok értékeit, ami alapján rekonstruálja az audio

szignált. (6.1 ábra) MPEG Layer I-III kódoló/dekódoló sematikus vázlata 106 MPEG Audio Most a részletesség kedvéért mindenképp ki kell emelnünk 4 blokkot, amik segítségével megvizsgálhatjuk a réteg között húzódó komplexitási differenciákat. Többfázisú szûrõsor (Polyphase Filter Bank): Mind egyes rétegnél az idõ-frekvencia leképezéshez (Time to Frequency Mapping) hasonlóan, mint az ATRAC 2 esetében, legelõször egy úgynevezett többfázisú szûrõsorral szétbontják a beérkezõ jelet. Azonban az ATRAC-al ellentétben, hogy az emberi hallószerv frekvencia érzékenységét még pontosabban reflektálhassák, nem 25, hanem 27 darab kritikus sávot állapítottak meg (6.2 táblázat) és nem 3 vagy 4 részre, hanem 32 egyenlõ szélességû frekvencia szétbontást alkalmaznak. Kritikus sáv 0. 1. 2. 3. 4. 5. 6. 7. 8. Felsõ frekvencia határa (Hz) 50 95 140 235 330 420 560 660 800 Kritikus sáv 9. 10. 11. 12. 13. 14. 15. 16. 17. Felsõ

frekvencia határa (Hz) 940 1125 1265 1500 1735 1970 2340 2720 3280 Kritikus sáv 18. 19. 20. 21. 22. 23. 24. 25. 26. Felsõ frekvencia határa (Hz) 3840 4690 5440 6375 7690 9375 11625 15375 20250 (6.2 táblázat) Kritikus hangsávok részletesebb frekvencia felosztásban Majd a 6.3 ábrán látható módon úgy rendelték össze a két különbözõ felosztású frekvencia tartományokat, hogy minden sáv átlapoltságának pszichoakusztikus jellemzõihez mérten alakították ki. (6.3 ábra) MPEG Audio hangsávok és a Kritikus sávok összerendelése 107 mértékét saját MPEG Audio Az idõ frekvencia leképzésnél a rétegek különbözõ felbontó képességgel rendelkeznek és a transzformálás módszereik is eltérõek lehetnek. Pontosabban nézzük elõször a frekvencia felbontást (6.4 ábra) (6.4 ábra) Alsávokban szereplõ összetevõk további felosztás Az elsõ rétegnél a 32 alsávot, 12 darab mintából (samples) álló csoportokra tagolják.

Majd az így kapott egy hangcsatornához tartozó 384 db audio mintát gyors Fourier transzformáció (FFT – Fast Fourier Transform) segítségével áthelyezik az idõ tartományból a frekvencia tartományba. A kapott együtthatók száma 512 darab A második rétegnél már 3×12 csoportokra tagolják az alsávok mintáit, ezek után a 1152 darab audio mintát szintén az FFT eljárás segítségével transzformálják át az idõbõl a frekvencia tartományba. Így eredményül 1024 darab együttható képzõdik A harmadik rétegnél szintén megegyezõen a második réteggel 3×12 darab minta reprezentál egy alsávot. A hangcsatornánként elõállított 1152 db mintát már a jobb frekvencia felbontást biztosító Módosított Diszkrét Cosinus Transzformáció (MDCT – Modified Discrete Cosine Transform) alkalmazásával az idõ tartományból a frekvencia tartományba helyezik át 50% átlapolás mellett. A 65 ábrán bemutatott leképzési eljárás mûködési vázlatán

megfigyelhetõ, hogy a transzformáció két lépcsõben történik. Az elsõ lépcsõben az 1152 darab minta leképzésébõl 1024 db spektrális együttható jön létre 108 MPEG Audio hasonlóan a második réteghez, viszont itt az együtthatókat 4 alapvetõ osztályba csoportosítják. (6.5 ábra) Harmadik réteg „Layer III” Idõ-Frekvencia leképzõ eljárása Ahol a jelintenzitás (jelingadozás) aránylag kicsi, tehát finom átmenetet képezõ él jön létre, azokat a hosszú lapok (Long Window) csoportjába sorolják, ahol pedig a jel meredekebb átmenetet képez, azok az élek a Rövid lapok (Short Window) csoportjába tartoznak. Ahhoz, hogy a két különbözõ féle lap kapcsolata mind idõben, mind frekvenciában törésmentes lehessen, létrehoztak további két lap csoportot: A hosszúból rövidbe való átmenetre és fordítottan a rövidbõl a hosszúba. Majd második lépésként ezen 4 csoportból 3 alapvetõ blokkot típust képeznek; rövid blokk,

hosszú blokk és mixelt blokk. A hosszabb blokkok nagyobb frekvencia felbontást, míg a rövid blokkok jobb idõbeni felbontást biztosítanak a lapok számára. A rövid éleket 6 és a hosszabb éleket 18 minta reprezentál, ami a rövid típusú lap esetében 12, a hosszú típusú lap esetében 36 mintát jelent az 50% átlapoltság miatt. A rövid blokkok rövid lapoknál, a hosszabb blokkok hosszabb lapoknál jönnek létre. Az átmeneti lapoknál pedig mixelt blokkokat használnak, mivel az átmenet jellegét sem három rövid blokkal, sem egy hosszú blokkal nem tudná hûen reflektálni a rendszer, ezért volt szükséges egy harmadik típusú blokk bevezetésére. A mixelt blokk az alsó kettõ frekvenciasávban nagyobb frekvencia felbontást, míg a többi harminc magasabb frekvenciasávban jobb idõbeni felbontást biztosít. A 66 ábrán példaképpen egy lapsor látható, ahol megfigyelhetõ a harmadik réteg rugalmas blokk felosztási eljárása. Az elsõ és második

réteg csak fix hosszúságú blokkokat alkalmaz 109 MPEG Audio (6.6 ábra) Példa a harmadik réteg blokk kiosztó mechanizmusára Az egyezõség reduktort csak a harmadik réteg kódoló egységében helyezték el. Ennek a feladata az átlapolásból adódóan létrejövõ azonos tartalommal bíró sávok kiszûrése. Pszichoakusztika (Psychoacoustics): Az MPEG pszichoakusztkus modellje, mint az általánosan használt modellekhez (pl.: ATRAC) hasonlóan analizálja az audio szignált és megállapítja a takarás mértékét a frekvencia függvényében. Az adott jel komponens takarási képességét nem csak a jel frekvenciája befolyásolja, hanem függ annak hangosságától (intenzitásától) is. A kóder ezen információkat felhasználva dönti el, hogy mi az legkisebb bitszám, amivel a kvantálás után a szignál jól reprezentálható. A három réteghez két különbözõ komplexitású modellt hoztak létre. Egy 1-es számú és egy 2-es számú modellt Itt is a

magasabb sorszámot képviselõ modul komplexebb számításokat és jobb audio minõséget biztosít. Az elsõ és második rétegnél a szabvány nem tesz kötöttséget, bármelyik modell alkalmazható. A harmadik rétegnél viszont kifejezetten csak a második modell és annak is egy speciálisan módosított változata használható, ami külön még jobban segíti a kódert a hatékonyabb adatredundancia elérésében. Most következzenek azok az alapvetõ mûveletek, amiket általánosságban mindegyik modell tartalmaz, esetlegesen menet közben, vagy majd utólag kiemelve azokat a differenciákat, amik a modellek és a rétegek között fellelhetõk: Audio adatok idõsorba állítása (Time align audio data); mivel mind a pszichoakusztikus modell, mind a többfázisú integrált szûrõsor más-más mûveleti 110 MPEG Audio idõvel rendelkezik, ezért a modellnek a feladata egy idõrendi sorrend felállítása a jel összetevõi között. Ha ez nem történne

meg, a külön kerethez tartozó adatok akár össze is mosódhatnak. Audio adatok konvertálása az õket reprezentáló frekvencia tartományokba (Convert audio to frequency domain representation). Ezzel a adatkonvertációval precízebb képet kaphatunk a jelben szereplõ takarási értékekrõl. Két alapvetõ különbséget vehetünk észre a rétegek között. Az elsõ rétegnél képzõdõ 512 darab együttható teljesen lefedi a 384 db mintát, míg a második és a harmadik réteg esetében 1024 együttható már nem képes a 1152 db minta totális elfedésére. Habár a különbség csekélynek mondható és általánosságban nincs nagy befolyással a szignál pszichoakusztkus kiértékelésére, néha azért okozhat kisebb pontatlanságokat. Ez a differencia egy akkori kényszerû technikai kompromisszum eredményeként született. A spektrális összetevõk csoportosítása a kritikus sávok vonatkozásában (Process spectral values in groupings related to critical band

widths); mindkét modell esetében megkönnyíti a számítási mûveleteket. Spektrális összetevõk szétválasztása, mint tonális vagy nem tonális komponensek (Separate spectral values into tonal and non-tonal components). Tonális komponensek alatt azokat a felbontás által létrejövõ él területeket értjük, amik a hangelfedési tartomány felett helyezkednek el, tehát nincsenek takarásban. Adott frekvencia tartományban pedig fülünk ezeket a domináns komponenseket érzékeli. Az egyes számú modell a takarási tartományból kiemelkedõ lokális csúcspontokat, mint tonális összetevõket azonosítja, majd számtanilag összegzi a kritikus sávokhoz mérten. A kettes modell viszont valójában nem választja szét a tonális és nem tonális komponenseket. Inkább egy tonális indexet (Tonality index) képez a frekvencia függvényében. Ez az index adja meg, a tonális és nem tonális élhosszúságok arányát frekvenciánként. Betakartsági

függvény használata (apply spreading function); a model meghatározza a takarás/zaj küszöböt minden tonális komponensnél, tapasztalati módszerek felhasználásával. Küszöb értékek alsó határának megválasztása (set a lower bound for the threshold values); mindkét modell kijelöli az abszolút takarás határát, magát a hallásküszöböt. Takarási küszöb kijelölése minden egyes alsávban (find the masking threshold for each subband). Az egyes számú modell esetében az alsávokon belül csak a minimális 111 MPEG Audio takarási küszöb értékeket emelik ki a spektrális összetevõk közül. Ez az eljárás, míg az alacsony frekvenciát reprezentáló alsávokban jó megközelítést biztosít, a tényleges takarási tartományhoz képest, addig a magasabb frekvenciájú alsávokban egyre nagyobb pontatlanságot eredményez. Ez a pontatlanság abból adódik, hogy a szélesebb kritikus alsávokban fellépõ takarás jelensége már

átnyúlhat más szomszédos sávokba is. Hátránya ellenére viszont az eljárás nem igényel komplex mûveleti sort, ezért gyorsan végrehajtható. A kettes számú modell szintén meghatározza a minimális takarási küszöböt, de a vizsgálat nem koncentrálódik teljesen az adott alsáv frekvencia tartományára, így a nagyobb frekvencia tartományokban is élethûbb képet tud szolgáltatni a takarás mértékérõl. Jel-takarási viszony szám kalkuláció (calculate the SMR – Signal-to-Mask Ratio); Ez az érték az alsávokban (a harmadik rétegnél már a rugalmasabban felosztott frekvenciasávokra vonatkoztatva) a jelintenzitás és a minimális takarási küszöb arányaiból származtatják. Segítségével fogja a kóder allokációs modulja kiosztani a különbözõ tartalmú blokkokhoz tartozó bit számot. Összegezve a rétegek közötti pszichoakusztikus különbségeket: Az elsõ réteg csak az alsávon belüli frekvenciatakarást veszi figyelembe, a második

réteg felismeri az átmeneti takarás jelenségét fõként az alacsonyabb frekvenciákon, míg a harmadik réteg nem csak azonos frekvencia tartományokban jelentkezõ átmeneti takarást vizsgálja, hanem azokat is, melyek más szomszédos frekvencia sávokba nyúlnak át. Bit Allokáció és Kvantálás (Bit Allocation & Quantization): A bit allokáció mûvelete lényegében, a megadott jelátvitelhez és a pszichoakusztikus értékeléshez együttesen igazított kijelölési folyamat, mikor minden egyes keretben elhelyezkedõ alsáv számára külön-külön meghatározza annak kvantálására felhasználható kódbitek darabszámát. Az elsõ és második réteg esetében ezt úgy oldották meg, hogy az alsávokhoz hozzárendelnek egy takarás/zaj viszonyszámot (MNR – Maskto-Noise Ratio). Ennek meghatározása a következõképpen történik: MNRdB = SNRdB – SMRdB ,ahol a jel/zaj viszonyt az SNR (Signal-to-Noise Ratio), és a jel/takarási viszonyt az SMR

(Signal-to-Mask Ratio) jelenti. Az SMR viszonyszám a pszichoakusztikus modell állítja elõ. Az SNR viszonyszámot pedig egy a kóderhez csatolt, az alkotók által elõre elkészített táblázat szolgáltatja, ez a táblázat a különbözõ kvantálási szintekhez mérten tartalmazza a keletkezõ zaj nagyságát. A bit allokációs modul hivatott felügyelni, hogy az alsávok bit 112 MPEG Audio kiosztásánál az MNR értéke nem haladhat meg egy kritikus határt, mert akkor a zaj már kilépne a takarási tartományból. A harmadik rétegnél egy úgynevezett zaj allokációs eljárás segítségével határozzák meg a jel/zaj viszony (SNR) értékét és nem elõre megbecsült adatok alapján. Itt pontosan kiszámítják, hogy mennyi az a minimális bitszám, amikor még nem jelentkezik torzítás az audio jelben. Az eljárás magja egy iterációs ciklus, ahol az ismétlõdõ próba-kvantálások során a sávok felosztási tényezõjét (scale factor) mind addig

növelik, míg a jeltorzulás mértéke éppen még nem érzékelhetõ az audio szignál rekonstrukciójánál. Az eljárás elõtt még annak érdekében, hogy csökkentsék a mûveleti idõt és növeljék annak hatékonyságát, megnövelik a jelerõsségét az eredeti állapothoz képest ¾ –szeresére. Természetesen a dekódolásnál visszacsökkentik annak erõsségét a normál szintre. A ciklus mûködését tekintve, három feltételt vizsgálnak folyamatosan, és ha bármelyik logikai tényezõ állapota igazra vált, a végrehajtás kiugrik a központi ciklusból. A felosztási tényezõ már túllépi a megengedett torzítás mértékét. A következõ ismétlés esetén a sáv további bõvítése már meghaladja a maximálisan engedélyezett értéket. A következõ ismétlés esetén a felosztási tényezõ már meghaladja a teljes sávtartomány nagyságát. Bizonyos alkalmazásokban külön a felhasználó által megadható opcióval korlátozhatják ezen ciklus

futásidejét. Legelterjedtebb megvalósítása a „Magas hangminõség” (High Quality) elnevezésû kapcsoló bevezetése. Ha az opció ki van kapcsolva a programozó által elõre rögzített idõlimit elérésekor a ciklust megszakítják, így a kódolás mûveleti ideje jelentõsen lecsökken, de vele az elérhetõ hangminõség is. A manapság használt processzorteljesítmények mellett általában nem használatos, a ciklust nem látják el idõkorláttal. A harmadik rétegnél (Layer III.) még egyedileg a kódoló algoritmusban jelentkezõ különbségek a más két réteghez viszonyítva: Egy úgynevezett bit tartály használata (use of a bit reservoir): A harmadik réteg megalkotásakor a tervezõk figyelembe vették azt a tényezõt, hogy a teljes adatfolyamban a kerethosszokat ne csak fix bitszámmal lehessen reprezentálni, hanem bizonyos meghatározott átviteli-értékskálán szabadon variálható legyen. Így a jelátviteli érték megválasztására két

alapvetõ osztályt hoztak létre: - Fix jelátviteli sebességgel (CBR – Constant Bit Rate) rendelkezõ metodika. 113 MPEG Audio - Variálható jelátviteli sebességgel (VBR – Variable Bit Rate) rendelkezõ metodika. A rögzített jelsebességnek a hátránya az, hogy bizonyos kereteknél, amik csak kisebb frekvenciájú jelkomponensek alkotnak, egy nagyobb bitszámú jelátviteli értéknél az allokáció során pazarlóan, jóval több kódbit kerül kiosztásra, mint amennyit a keret komplexitása megkívánna. A variálható jelátviteli sebességnél, a bit allokációs eljárás közben a keretek által tartalmazott frekvencia sávok jellemzõihez mérten lépcsõzetesen csökkentik, illetve növelik az éppen aktuális keretet alkotó bitek számát. Itt a teljes kódolt adatfolyam jelátviteli sebessége az abban szereplõ keretek bitszámának átlagával határozható meg. A modul elnevezése abból származik, hogy a variálható jelátvitelnél egy

bit tartályt (puffer memóriát) képeznek, aminek segítségével az allokáció alatt figyelik az egy kerethez átlagosan kiosztott bitek darabszámát, mert ezen átlagértéknek a lehetõ legpontosabb megközelítést kell nyújtania a felhasználó által megadott jelátviteli sebességhez viszonyítva. M/S sztereo redundancia kódolás (Middle/Side stereo redundancy coding). Mivel a pszichoakusztikus modell csak egyenként vizsgálja a független hangcsatornákat, pontosabban azok kereteit (frame), ezért a harmadik réteg kódoló algoritmusnál – választhatóan – egy külön eljárással egészíthetõ ki. Ez az úgynevezett egyesített sztereo (join-stereo) mód alkalmazása, amikor a pszichoakusztikus modell után újból megvizsgálják a jel hangelfedési értékeit, csak a két csatornát már együttesen analizálva. Bizonyos frekvencia tartományokban, ahol a fülünk nem képes érzékelni a két független csatorna közötti differenciákat, ott azokban az

alsávokban, mint középsõ (middle) csatornaként, végeredményében egyesített mono jelként kódolják az összetevõk, ahol pedig érzékelhetõ számunkra mindkét jel, tehát nincsenek fedésben egyik csatorna komponensei sem, ott oldalakra (side) bontva tárolják a szignált. Adatok entrópikus kódolása (entropy coding of data values). A harmadik réteg kódolási mûveletének utolsó lépéseként, a kvantált biteket tartalmazó adatfolyamot Huffman kódolási algoritmusnak vetik alá, ezzel is veszteségmentesen tovább csökkentve az adatbitek számát. Dekóder (Decoder): A dekódert sokkal egyszerûbb mûveleti sor alkotja, hiszen nem szükséges hozzá sem pszichoakusztikus modell, sem a bitek számának kijelölése, ezért jóval kevesebb idõt igényel maga a kitömörítési eljárás, a tömörítés mûveletéhez képest. Majd a kitömörített bitfolyamból újra felépítik a 32 darab frekvencia sávot, végezetül pedig minden egyes 114 MPEG Audio

alsávban a harmadik réteg esetében egy IMDCT (Inverz MDCT) függvény által, a másik két rétegnél viszont IFFT eljárás segítségével a frekvencia tartományból áttranszformálják az adatokat az idõ tartományba. Így elõáll az a rekonstruált szignál, mely a választott jelátviteli sebességhez mérten közelíti meg az eredeti audio jel fizikális paramétereit. AAC (Advanced Audio Coding) Az AAC tömörítõ alapvetõ jellemzõirõl és különbözõ profiljairól már eset pár szó. Most nézzük át a 6.7 ábra segítségével az AAC kóder mûködési elvének és szerkezeti felépítettségének differenciáit a Layer III. algoritmusához viszonyítva (6.7 ábra) AAC kóder mûködésének blokk-vázlata Az AAC megalkotásakor a harmadik rétegnél alkalmazott kódoló algoritmust tekintették kiinduló bázisnak. Egyszerre törekedtek annak hatékonyabbá tételére és bizonyos egyszerûsítések bevezetésére. 115 MPEG Audio Standard szûrõsor

(Standard Filterbank): Az itt alkalmazott szûrõsor a hagyományos értelmében nem is nevezhetõ szûrõknek, hiszen nem végez frekvencia felbontást, ezért nem jönnek létre alsávok sem. Nem használják a keret (frame) megjelölést. A bemenõ szignált annak összetételétõl függõen legelõször 2048 vagy 256 darab mintából álló blokkokra szeletelik fel, amik a jel teljes frekvencia tartományát magukban foglalják. Megoldották az idõ-frekvencia transzformáció (MDCT) során a minták teljes lefedettségét is, méghozzá úgy, hogy meghagyták a harmadik rétegnél használt lap leképezési tematikát, ahol 1024 db együtthatót rendelnek a hosszabb élekhez, biztosítva ezzel a hosszabb lapok jó frekvencia felbontást, míg a rövidebb éleket 128 db együtthatóból képezik, méghozzá a rövidebb lapok jobb idõbeli felbontása céljából. Viszont a blokkokból szintén 50% átlapolással nem kereteket, hanem egy dinamikusan átfûzött sorozatott

(sequence) alkotnak, így egy mintára pont egy darab együttható jut, ellentétben a harmadik réteg transzformációs eljárásával (1152 db minta 1024 db együttható). További lényeges különbség, hogy az eddigi MPEG Audio tömörítõk a lapokat (él-átmeneteket) csak, mint szinusz-hullám összetevõkként értelmezték és dolgozták fel. Az AAC esetében létrehoztak egy másik egyedi hullámformát is, KaiserBessel Derivált (KBD) néven A KBD függvény a lapok frekvencia komponenseinek egy jóval szélesebb tartományát képes átfogni, a szinusz-hullám modellhez mérten, kódolása is egyszerûbb feladat. Precízebb idõbeli felbontásra viszont nem alkalmas Az AAC kódoló egység végeredményében a szignál spektrális felbontása során az összetevõket 3 külön blokktípusba csoportosítja: KBD hosszú-blokk a tompább átmenetek modellezésére Szinusz rövid-blokk az éles átmenetek finom idõbeli modellezésére Szinusz hosszú-blokk, szerepe

leginkább a harmadik réteg mixelt blokkjaihoz hasonlítható GC eszköz (Gain Control Tool): A Jelerõsítési tényezõt felügyelõ eszköz (Gain Control Tool) csak a SSR Profil használata esetén kerül alkalmazásra. A fõprofillal ellentétben itt a jelet egy úgynevezett hyprid szûrõsor segítségével szétbontják 4 különbözõ méretû alsávra. A hybrid szûrõsor 3 fõ részegységet tartalmaz, egy Többfázisú Integrál Szûrõt (PQF), Jelerõsítési Detektorokat (Gain Detector) és Jelerõsítési Modifikálókat (Gain Modifier). Ezek az egységek egy zárt láncot képeznek, ahol a Jelerõsítési Detektor megállapítja az alsávban létrejövõ élõvisszhang (Pre-echo) mértékét. A Jelerõsítési Modifikáló pedig a kapott élõvisszhang 116 MPEG Audio nagyságától függõen, úgy csökkenti vagy növeli a szûrõsorban az alsáv frekvencia tartományát, hogy az élõvisszhang effektus érzékelhetõsége a sávon belül a legminimálisabb legyen.

A kapott 4 alsávot ezek után a fõprofilhoz mérten fele annyi együttható felhasználásával sávonként átlapolás nélkül MDCT transzformációnak vetik alá, így a rövid blokknál a 2×128 db együttható helyett csak 4×32 db kerül kiosztásra, míg a hosszabb blokkok esetében 2×1024 db helyett csak 4×256 db együtthatót alkalmaznak. TNS (Temporal Noise Shaping): Az idõbeni zajformálás (TNS) egy olyan eljárás, ami adatokat szolgáltat a kvantálási mûveletnél, a fellépõ zaj szintjének szabályzásához. Minden egyes lapnak két fõ paraméter értékét határozza meg: TNS max bands; a profiljellemzõk és a mintavételezési tartomány alapján a használható legmagasabb frekvenciasáv kijelölése a felosztási tényezõ megválasztásához. TNS max order; az LPC kódolásnál használt Levinson-Durbin algoritmus alapján az eredeti spektrális tényezõktõl való megengedhetõ maximális eltérés mértékének kiszámítása. A kvantálási zaj

szempontjából a szignál legkritikusabb részei a különbözõ blokktípusok határai. Kvantáláskor az elõzõ két adat segítségével az egyes lapoknál a spektrális együtthatók manipulációjával bizonyos mértékig szabályozható a kvantálási zaj karakterisztikája. A zaj nagysága a takarási tartomány alá csökkenthetõ, így hiába növekszik meg annak idõbeni lefutása az érzékelhetõségi küszöböt nem lépi át. Predikció (Prediction): Ez az eljárás lényegében a Relatív kódolás adaptációija az AAC algoritmusában, annak érdekében, hogy a tömörített és a tömörítetlen (eredeti) jel között, még minimálisabb legyen a különbség a hangminõség érdekében. Nevezhetnénk hiba korrekciós mûveletnek is, hiszen különbséget képez a szignál azon kritikus szakaszain, ahol vélhetõleg a legnagyobb változások jönnek létre a jel spektrális összetevõiben, majd a kikódolás során a bitfolyamban letárolt különbséghez

mérten korrigálja a jel karakterisztikáját. Magát az eljárást két fõ szakaszra különítették el Az elsõ részben, az ú.n Hosszú távú Predikcióban (LTP – Long Term Prediction) az idõbeni zajformációnál fellépõ esetleges korrekciókat hajtja végre a dekódoláskor. A másik szakasz, ami az egész eljárás tetemesebbik részét teszi ki, a pszichoakusztikus modell által elvégzett adatredukciók ellenõrzését, korrekcióját hivatott felügyelni. Az LTP korrekciós értéke 117 MPEG Audio idõben megelõzi a fõ szakasz korrekciós mennyiségét, de végeredményében a két különbség összegével fog módosulni a jel a rekonstrukciós eljárás során. Pszichoakusztikus modell (Psychoacoustic model): Ennél a modulnál lényegében nem sok változtatást hajtottak végre a harmadik rétegben használt érzékelési algoritmushoz képest. Az alapelv teljesen ugyanaz maradt Az eljárás egy már megismert SMR (Signal to Mask Ratio) viszonyszám

kalkulációt végez, minden egyes lapon. A harmadik rétegnél alkalmazott modellhez viszonyítva, azért kisebb eltérések még is felfedezhetõk az AAC esetében. A tömörítõ algoritmusban helyet foglaló egy-két új modult látja el különféle, a modulokra jellemzõ egyedi információkkal (pl.: predikció és PNS). Ezen átadásra kerülõ információk részletesebb ismertetésére az egyszerûség kedvéért csak az aktuális modulnál érdemes kitérni. A másik kisebb módosítást magában az SMR számítási mûveleti tematikájában alkalmaztak. Egyszerûsítették és ezáltal gyorsították a belsõ mûveleti ciklus futásidejét, méghozzá úgy, hogy az elõzõ érzékelési modelleknél a takarási frekvencia-együtthatókat szinusz függvények (6.8 ábra) segítségével határozták meg (6.8 ábra) Szinusz hullámok takarási skálája a frekvencia tartományában (6.9 ábra) Szinusz hullámok takarási skálája Bark egységekben 118 MPEG

Audio Az AAC esetében viszont egy a lapokhoz rendelt úgynevezett Bark takarási együttható sort képeznek. 1 Bark egyetlen kiritikus frekvenciasáv szélességének felel meg Megközelítõ átszámítása a hagyományosnak mondható szinusz hullámok frekvencia tartományában: < 500 Hz alatt, 1 Bark ≈ f/100 {f: frekvencia} > 500 Hz felett, 1 Bark ≈ 9 + 4 × lg (f/1000) A Bark egységekre felosztott szinusz hullámok takarási skálája az elõbbi 6.9 ábrán látható. A kvantáláskor alkalmazott optimális felosztási tényezõt is szintén a Bark egység alapján számítják ki. Intenzív összekapcsolás (Intensity Coupling): Az algoritmus ezen egysége a jelet hangcsatorna páronként vizsgálja meg, tehát a pszichoakusztikus modell adatai alapján analizálja a csatornák felsõ spektrális frekvencia összetevõit és redukálja a jel azon komponenseit, melyek hiába jelennek meg egy adott idõpillanatban egyszerre a két független hangcsatornán, mi mégis

csak az egyik csatorna által keltett szignál intenzitását érzékeljük. Hangcsatorna párokat képezhetnek például sztereo jel esetén a jobb és a bal, vagy térhatású hang tömörítésekor a bal surround és jobb surround csatornák. Érzékelhetõ zaj helyettesítése (PNS – Perceptual Noise Substitution): Ez a helyettesítõ eljárás még nagyon egyedinek számít a hangtömörítés területén. Eredetileg nem is tartalmazta az elõször bemutatott AAC algoritmus, csak késõbb csatolták a kódoló egységhez. Feladata, hogy már az eredeti szignálban fellelhetõ domináns, – az emberi fül számára érzékelhetõ –, zajszerû hangokat kvantálás elõtt kiemeli a jel spektális összetevõibõl és eltárolja a kódolt bitfolyamban. A dekódolás során pedig, a rekonstruált szignálban az eredetileg elfoglalt helyéhez viszonyítva kerül beillesztésre, mint lényeges mértékben átformáló jelkomponens. Jelentõsége az eljárásnak vitathatatlan, hiszen

segítségével a kikódolt audio jel karakterisztikája eddig sosem tapasztalt mértékben képes megközelíteni az eredeti kódolás elõtti digitális jelet. M/S sztereo (Middle/Side Stereo): Az eljárás belsõ mûködése teljesen megegyezik a harmadik rétegnél alkalmazottal. Egyetlen különbség az AAC többcsatornás (térhatású) hang tömörítésének képességében rejlik, ezért a mátrix elrendezésben helyet foglaló csatornákat ciklikusan páronként végig vizsgálja (hasonlítja), ahol pedig hangelfedés jelenségét észleli, ott 119 MPEG Audio elvégzi a kívánatos adatredundanciát. Ha a bitfolyam esetlegesen tartalmaz LFE csatornát, akkor ezt az eljárásból kizárja, mint konstans csatornát. Kvantálás és Kódolás (Quantization & Coding): A harmadik rétegnél használt kvantálási algoritmust csak kisebb módosításokkal és fejlesztésekkel látták el, az AAC eljárás kapcsán. Alapvetõen a TNS és a pszichoakusztikus

egységek által szolgáltatott információk segítségével, kialakítja laponként az MNR viszonyszámot. Majd a sávfelosztási tényezõket (scalefactor bands) úgy választja meg az MNR értékéhez mérten, hogy a zajformált spektrális összetevõk kvantálás utáni jelintenzitása nem lehet kisebb a kvantálási zaj nagyságától, de a kvantálás foka a TNS egység által kijelölt torzítási küszöböt sem haladhatja meg. Miután megtörtént a kvantálás a létrehozott sávfelosztási tényezõk alapján szintén, mint a harmadik réteg esetében Huffman algoritmus segítségével veszteségmentesen kódolják az adatokat, ezzel is tovább csökkentve a blokkok byte-ban elfoglalt méreteit. Még egy fontos kitétel az AAC esetében, hogy mivel a blokkok az SSR profil kivételével dinamikusan illeszkednek egymáshoz, ezért opcionálisan választható jelátviteli tematikáról nem lehet beszélni. Tehát az SSR profilban a kódolt bitfolyamot fix jelátviteli

sebesség (CBR) jellemzi, ellentétben a többi profillal (pl.: fõprofil), ahol a bitfolyam csak is a VBR jelátviteli skálán rögzített értékeket követheti, akár azokat blokkonként szabad variálva. Bitfolyam formázás (Bitstream Formatter): Az AAC Bitfolyam szintaktikáját igyekeztek úgy kialakítani, hogy rugalmasan használható legyen bármilyen alkalmazás számára, és könnyedén hozzá lehessen illeszteni különbözõ típusú komplex audio átviteli rendszerekhez. A bitfolyamot elsõ lépcsõben két fõ részre bontható: Átviteli információk (Transport information) Blokk információk (Block information) Az átviteli információk az utána következõ blokk méretét és egyéb szinkronizációs, hibaellenõrzõ adatokat tartalmaznak. A blokk rész még további öt külön szekcióra bontható: Program konfiguráció (Program configuration) Audio alapelemek Kapcsolati alapelemek Töltõ alapelemek (Audio elements) (Coupling elements) (Fill elements)

120 MPEG Audio Határvonal (Terminator) A program konfigurációs részben található a „copyright jogokkal” kapcsolatos bájtok és az audio bitfolyam alapinformációi, mint a hangcsatornák száma (LFE száma) és azok mintavételezési tartománya, plusz sok egyéb kisebb jelentõségû kiegészítõ információ. Az audio részben maga a kódolt zenei tartalom foglal helyet. Itt találhatók a mátrix elrendezésû hangcsatornák blokk-sorozatai (block-sequence), ezért kapta méltán az AAC bitfolyam adatstruktúrája a blokk a blokkban (block-by-block) elnevezést. A kapcsolati részben a hangcsatornák közötti összefüggések tárolhatók le, mint például melyik blokk sorozat képviseli a bal surround csatornát és mi annak a csatornának a párja (a jobb oldali), vagy melyik az LFE. A töltõ részben pedig a PNS és a predikciós eljárásokhoz kapcsolódó adatok foglalnak helyet. Végezetül az ötödik szekcióval jelölik, magát a fõblokkok határait a

bitfolyamban. Dekóder (Decoder): A kicsomagoló eljárás könnyen levezethetõ a kódoló algoritmus blokk-vázlatából, ezért azt nem is érdemes külön ábrázolni. Ha megfigyeljük a 67 ábrát és leképzeljük róla a Pszichoakusztikus modellt és a laphossz kiértékelõ egységet, majd pedig az ábra aljától elindulunk a blokk diagram teteje felé, már is megkaptuk a dekódoló algoritmus sematikus vázlatát. Természetesen a GC eszköz, mint a kóder esetében, csak az SSR profilban kapcsolódik az eljárás egészéhez. Észrevehetjük, hogy ha kivennénk az AAC eljárásból a TNS, PNS és a predikciós egységeket, akkor a hasonlóság mindenképp tagadhatatlan az MPEG elsõ és második fázisában helyet foglaló három réteg dekódoló algoritmusához mérten. TwinVQ (Transform-Domain Weighted Interleave Vector Quantization) Az audio kódolásban eddig szinte egyeduralkodó technikai irányzatnak számított a skaláris kvantálás. Az állókép tömörítés

területén már szinte a kezdetek óta jelen van a kvantálásnak ez a merõben más megközelítési formája; a vektorképzés. Az elsõ vektorkvantálási technikát felvonultató audio kódoló programok csak a 90-es évek közepén láttak napvilágot, pedig ez a kvantálási módszer sokkal hatékonyabb tömöríthetõséget biztosít a szokványos skalár kvantálással szemben. Hátrány viszont, hogy kisebb a hibatûrõ képessége és számítási komplexitása is általában nagyobb. Másik fõbb ok, amiért késõbb került bevezetésre az audiotechnika területén, hogy kezdetben kizárólag beszédtömörítésre volt alkalmazható. Mivel az audio jeleket, a beszéddel 121 MPEG Audio szemben, nem csak harmonikusan szabályos frekvencia összetevõk alkotják, így egy szimpla vektor kvantálása során, olyan probléma jelentkezett, hogy a szignál alacsony frekvencia tartományaiban az alvektorok találkozási pontjain bizonyos zajok képzõdtek. Ezt a problémát

oldották meg az NTT társaságnál, azzal, hogy úgynevezett „kevert” átlapolást (Interleave) alkalmaztak az alvektorok között (6.10 ábra) Mûködését tekintve a TwinVQ hangkódolás, egymagában 4 fõ részbõl tevõdik össze: MDCT függvény által végzett idõ/frekvencia transzformáció MDCT együtthatók lapítása (flattening) LPC (Linear Prediction Coding) analízis segítségével Másodszintû lapítás Kevert átlapolású súlyozott Vektor Kvantálás (6.10 ábra) „Kevert átlapolás” Interleave bemutatása A MDCT konverzióról már volt szó az AAC algoritmusában, ezért nem érdemes kitérni rá még egyszer. Elsõ szintû lapításnál a MDCT együtthatókat az LPC kódolási technikát felhasználva többszintû LSP (Line Spectrum Pair) 122 paraméterekre, más néven MPEG Audio alvektorokra bontják szét. Ezen alvektorokat átlagos globális spektrál- intenzitásukhoz mérten kiértékelik és rendszerezik. A folyamat a Spektrum

Normalizálás elnevezést kapta Ezek után történik a kvantálás mûvelete, ahol magának a kvantálásnak a mértékét egy elõre elkészített kódtáblázat alapján szabályozzák, hasonlóan a MPEG elsõ és második réteg kódoló egységeinél. A vektorkvantálás kódtáblázatát egy úgynevezett Lloyd algoritmus alapján generálták, ami ellenõrzi, hogy hallható kvantálási zaj és torzítás ne jöjjön létre a jelben. Mivel a MDCT spektrális együtthatókat kizárólag csak LPC lapítási módszerrel nem lehet egyszerre hatékonyan és jó hangminõséggel is kódolni, ezért mindenképp szükségeltetik a kvantálás elõtt egy másodszintû lapítási eljárás is. Itt a kvantáláskor már nem csak a keletkezõ jeltorzulást és kvantálási zajt felügyelik, hanem a humán hallórendszerhez igazítva összevetik az LPC komponensekbõl képzett burkológörbét a Bark-skála burkológörbéivel. Az eredeti Lloyd kódtáblázat alapján és a kapott

burkológörbék differenciaértékeit súlyozottan figyelembe véve történik az alvektorok kvantálása. A teljes folyamatot a 611 ábrán figyelhetjük meg (6.11 ábra) Másodszintû lapítás algoritmusa 123 Tömörítési-tesztek összehasonlítása és azok kiértékelése Tömörítési-tesztek összehasonlítása és azok kiértékelése A vizsgálataim fõ célkitûzése elsõsorban az, hogy segítséget nyújtson bárki számára, egy adott feladat esetén kiválasztani a legmegfelelõbb, és az alkalmazás szempontjából leghatékonyabb tömörítõ eljárást. Ahhoz pedig, hogy ennek valaki is maradéktalanul eleget tudjon tenni, elõbb meg kell ismernie a manapság legelterjedtebb eljárások kedvezõ és kedvezõtlen tulajdonságait. A tömörítõ algoritmusok tulajdonságaira általában három fõ jellemzõ értéket szoktak használni: Tömörítési arány (viszonyszám, mely megmutatja, hogy a tömörített állomány hányad része az eredeti

tömörítetlen állománynak) Számítási igény (egységnyi idõhosszúságot reprezentáló adatállomány betömörítéséhez szükséges idõtartam) Hangminõség (a tömörített hang, mennyire képes visszaadni az emberi fül által pszichoakusztikusan érzékelt eredeti, tömörítetlen hang hûségét) Az elkövetkezõ tesztek az elõbb felsorolt jellemzõk számszerûsítésére fognak törekedni. A könnyebb kiértékelhetõség kedvéért a teszteket is szintén 3 szakaszra bontottam szét, mivel minden egyes szakaszban más-más szempontot vizsgálok kitüntetett figyelemmel. Az elsõ szakasznál általánosságban a hangtömörítõ eljárás számítási igénye és a processzor jellemzõk közötti kapcsolatok figyelhetõk meg. A második szakaszban fõként a hangminõséget veszem elõtérbe, majd csak másodsorban mérlegelem a példaként felhozott eljárások másik két jellemzõ értékeit, hogy azok adott hanghûség mellett növelik, illetve csökkentik

a mûvelet hatékonyságát. A harmadik szakaszban a fõ hangsúly az eljárások nyújtotta tömörítési arányokra helyezõdik. Gondolva a valós idejû adatkommunikációra (például: Internet, Telefon kapcsolat, stb.) A „valós idõ” nem csak az adat tömörítési arányának és a kommunikációs csatorna kapacitásának a függvénye. Majdnem annyira lényeges kritérium az eljárás alacsony számításigénye. A minõségi követelmények pedig egy valós idejû adatkommunikációnál mindenkor csak a harmadik szempont lehet a három közül. 124 Tömörítési-tesztek összehasonlítása és azok kiértékelése Egyértelmû, hogy itt az általam példaként felhozott tesztek három különálló szakasza nem minden konkrét feladathoz nyújt kellõ segítséget. Igazán csak akkor juthatunk el egy valós feladat legjobb megoldáshoz, ha a teszteket speciálisan úgy választjuk meg, hogy az adott célfeladatra és követelmény szintre orientálódjanak.

Számításígény és processzor jellemzõk vizsgálata Ebben a szakaszban legelsõként fogadjuk el azt a tényt, hogy a szoftveres hangtömörítõ eljárásokhoz szükséges egységnyi mûveleti idõ, más néven számításigény legfõképpen a számítógép központi feldolgozóegységének (CPU – Central Processor Unit) sebességén múlik, itt ezt az állítást tesztekkel nem kívánom alá támasztani. A CPU további két részegységre bontható: NPU (Numerical Processor Unit), az egész számok feldolgozására szolgál, sebességének mértékegysége a MIPS (Million of Instructions Per Second), ami konkrétan az egy másodperc alatt végrehajtott mûveletek max. darabszámát jelenti FPU (Floating Processor Unit), a tört illetve tizedesjeggyel rendelkezõ számok feldolgozására szolgál, sebességének mértékegysége a MFLOPS (Million Floating point Per Second), ami az egy másodperc alatt végrehajtott lebegõpontos mûveletek max. darabszáma Említésre

méltó, hogy minden processzornál van egy úgynevezett mûveleti ciklus idõ, más néven belsõ órajel, aminek a mérõszáma: Mhz, viszont a hangtömörítés szempontjából ez érdektelen a számunkra. Általában minél magasabb a processzor órajele (Mhz), annál nagyobb a két részegység sebessége, de mint a következõ példa is mutatni fogja, ez az összefüggés nem mindig törvényszerû. A teszteknek ebben az elsõ szakaszában kifejezetten két olyan CPU egységet vizsgálok, amik azonos belsõ órajellel rendelkeznek, viszont MIPS és MFLOPS jellemzõik alapvetõen eltérnek egymástól. A processzor-sebességtesztek a MIPS v31a elnevezésû programmal készítettem. A két processzor típust és a kapott sebesség eredmények a következõk voltak: Cyrix (PR150+) 120 Mhz, 143 Mips és 4.7 Mflops (továbbiakban csak C120) Intel Pentium (P54C) 120 Mhz, 113 Mips és 6.1 Mflops (továbbiakban csak P120) A 7.1 ábrán jól látható, hogy míg az Intel cég által

készített processzor gyorsabb lebegõpontos mûveletekben, mint a másik a Cyrix cég gyártmánya, addig viszont a fix pontos (egész számok) mûveletek esetén a „Pentium” fantázianevet viselõ processzor marad le jócskán a vetélytárshoz képest. 125 Tömörítési-tesztek összehasonlítása és azok kiértékelése Ha tehát ezeken a processzorokon ugyanazon hangtömörítési tesztfeladatokat hajtjuk végre és mérjük azok mûveleti idejét, akkor egyértelmûen választ kaphatunk arra a kérdésünkre, hogy egy hangtömörítésnél a fixpontos vagy a lebegõpontos számítások vannak e túlsúlyban. (7.1 ábra) A teszthez felhasznált két processzor típus jellemzõik A tesztekhez elsõdlegesen szükséges tömörítetlen hanganyag, esetünkben egy 60 másodperc hosszú, 44.1 kHz mintavételezésû, 16 biten kvantált WAV formátumú sztereo hangfájlt választottam. Az állomány mérete ellenõrzõ adatokkal együtt 10584056 bájt Ebben a szakasz a

következõ 4 darab tömörítõ programot használtam fel a tesztekhez: PsyTEL Experimental AAC Encoder v1.0 – build 191 – / α2 (továbbiakban csak AAC) BLADE MPEG Audio Layer III. Encoder v09 (továbbiakban csak MP3) NTT TwinVQ Encoder v2.11 (továbbiakban csak VQF) WMA Encoder v0.98 (továbbiakban csak WMA) Az elõbb felsorolt négy algoritmus segítségével megvizsgáltam a hangtömörítéskor a két processzor közötti mûveleti idõt, méghozzá úgy, hogy többféle jelátviteli sebességen is elvégeztem a WAV fájlon a kódolást, miközben mértem az ahhoz szükséges idõt. Mindenképp érdemes megjegyezni, hogy az elkövetkezõ tesztekben szereplõ AAC kódolás és dekódolás során egyaránt csak annak fõprofilját alkalmazom. Nézzük a kapott eredményeket (7.2 táblázat): Tömörítés 1:44 1:35 1:29 1:25 1:22 1:17 1:15 1:13 1:11 1:9 1:7 1:6 1:5 1:4 Kbit/sec 32 40 48 56 64 80 96 112 128 160 192 224 256 320 Átlag AAC

C120 - - - - 956 967 1009 1023 1034 1053 1079 1109 1132 - 1040.2 (sec) P120 - - - - 648 658 669 679 693 714 745 755 784 - 705 MP3 C120 340 350 358 366 374 386 394 403 380 379 370 365 375 371 372.21 (sec) P120 195 202 207 213 218 227 232 236 238 217 208 204 202 204 214.5 VQF C120 - - - - - 1082 1094 - - - - - - - 1088 (sec) P120 - - - - - 500 517 - - - - - - - 508.5 WMA C120 - - 77 - 82 85 89 - 94 109 - - - - 89.33 (sec) P120 - - 68 - 69 69 71 - 73 81 - - - - 71.83 (7.2 táblázat) AAC,MP3,VQF,WMA algoritmusok kódolásához szükséges mûveleti idõk az adott processzorokon 126 Tömörítési-tesztek összehasonlítása és azok kiértékelése A táblázatban szereplõ 4 darab eljáráshoz tartozó átlag tömörítési idõkbõl, a jobb ábrázolhatóság kedvéért százalékos értékeket képeztem, ahol a 100% felel meg pont a valós idejû

adatfeldolgozás határának. Így ezen határ alatt az eljárás nem valós idejû hangtömörítés, felette viszont bõven megfelel a „real-time” feldolgozás követelményeinek. Az átszámítás lényege, hogy a tömörítetlen fájl kódolásához szükséges idõ százalékosan hányad része a 60 másodperc hosszú WAV állománynak. Például: AACC120 (%) = 60 s / 1040.22 s × 100 = 577 % Ez a százalékos érték egyaránt értelmezhetõ még az adott processzorhoz és alkalmazáshoz rendel kódolási sebességnek vagy a számítási igény relatív megközelítésének is. A 73 táblázatban jól láthatók ezek a százalékos értékek: (7.3 táblázat) % AAC MP3 VQF WMA C120 5.77 16.12 5.51 67.16 P120 8.51 27.97 11.8 83.53 AAC,MP3,VQF,WMA algoritmusok százalékos értékarányai a valós idejû kódoláshoz képest az adott Cyrix és Intel processzorok esetében A 7.3 táblázat értékeibõl képzett grafikon a 74 ábrán figyelhetõ meg

(7.4 ábra) AAC,MP3,VQF,WMA eljárások kódolási sebessége az adott processzorokon A táblázatból, de a grafikonból még egyértelmûbbnek kell tûnnie számunkra, hogy a hangkódolás mûvelete elsõsorban a processzor FPU egységének számítási sebességétõl függ, hiszen a tesztben az „Intel Pentium” processzor bizonyult gyorsabbnak, amit elõzõleg éppen a lebegõpontos számítási mûveletek terén találtunk hatékonyabbnak Cyrix vetélytársánál. A következõkben szintén megvizsgáltam a dekódolás mûveleti sebességét is, de az elõzõ módszernél kicsit egyszerûbben. A rendszerprogram segítségével megfigyeltem a tömörített hangállományok lejátszásakor a processzor terheltségi mutatókat (7.5 127 Tömörítési-tesztek összehasonlítása és azok kiértékelése táblázat). Ez is egy százalékos érték, viszont itt a 100% a teljes processzor foglaltsági határt jelenti, tehát elméletileg a kritikus terheltségi szintet elérve a

hanglejátszás folytonossága megszûnik, a zene akadozni kezd. Ha viszont ez az érték minél kisebb, akkor annál gyorsabban képes a processzor végrehajtani a dekódolás mûveletét. A kódolt hangminták lejátszásához minden esetben a WINAMP v2.61 programot használtam CPU (%) AAC MP3 VQF C120 <100 60-70 80-100 P120 <100 40-50 50-60 WMA 70-80 60-70 (7.5 táblázat) AAC,MP3,VQF,WMA dekódoló algoritmusok CPU terheltségi szintjei az adott processzorokon Mindjárt feltûnhet, hogy intervallumokat tartalmaz az elõzõ táblázat és nem pontos értékeket. Ennek fõ oka az, hogy a lejátszók általában saját puffer memóriát alakítanak ki a folyamatos zenelejátszás biztosítására. Hasonlóan, mint az ATRAC hardveres egységekben. Továbbá itt is átlagoltam a különbözõ jelátviteli sebességeknél minimális differenciát mutató CPU terheltségi értékeket. A jobb kiértékelhetõség szempontjából a 7.5 táblázat adatait grafikusan is ábrázoltam

(76 ábra) (7.6 ábra) AAC,MP3,VQF,WMA dekódoló algoritmusoknál mért CPU terheltségi szint grafikusan ábrázolva Ebbõl és az elõzõ tesztbõl egyértelmûen levonható azon következtetés, hogy általában a hangtömörítések során, mind a kódolás, mind a dekódolás mûveleti ideje legfõképpen a központi feldolgozó egység lebegõpontos számítási sebességétõl (Mflops) függ. Hi-Fi hangminõséget biztosítani képes tömörítõ eljárások vizsgálata Az elõzõ szakaszban észrevehettük azt a tényt, hogy az ott felhasznált 120 Mhz belsõ órajelû processzorok közül, se az Intel, se a Cyrix nem voltak képesek az AAC kódolt állomány folyamatos lejátszására, ezért az elkövetkezõ tesztekben már egy gyorsabb mûveleti sebességgel rendelkezõ központi feldolgozó egységet alkalmaztam. Habár az itt használt processzor jellemzõi a feladat szemszögébõl érdektelenek a számunkra, azért az elõzõ szakasz kedvéért a felsorolás

szintjén még is megemlítem: 128 Tömörítési-tesztek összehasonlítása és azok kiértékelése Intel Pentium MMX (P55C) 266 Mhz, 260 Mips és 14 Mflops A továbbiakban pedig a hangtömörítõ eljárásokat is kibõvítettem két újabb algoritmussal, amiket a következõ program segítségével vizsgálhattam meg: Wav2Mp v1.0 – MPEG Audio Layer I-II Encoder – (továbbiakban csak MP1 és MP2) Elsõ lépésként hasonló módszerrel, mint az elõzõ szakaszban lemértem az eljárások számításigényét az aktuális processzoron. A 60 másodpercnyi WAV formátumú állomány kódolásának mûveleti idejét (sec) a 7.7 táblázat tartalmazza Kbps AAC MP1 MP2 MP3 VQF WMA 32 40 48 56 64 - - 323 - - 162 - - 121 122 121 93 96 100 103 104 - - - 37 40 80 329 125 114 200 42 96 336 165 128 115 207 45 112 344 130 121 - 128 352 175 132 120 50 160 366 176 134 119 55 192 377 179 140 117 - 224 393 185 144 119 - 256 403 189 149 123 - 320 384 197 222 158 166 131 - (7.7

táblázat) AAC,MP1-3,VQF,WMA kódoló algoritmusok mûveleti ideje adott hangminta és processzor mellett A 7.7 táblázat adataiból pedig szintén százalékos értékarányokat képeztem, csak itt a pontosság kedvéért nem az idõátlagokat vettem alapul, hanem minden egyes idõintervallum esetében elvégeztem a már ismertetett átszámítást (7.8 táblázat) Kbps AAC MP1 MP2 MP3 VQF WMA 32 64.52 - 40 62.5 - 48 49.59 60 162.16 56 49.18 58.25 - 64 18.58 37.04 49.59 57.69 150 80 18.24 48 52.63 30 142.86 96 17.86 36.36 46.88 52.17 28.99 133.33 112 17.44 46.15 49.59 - 128 17.05 34.29 45.45 50 120 160 16.39 34.09 44.78 50.42 109.09 192 15.92 33.52 42.86 51.28 - 224 15.27 32.43 41.67 50.42 - 256 14.89 31.75 40.27 48.78 - 320 30.46 37.97 45.8 - 384 27.03 36.14 - (7.8 táblázat) AAC,MP1-3,VQF,WMA eljárások kódolási sebességei adott jelátvitelnél, processzoron és hangmintánál A 7.8 táblázat alapján megrajzolt grafikon a 79 ábrán tekinthetõ meg A

grafikonon található görbék alakjairól, amik a különbözõ kódoló algoritmusok számításigényét reprezentálják a jelátvitel sebességének függvényében, igazán messzemenõ következtetéseket nem tudunk leolvasni, de egy dolgot általánosságban mindenképp megállapíthatunk, mégpedig ahogyan növeljük a kódolt adatfolyam sávszélességét, annál jobban nõ vele együtt a mûvelethez szükséges számítások mennyisége is. 129 Tömörítési-tesztek összehasonlítása és azok kiértékelése (7.9 ábra) AAC,MP1-3,VQF,WMA algoritmusok kódolási sebességei az adott processzoron mérve Második lépésben az eljárások dekódoló algoritmusának sebességét is szintén hasonlóképpen kaptam meg. Elõször lemértem a különbözõ sávszélességgel rendelkezõ kódolt adatfolyamok dekódolásához szükséges idõket, majd ezek átlagából százalékos értékarányokat képeztem. Ez esetben a dekódolás mûveletét konkrétan úgy

értelmeztem, mint mikor a kódolt hangállományokat visszakonvertálom egy a kiinduláskor használt tömörítetlen WAV fájlformátumra. A kapott idõtartamok és a viszonyított számítási sebességek a 7.10 táblázatban és a 711 diagrammon figyelhetõk meg (7.11 ábra) AAC,MP1-3,VQF,WMA eljárások dekódolási diagramja az adott processzorhoz viszonyítva Eljárások Dekódoláshoz szükséges idõ Valós idejû dekódolás (%) (sec) AAC MP1 MP2 MP3 VQF WMA 36.5 6 6 9 15 12 164 1000 1000 667 400 500 (7.10 táblázat) AAC,MP1-3,VQF,WMA dekódoló algoritmusok sebessége az adott processzorhoz viszonyítva 130 Tömörítési-tesztek összehasonlítása és azok kiértékelése Harmadik lépésben pedig felállítottam egy minõségi skálát a kódolt adatfolyamok jelátviteli sebességeihez mérten. Az összes teszt közül ez a legszubjektívebb feladat, hiszen minden embernek némileg eltérõ pszichoakusztikus tulajdonságokkal rendelkezik a hallása. A

hangminõség megállapítására, ezért nem pontos értékeket adtam meg, hanem sávszélesség intervallumokat. A 712 diagrammon a bepontozott területek jelzik azokat a jelátviteli sebesség tartományokat, ahol az általam megállapított Hi-Fi hangminõséget már biztosítottnak vettem a kódolás után keletkezõ adatfolyamon. Az eljárásokban használható ennél magasabb jelátviteli sebességek, már egy 44.1 kHz, 16 bites, sztereo hangminta tömörítésénél számomra pazarlásnak tûnik, hiszen érzékelhetõ hangminõség javulást nem tapasztaltam. (7.12 ábra) AAC,MP1-3,VQF,WMA eljárások hangminõség skálája A fenti diagramm alapján nem csak Hi-Fi hangminõségû sztereo zenék minimális jelátviteli értékeit lehet behatárolni, hanem aránylag jó megközelítéssel kiszámolhatók ezek az értékek a többcsatornás (surround) zenék esetében is. Mivel az eddigiekben felsorolt összes jelátviteli sebesség két csatornára vonatkozott, így azokat

leosztva egy csatornára, majd pedig felszorozva a surround hang csatornáinak számával, könnyedén megkaphatjuk a kereset értéket. Vegyünk egy egyszerû példát; 6 csatornás surround hang AAC kódolása esetén a Hi-Fi minõség biztosításához: ≈ 96 kbps / 2 × 6 = 288 kbit/sec. Az eddigi teszteket összegezve könnyen beláthatjuk, hogy ha egy feladat során általában kevésszer (optimális esetben csak egyszer) szükséges a hanganyagok kódolása, inkább csak ismételt dekódolást és lejátszást alkalmaznak (pl: zenék archiválása), akkor a hardver egység gyorsaságától függõen érdemes olyan hangtömörítõ algoritmusokat használni, amik aránylag nagy tömörítési arány mellett képesek jó 131 Tömörítési-tesztek összehasonlítása és azok kiértékelése hangminõséget produkálni. Hátrányuk gyakorta a tömörítésnél fellépõ magas számítási igény, viszont az adatok dekódolásakor ez a mûveleti komplexitás már csak a

töredéke szokott lenni. Ha tehát az elõbb felsorolt követelmények alapján mérlegeljük az elvégzett teszteket, akkor két eljárást érdemes kiemelni: AAC, VQF. Az MPEG I, II és III rétegének tömörítõ algoritmusait elsõsorban inkább olyan feladatoknál lehet elõnyösen alkalmazni, ahol a központi feldolgozó egység gyorsasága erõsen korlátozott. A WMA esetében pedig mivel megállapítható, hogy csekély a különbség a kódolási és a dekódolási mûveleteinek sebessége között, így például a rövid idõtartamú adattárolásoknál optimálisan felhasználható. Alacsony jelátviteli sebességnél használatos hangtömörítõk vizsgálata Itt a tesztek harmadik szakaszában már könnyebb dolgunk lesz, hiszen a hangtömörítõk egy fontos jellemzõjétõl tekinthetünk el az elkövetkezõ vizsgálatokban. Ez az elhanyagolható tényezõ ebben az esetben az eljárások számításigénye. A manapság használt központi feldolgozó egységek

teljesítménye mellett, szinte elenyészõ gondot jelenthet mind az adatfolyam alacsony sávszélességû kódolásakor, mind annak dekódolása fellépõ processzor terheltségi szint. A másik meghatározó tény, amit már az elõzõ tesztek is bebizonyítottak, hogy ha minél jobban csökkentjük a jelátviteli sebességet, annál rövidebb lesz az eljárás mûveleti ideje. A maradék két jellemzõt fogom tehát mérlegelni, méghozzá úgy, hogy elsõdleges szempont a jelátvitel sebessége lesz, hiszen ha egy kommunikációs csatorna kapacitását meghaladja a kódolt adatfolyam sávszélessége, akkor az általa hordozott hang valós idõben nem játszható le. Mivel adott az adatcsatorna jelátviteli sebessége, ezért hangtömörítés szempontjából egyetlen egy lehetõség marad, azon a sávszélességen minél jobb hangminõséget produkálni. A elkövetkezõk teljes megértéséhez nem árt tisztában lennünk a hétköznapi életben legelterjedtebb kommunikációs

adatcsatornák kapacitásával, természetesen a telefonvonalakról lesz szó. A vonalaknak két fõ típusát különböztetik meg; analóg és digitális. Az analóg csatorna esetében az adatkommunikációhoz mindenképpen szükséges egy jelmoduláló egységet csatlakoztatni a vonalra, amit röviden modemnek szoktak nevezni. A maximális jelátvitel mértékét alapvetõen a csatorna adatkapacitása korlátozza, viszont analóg átvitel esetén a kommunikáció sebességét már vitathatatlanul a modem határozza meg. A modem sebességének mértékegysége a baud (bps), ami a fizikálisan forgalmazható bitek maximális darabszámát jelenti egy másodperc alatt. A baud tehát 132 Tömörítési-tesztek összehasonlítása és azok kiértékelése tartalmazza a hibajavító és ellenõrzõ biteken keresztül a csatornát vezérlõ biteket is, így az effektíven forgalmazott tényleges adatbitek darabszáma mindig alacsonyabb a modem kapacitásától. A modemek fizikális és

tényleges jelátviteli sebességeit a 713 táblázat tartalmazza. Alaptípus Analóg csatorna Digitális csatorna (ISDN) Fizikális adatátviteli sebesség (baud) 14400 bps 28800 bps 56000 bps Effektív adatátviteli sebesség (bit/sec) ~ 10000 bps ~ 22000 bps ~ 37000 bps 112000 bps ~ 80000 bps (7.13 táblázat) Általánosan használt adatcsatornák jellemzõ értékei Ha visszatekintünk a 7.12 táblázatra, egyértelmûen megállapítható azon sajnálatos tény, hogy a Hi-Fi hangminõségû szetero zene valós idejû sugárzása biztonsággal csak két ISDN ikerpáron oldható meg, nem beszélve a kettõnél több csatornás zenékrõl. Kénytelen kelletlen a lehetõségekhez mérten el kell fogadnunk, hogy a manapság használt telefon kommunikációs csatornákon (pl.: Internet) valós idõben csak kevésbe jó minõségû zenéket tudunk hallgatni. A beszéd esetében már sokkal jobb a helyzet, hiszen annak jóval kisebb a sávszélesség igénye. Ez elõbbi okok miatt,

itt a tömörítéseknél mind egycsatornás (mono) kódolt hangot állítottam elõ, majd pedig azok által nyújtott hangminõséget vizsgáltam. Továbbá a tesztben az elõzõ változtatásokon felül a következõ három, a vizsgálataim során eddig nem használt eljárást vezettem be: MSN Audio (továbbiakban csak MSN) Real Audio (továbbiakban csak RA) Voxware MetaSound (továbbiakban csak VOX) A felsorolt három algoritmust és számos egyéb más hangtömörítõt is kifejezetten csak alacsony jelátviteli sebességre terveztek és magas sávszélességen egyáltalán nem alkalmazhatók, ezért nem kerültek megemlítésre a részemrõl az elõzõ két szakaszban. Léteznek persze olyan eljárások is, amik pont fordítva, csak magas jelátviteli sebességre korlátozódnak. A három eljárás közül kettõt a rendszerprogram biztosított a számomra, az RA kódoló algoritmust, viszont a Real Audio Encoder v5.1 elnevezésû program segítségével teszteltem. 133

Tömörítési-tesztek összehasonlítása és azok kiértékelése A vizsgálatot az egyszerûség kedvéért csak két jellegzetes jelátviteli sebességen 8 és 32 kbps végeztem el. Mivel a hangminõség szubjektív fogalom, de még is azért, hogy ábrázolható legyen, a kódoló algoritmusok áltál átfogott mintavételezési tartomány nagyságát (Hz) vettem alapul, adott jelátviteli sebességnél. A kódolt adatfolyam minõségét nem csak túlnyomórészt az aktuális mintavételezési frekvencia határozza meg, ezen kívül az eljárás számos jellemzõje befolyásolhatja, amik ellenben mindenképp csak szubjektív elbírálás alá eshettek. A felsoroltakat figyelembe véve a következõ eredmények születtek (7.14 táblázat): Kbps MP3 8 12000 Hz 32 24000 Hz MSN 8000 Hz 22050 Hz RA 11025 Hz 22050 Hz VOX 8000 Hz 22050 Hz WMA 12000 Hz 32000 Hz (7.14 táblázat) Tömörítõ eljárások mintavételezési frekvencia tartománya adott jelátviteli sebességhez

mérten A 7.14 táblázat adataiból készített grafikon a 715 ábrán látható (7.15 ábra) Hangtömörítõ algoritmusok két jellemzõ jelátviteli sebességnél használt mintavételezési tartományaik A látott adatok alapján, valamint szubjektíven összehasonlítva az öt különbözõ algoritmussal kódolt hangminta minõségét levonható a végsõ következtetés, miszerint valós idejû hangtömörítésre egyértelmûen a WMA használható fel a legjobban. A általam felállított teljes minõségi sorrend WMA, MP3, RA, VOX, MSN. Esetleg nagyon gyenge teljesítményû hardver egységeken nem alkalmazhatók az MP3 és WMA algoritmusok, itt kényszerûségbõl más eljárásokat kell használni, mint például: MSN, VOX. 134 Befejezés Befejezés Ez a mû megpróbált egy általános útmutatót nyújtani a hangtömörítés egyre szélesedõ lehetõségeirõl, mindamellett pedig megkísérelt az olvasó számára egy átfogó képet felvázolni a manapság

használt hangkódolási eljárásokról és az azokkal kapcsolatos összefüggésekrõl mind a számítástechnikában, mind az audiotechnikában. Remélem sikerült teljes mértékig eleget tennem az elõbbiekben megfogalmazott célkitûzéseknek. Az elolvasottak alapján könnyen beláthatjuk, hogy e témáról szinte képtelenség részletes, naprakész és mindenre kiterjedõ képet alkotni, hiszen a számítástechnika egyre gyorsuló fejlõdése miatt, a hangtömörítés a mûszaki élet számtalan új és újabb területei tör be és kerül alkalmazásra. A központi feldolgozó egységek hatványozottan növekvõ teljesítménye lehetõvé teszi a fejlesztõ mérnökök számára, hogy az eddig használatos kódoló algoritmusoknál még bonyolultabb, és még komplexebb eljárásokat készítsenek, tovább emelve ezzel az adatredundancia mértékét, ha csak lehet a végtelenségig, persze mind ezek mellett végig maximálisan szem elõtt tartva az általunk érzékelt

hangnak a minõségét is. Az adattárolás területén egy még érdekesebb, két egymásra ellentétesen ható tendenciát figyelhetünk meg. Az egyik az elõbb boncolgatott növekvõ adatredundancia, a másik a szintén nagy iramban fejlõdõ háttértárak kapacitása. Az ellentétes hatás egyik mintapéldája az LPCM hangkódolás, ami segítségével tömörítetlen formában tárolható a DVD lemezeken csúcs minõségû többcsatornás hang. Kérdéses, hogy mivel manapság már a kék lézerfény segítségével egy szabványos méretû (120 mm ∅) optikai lemez esetén, akár a 20Gbájtos tárolókapacitás is átléphetõ, szükséges-e számunkra a jövõben hangtömörítési technikákat alkalmazni a lemezeken? Szerintem a válasz igen, hiszen napjainkban egyre többet halljuk azt a kifejezést, hogy gazdaságosság. Gondoljunk csak arra a tényre, hogy a technika fejlõdésének sebessége jelenünkben már sokkal gyorsabb, mint azt a piac változásának üteme képes

lenne követni. A gazdaságosság alatt persze nem csak anyagi természetû dolgokra gondolunk, hanem konkrétan az információk mennyiségére is, hiszen a két tényezõ kölcsönösen hatás gyakorolhat egymásra, ezt semmiképp ne felejtsük el. Egy témához kapcsolódó harmadik összetevõre is lényeges, hogy kitérjünk, ez pedig a digitális hanghoz általunk rendelt tömörítetlen adathalmaz nagysága. Egyáltalán nem mindegy se adatredundancia, se számítási igény szempontjából, hogy mekkora 135 Befejezés mennyiségû adatot kell letömörítenünk. Emlékeztetõül a mintavételezési tartomány, a kvantálási hossz és a csatornák számának nagysága együttesen befolyásolja a tömörítetlen adatok mennyiségét, mindezen értékeket pedig az eddigi kísérletek alapján felállított pszichoakusztikus modellbõl határozzák meg. Hiba lenne azt feltételeznünk, hogy napjainkra már az adott témában dolgozó szakemberek teljesen mértékben

feltárták az ember humán hallórendszerének legapróbb jellemzõit is. Viszont igaz azon állítás is, hogy az ez ideig megszerzett ismeretanyagok révén már csak kisebb finomításokat eszközölhetnek a modellen, és nagyobb változások létrejöttének valószínûsége rendkívül alacsony. Ide tartozik szintén, hogy miként állítható elõ számunkra a legkifinomultabb térhangzás és a legrealisztikusabb térérzet. Itt is felmerül egy érdeklõdésre számot tartó tényezõ, miszerint agyunk képes tanulni, ezért az emberi érzékszervek fejleszthetõk, sõt sok esetben még maguktól is fejlõdnek, ha olyan típusú inger vagy hatás éri õket folyamatosan, ez alól pedig se a fülünk, se a pszichoakusztikus hallásunk nem kivétel. Gondolok konkrétan az általunk hallott összetett hangok térbeli helyzetének meghatározására és a hangelfedés jelenségére. Említésre tarthat számít egy utolsó kiegészítés, ez az eljárások

szabványosítása. Ha visszatekintünk a hangtömörítõk vagy akár az adattárak fejlõdésének eddigi rövid, de annál eseménydúsabb történelmére: Észrevehetjük, hogy kevés olyan technikai eljárás marad meg tartósan a piacon, amit egyetlen cég vagy társaság maga szabadalmaztatott. Ahhoz, hogy a mai piaci körülmények között fennmaradhasson egy új termék, eljárás, annak széles körû támogatottságra van szüksége, nem csak a kapcsolódó iparág résztvevõivel, hanem sok esetben a konkurens cégek részérõl is. A közelmúlt két legnagyszerûbb példája erre az MPEG kódolási technikák szabványjegyzéke és a DVD lemezspecifikációk. Mindezek fényében szinte biztosra vehetõ, hogy a hangtömörítésre lesz még igény a jövõben is és ezáltal annak fejlõdése még egy jó ideig tartani fog. Remélem, hogy az olvasóknak sikerült e téma iránt kellõképpen felkeltenem az érdeklõdésüket és majd az elkövetkezõ idõben együtt

kísérjük nagy figyelemmel és kíváncsisággal, mind a számítástechnika, mind az audiotechnika szemünk láttára lezajló további fejlõdését. 136 Tartalomjegyzék Tartalomjegyzék Bevezetés .1 Mi a hang és a hangzás maga?.3 – A hanghullám általános fizikális jellemzõi.3 – Az emberi fül alapvetõ hallásbeli tulajdonságai.6 Hanganyagok digitalizálása.10 – A hangrögzítés története .10 – Elektroakusztikus jelátalakítók.11 – Az analóg jelek digitális feldolgozása.15 Digitális jelfolyam tárolása .23 – Elsõszintû kódolás.23 – Hangfájl formátumok.26 – Alapvetõ tömörítési eljárások.30 – Digitális hanghordozók .43 Hanganyagok visszajátszása .69 – Digital / Analóg konverzió .69 – Hangkártyák és a számítógépes hang történetének rövid áttekintése .70 – Mesterséges hangtér létrehozása .74 ATRAC.88 – Pszichoakusztika .89 – ATRAC Kódoló Egység (ATRAC Encoder).92 – ATRAC Dekóder (ATRAC

Decoder) .98 – Generációs különbségek .99 MPEG Audio .101 – MPEG Audio Layer I-III.106 – AAC (Advanced Audio Coding) .115 – TwinVQ (Transform-Domain Weighted Interleave Vector Quantization).121 Tömörítési-tesztek összehasonlítása és azok kiértékelése.124 – Számításígény és processzor jellemzõk vizsgálata.125 – Hi-Fi hangminõséget biztosítani képes tömörítõ eljárások vizsgálata .128 – Alacsony jelátviteli sebességnél használatos hangtömörítõk vizsgálata.132 Befejezés .135 Tartalomjegyzék .137 Irodalomjegyzék.137 Irodalomjegyzék [1] [2] [3] Ralf Steinmetz: Multimédia Bevezetés és alapok Springer Hungarica Kiad Kft., 1995 Bajusz Péter – Bors Gábor: A PC-k hangja Com-Ware Kft., 1995 Csánky Lajos – Multimédia PC környezetben LSI, 2000 137 Irodalomjegyzék [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] Dolby Laboratories Inc. Http://www.dolbycom/

Creative Labs, Inc. – Official Website Http://www.creativelabscom/ Soundcard History Museum Http://digitalparadise.cgocableca/MegaMan X/Soundcards/ BME Méréstechnika és Információs Rendszerek tanszék Http://www.mitbmehu/∼bako/ZAOZ/ BME Villamosmérnöki és Informatikai kar / Elméleti Villamosságtan tanszék Http://www.evtbmehu/∼peter/DSD/ BME Híradástechnikai tanszék Http://www.hitbmehu/people/granat/ Pécsi Tudomány Egyetem / Pollák Mihály Mûszaki Fõiskolai kar Http://vilib.pmmfhu/Szabolnsf/ Http://vilib.pmmfhu/htmlpages/gyeresi Digitel 2002 Kft. Http://www.digitel2002hu/aliscaorange/ Amice Kft. Http://powerstation.amicehu/whiteful/ EDTN Network Inc. Http://www.edtncom/analog/ Kecskeméti Gépipari és Automatizálási Mûszaki Fõiskola Http://speedy.gamfhu/szervezeti/elektro/ek/kalibad/ Sony Corporation Http://sdm.sonycom/techinfo/ Http://sel.sonycom/ The PC Technology Guide Http://www.pctechguidecom/ Sky Magazin 98/05 Http://www.mediaguidehu/skymagazin/9805/

Debreceni Kossuth Lajos Tudomány Egyetem Http://www.kltehu/∼turcsat/multi/hangok/ Telecomputer 3. évfolyam, 13 szám, 1998 június 29 Http://www.nethu/telecomputer/3 13/ Acoustic Renaissance for Audio Http://www.meridian-audiocom/ara/ Department of Electrical and Computer Engineering, University of British Columbia Http://www.eceubcca/∼irenek/techpaps/ MPEG Community Page Http://www.mpegorg/MPEG/DVD/Book B/ Toshiba Corporation Http://www3.toshibacojp/dvd/e/ József Attila Tudomány Egyetem / Irinyi Kabinet Http://www.cabu-szegedhu/local/archi/1998II/ Computer Panoráma Http://www.cpanoramahu/arhivum/wparhiv/ SANYO Electric Co. Ltd Http://www.sanyocojp/koho/ 138 Irodalomjegyzék [27] The MiniDisc Community Page Http://www.minidiskorg/ [28] KEIO University / Shonan-Fujisawa Campus Http://www.sfckeioacjp/∼t98680sn/eb/eigo/ [29] Southwest Texas State University Http://www.swtedu/∼be34320/surroundsound/ [30] Computer Technika Http://www.comptechhu/VI33/html/ [31] Procontrol

Electronics Ltd. Http://www.procontrolhu/Szorak/DOLBY/ [32] Sony Hungária Kft. Http://www.sonyhu/events/ARTDOLBY/ [33] Ventura Blvd. Studio City Canada Http://www.surroundassociatescom/ [34] Human Information Processing Research Laboratories Http://www.hipatrcojp/∼eaw/minidisc/atrac/ [35] Simon Fraser University Canada / Computing Science Http://www.cssfuca/undergrad/CourseMaterials/CMPT479/material/notes/ [36] Tampere University of Technology, Finland Http://www.cstutfi/∼ypsilon/80545/ [37] Károli Gáspár Református Egyetem Http://lux.kgrehu/∼rgranc/mp3/ [38] Centro Studi e Laboratori Telecomunicazioni (Torino) Italy Http://www.cseltstetit/ufv/leonardo/icjfiles/mpeg-4 si/9-natural audio paper/ [39] University of Miami, College of Engineering Http://www.ecemiamiedu/∼fernando/html/thesis/ [40] Fraunhofer Institut Integriete Schaltungen Http://www.iisfhgde/amm/techinf/ [41] University of Maryland / Institute for Advanced Computer Studies

Http://www.umiacsumdedu/∼desin/Speech1/ [42] Koninklijke Philips Electronics N.V Http://www-us.svphilipscom/mpeg/ [43] AAC 2000 Dolby Laboratories Inc. Http://www.aac-audiocom/ [44] AT&T Research Http://www.researchattcom/∼gjim/imusic/ [45] Slimline Systemen Http://www.slimlinenet/aac/ [46] TwinVQ Community Pages Http://www.vqfcom/ [47] NTT Cyber Space Laboratories Http://sound.splabeclnttcojp/twinvq-e/ [48] Audio Engineering Society Inc. Http://www.aesorg/ Tesztekhez, elemzésekhez felhasznált programok: [1] NTT TwinVQ Encoder v2.11 Http://sound.splabeclnttcojp/bin/ 139 Irodalomjegyzék [2] [3] [4] [6] [7] PsyTEL Experimental AAC Encoder v1.0 – build 191 – / Alpha 2 Http://www.dailymp3com/ WMA Encoder v0.98 Http://www.x-filezcom/ Wav2Mp v1.0 – MPEG Audio Layer I-II Encoder – Http://www.mnsinet/~jschlic1/r3jdt/ WINAMP v2.61 (Player) Http://www.winampcom/ Real Audio Encoder v5.1 Http://proforma.realcom/mario/tools/encoder50/ 140