- Fråga: Vad är skillnaden mellan filformatet WAV och AIFF?
- Svar: AIFF och WAV är av exakt samma kvalitet
- Så när ska du använda WAV / AIFF och när ska du använda MP3 / M4A etc?
- Hur downsampling påverkar ljudkvaliteten
- Vad är en WAV-fil och hur spelar jag upp den?
- Både WAV och AIFF använder samma kodningsmetod!
- WAV och AIFF Encoding Explained Further
- Då WAV- eller AIFF-filer är Lossless kan de ta upp MYCKET S P A C E !
- Den spännande världen av pulskodmodulering
- Några vanliga samplingsfrekvenser är:
- Kvalitetsanalys via Nyqust- Shannon Sampling Theorem
- Debatt och slutsats
- Så AIFF vs WAV? Vilket är bäst? Slutgiltig slutsats: Det finns absolut ingen skillnad alls i kvalitet. Använd antingen. Jag skulle säga att WAV är något vanligare.
Fråga: Vad är skillnaden mellan filformatet WAV och AIFF?
Vad är bäst för ljud? Mp3 och Mp4 samt FLAC och andra mindre vanliga format utgör en liten del av ljudfilerna där ute också… men vad är bäst WAV eller AIFF?
Svar: AIFF och WAV är av exakt samma kvalitet
WAV används mest för datorer och AIFF används mest för MAC, men båda kan spelas på praktiskt taget alla typer av datorer och enheter. Båda använder samma typ av kodning som resulterar i en relativt stor filstorlek, men en bibehållen högre ljudkvalitet än mp3 m4a eller andra mindre filer.
Så när ska du använda WAV / AIFF och när ska du använda MP3 / M4A etc?
När du är intresserad av hastighet och liten filstorlek, använd mp3. Till exempel på internet eller i ett e-postmeddelande. Ingen vill ladda ner en fil på 50 MB för att lyssna på en låt på sin telefon eller skicka en snabb låt till en vän. Om du strömmar på en webbplats eller youtube strömmar du troligen i ett filformat med förlust som liknar mp3. I själva verket är mp3 bara en videofil, utan videodelen.
Hur downsampling påverkar ljudkvaliteten
För att illustrera detta kan du föreställa dig att den översta bilden är din ljudfil med full kvalitet och att den nedre bilden är din downsamplade mp3. Den nedre bilden saknar bildens upplevda klarhet och skärpedjup. Detta är ett liknande visuellt koncept som hur mp3-filer och andra förlustformat kan få en ganska nära originalfilen, men saknar data för att fullt ut representera hela vågformen.
Bild före downsampling av data
Bild efter downsampling av data (Lossy Data Compression)
Den här bilden visar hur en downsampling av en bild kan vara av lägre kvalitet än originalet för att spara utrymme. Generellt sett ser det ungefär likadant ut, men vid närmare granskning kan man se att detaljerna försvinner. Precis som en pixelerad JPEG kan ljudfiler som har för mycket förlustkomprimering vara glanslösa och låta som om de saknar detaljerna i en WAV- eller AIFF-fil. Den övre bilden skulle representera en WAV- eller AIFF-fil och den nedre bilden skulle representera en MP3- eller Mp4-fil, även om bilden inte är en verklig representation, utan för att illustrera hur komprimering påverkar kvaliteten.
Vad är en WAV-fil och hur spelar jag upp den?
Nästan alla telefoner och datorer (inklusive Mac- och Windows-användare) kan spela upp en WAV-fil. I allmänhet kan AIFF spelas upp på en Apple-produkt som iphone Mac OS-baserad dator, men nästan alla mediaspelare som VLC eller iTunes kan spela upp båda. Wave-filer, som ursprungligen utvecklades av IBM och Microsoft, är ett obearbetat ljudformat från tiden innan människor hade internet. Även om det är mycket gammalt är formatet mycket grundläggande och är i huvudsak en matematisk funktion för att beskriva en ljudvåg.
Både WAV och AIFF använder samma kodningsmetod!
Både AIFF och WAV är baserade på samma IFF* (Interchange File Format) AVI, ANI och WAV använder alla RIFF (Resource Interchange File Format), en variant av IFF*, som är baserad på datastycken som kallas chunks. Det finns en huvuddatakomponent, en namnkomponent, en artistkomponent, en upphovsrättskomponent osv., där ytterligare data kan läggas till för dessa kategorier. Dessutom kan WAV- och AIFF-filer ha flera kanaler, t.ex. från bara en monokanal till två stereokanaler, 5.1 (sex kanaler), 8 kanaler eller mer.
*David noterade ”…, AIFF är inte härlett från RIFF. Både AIFF och RIFF härstammar från IFF, som släpptes av Electronic Arts 1985. Dessutom föregick AIFF RIFF med tre år. Det kan inte vara baserat på RIFF. De är mycket lika varandra.”
*Tack för rättelsen, David! Så AIFF härstammar från IFF, WAV använder RIFF som också härstammar från IFF ( Tack för förtydligandet!)
WAV och AIFF Encoding Explained Further
Både AIFF och WAV är förlustfria filformat, det vill säga att det inte sker någon förlust av data. Filformatet skiljer sig något, men den digitala informationen lagras som en exakt matematisk representation av vågformen. WAV och AIFF använder båda PCM (Pulse Code Modulation) för att koda data på ett sätt som minimerar kvalitetsförluster. WAV och AIFF är båda av CD-kvalitet eller ”studiokvalitet”, där CD är 16 bit och ”studiokvalitet” vanligtvis är 24 bit eller högre. Den allmänna tumregeln är att om du spelar in med 16 bit, så renderar du filerna med 16 bit. Om du spelar in med 24 bit, rendera dina mixar med 24 bit. Filer kan alltid downsamplas till en lägre bithastighet. Till exempel kan 24 bit lätt downsamplas till 16, men när du väl är på 16 är det ganska meningslöst att gå tillbaka till 24 bit.
Då WAV- eller AIFF-filer är Lossless kan de ta upp MYCKET S P A C E !
Både WAV och AIFF kan kodas med tidsstämplar, tempoinformation och andra typer av information som t.ex. markörer. Pro Tools eller Logic kan skapa WAV eller AIFF-filer. Enligt ”källor” på Internet är skillnaden byteordningen. Med AIFF optimerad för motorola-processor och WAV-filer optimerade för Intel-baserade mikroprocessorer, men egentligen är det ingen skillnad i prestanda.
Den spännande världen av pulskodmodulering
Pulskodmodulering är ett matematiskt sätt att digitalt representera analoga signaler. Det används i digitala ljudenheter. Amplituden (även känd som ljudets energinivå eller ljudstyrka) mäts vid olika punkter. Antalet gånger amplituden mäts per sekund kallas samplingsfrekvens. Exempelvis innebär 44,1k samplingsfrekvens att 44 100 samplingar per sekund registreras. För 96k, 96 000 gånger per sekund mäts ljudet.
Bitfrekvens är antalet steg på ”mätstocken” som mäter amplituden. 16 bit och 24 bit är de vanligaste, men den allmänna idén är att en högre bithastighet är mer exakt. 24 bitar har ett högre dynamiskt omfång än 16 bitar , eller mer exakt mätning eftersom den har 24 dataenheter att mäta, jämfört med endast 16 bitar, som har 6 färre steg på skalan.
Men även om detta kan vara en liten överdriven förenkling, får du idén. Fler bitar är bättre. En högre samplingsfrekvens är mer exakt.
Några vanliga samplingsfrekvenser är:
- 44.1 16 bit (CD-kvalitet)
- 48k 16 bit (DVD-videokvalitet)
- 96k 24 bit DVD-Audio Quality (DVD-A)
I studion används ofta 48k 24 bit eller 96k 24 bit som ”studiokvalitet” och sedan nedskalas senare. De flesta människor vill inte ha 96k WAV-filer. Det är helt enkelt för stort, och vem lyssnar på ”bättre än CD-kvalitet” nuförtiden ändå. Kanske audiofiler och studiomänniskor, men många lyssnar också på mp3- eller lossy-versioner. Du måste få dina låtar att låta bra i alla format, och att fastna i alla olika versioner kan vara ett kaninhål som du inte vill gå ner i. Massor av bra material har spelats in med 44,1k, massor av fruktansvärt material har spelats in med 192k (eller till och med högre!) men det gör inte att det låter bättre om det inte är bra från början.
Kvalitetsanalys via Nyqust- Shannon Sampling Theorem
Nyqust Theorem eller Shannon Sampling Theorem är en matematisk formel för att bestämma vad den teoretiska maximala frekvensen är som du kan återge med hjälp av olika samplingshastigheter. Nyquistteoremet säger att frekvenser under halva samplingsfrekvensen i kilohertz kan rekonstrueras. Det mänskliga hörselområdet kan uppskattas till 20hz-20khz. Med hjälp av den formeln bör 44,1k kunna reproducera väl upp till 20k-gränsen (med detta sagt är 20k knappt märkbart, och med 2,5k till 5k som fortfarande registreras i de ”högre tonhöjderna”, 10k och 12k som är genomträngande höga, är 20k inte en så användbar frekvens när det gäller att mixa ljud).
Debatt och slutsats
I min erfarenhet gör bitfrekvensen (16 bit vs 24 bit) ofta större skillnad för ljudet än samplingsfrekvensen (t.ex. 44,1k vs 48k)
För visst material kan 96k eller 192k låta lite bättre, men den enorma filstorleken är inte värd det. Material kommer så småningom att downsamplas till mp3, och det finns andra saker som slutlig gain staging som spelar större roll. Kontrollera din filutgångsvinst med en mätare och se till att du inte klipper, och lämna lite utrymme för konverterarna och downsampling.
Så varför använda 96k överhuvudtaget? Genom att se till att frekvenser upp till 40k täcks har vi en mycket exakt version av ljudet som kan användas för att mixa ner till 44,1k eller något mer rimligt. De flesta plugins kan använda 96k, och de flesta lyssningstester visar faktiskt kvalitetsskillnad mellan 44,1k och 96k. 192k kan användas eller till och med högre, men det kan diskuteras när det gäller märkbar kvalitet kontra filstorlek. Prova själv.
Det finns bokstavligen hundratals faktorer som spelar in i ljudet av en inspelning. Mikrofonval och placering, förförstärkare, konverterkvalitet och anti-aliasing, klockning samt fysisk miljö spelar alla en roll och gör mycket större förändringar i ljudet än 48k vs 96k eller 44,1 vs 48k. Så ta det inte så hårt.