| 無論你知不知道,這些都是你每天會(huì)接觸的東西。雖然我們并不是數(shù)字音頻工程師,但是增加一些關(guān)于位深度和采樣率的背景知識(shí)對(duì)涉及到數(shù)字音樂的每一個(gè)人來說都是有好處的。
那么首先我們要了解的就是位深度和采樣率只存在于數(shù)字音頻中。在數(shù)字音頻中,位深度描述的是振幅(縱軸),采樣率描述的是頻率(橫軸)。所以,增加我們使用的位數(shù)就是提高聲音振幅的解析度,而增加每秒的采樣數(shù)則是在增加對(duì)聲音頻率的解析度。
在模擬系統(tǒng)中(自然世界),音頻是連續(xù)和平滑的。在數(shù)字系統(tǒng)中,平滑的模擬波形只能被近似地采樣,而且限制在一定的振幅范圍里。當(dāng)采樣一個(gè)聲音時(shí),音頻被切分成了很小的片段(采樣),這些采樣會(huì)固定在一個(gè)振幅電平上。將信號(hào)修正到某個(gè)振幅電平上的處理叫做量化,創(chuàng)建采樣片段的處理叫做采樣。
在下面的圖表里,形象地展示了一個(gè)長達(dá)1s的自然正弦波,從0s開始到1s結(jié)束的情況。藍(lán)色的條代表了正弦波數(shù)字量化的近似值,每一條就是一個(gè)采樣,被修正到可用的近似振幅電平上。(當(dāng)然圖表比現(xiàn)實(shí)情況要更加粗略。)

根據(jù)錄音時(shí)選擇,時(shí)長1s的音頻可能有44.1K,48K個(gè)采樣,在24位的情況下包含了-144dB到0dB的振幅電平(16位為-96dB到0dB)。動(dòng)態(tài)范圍的分辨率(采樣可以使用的振幅電平單位數(shù)量,即圖示的矩形數(shù)量)在16位下為65536個(gè),24位下為16777216個(gè)。
所以增加位深度能極大地提升振幅解析度和動(dòng)態(tài)范圍。那么,動(dòng)態(tài)范圍的增加會(huì)在哪里得以體現(xiàn)呢?因?yàn)檎穹荒艹^0dB,所以增加的dB會(huì)被分配到振幅較小的采樣上。因此人們能聽到更多微小的聲音(比如延展到-130dB的混響軌跡),而這些聲音在16位,-96dB的情況下會(huì)被削減掉。
在數(shù)字音頻中,每個(gè)采樣都經(jīng)過分析,處理,轉(zhuǎn)換成音頻,然后從音箱里播放出來。當(dāng)一個(gè)采樣在你的DAW里被處理時(shí)(增益,失真等),它們通過基本的乘除運(yùn)算讓數(shù)字代表的采樣被改變。很簡(jiǎn)單,如果我們不做取整的處理(1dB的增益需要乘以1.122018454),那么即使8或4位的采樣精度也會(huì)超過24位的空間。
所以,因?yàn)槲覀冎挥?4位,所以這些長的數(shù)字必須滿足這個(gè)空間。為了這么做,數(shù)字信號(hào)處理器會(huì)對(duì)最低有效位(LSB – 位數(shù)里的最后一位 – 例如,16位采樣里的第16個(gè)數(shù)字)做取整或舍棄的處理。取整相當(dāng)直接,采用的也是你熟悉的算法。舍棄則不通過分析就棄掉最低有效位后的信息。
這兩種處理都是存在一定誤差的,它們會(huì)給等式引入誤差,這些誤差通過信號(hào)鏈處理進(jìn)行累加,最后反應(yīng)出來。積極的一面是LSB是振幅最小的數(shù)字位,所以在16位采樣里誤差出現(xiàn)在-96dB,24位采樣在-144dB。同時(shí),數(shù)字信號(hào)處理器的不同的結(jié)構(gòu)和方式也會(huì)導(dǎo)致結(jié)果的不同。
我們現(xiàn)在知道了數(shù)字信號(hào)處理必然會(huì)有很多誤差的存在。那么,總數(shù)的近似值也會(huì)出現(xiàn)很多誤差。這些錯(cuò)誤不僅讓音頻無法完全復(fù)原,也引入了不自然的聽感。
為了消除這些不自然,我們將計(jì)算而得的低振幅噪音加入用到信號(hào)中,我們稱之為抖動(dòng)處理。抖動(dòng)的噪音振幅很低,雖然還是能聽見一些,但比沒有加入的情況要好。

要記住抖動(dòng)的噪音是會(huì)不斷累積的。當(dāng)你給信號(hào)增加噪音時(shí),信噪比就降低了。如果反復(fù)操作,這個(gè)比例就會(huì)持續(xù)降低,會(huì)給信號(hào)增加不確定的因素。這就是為什么抖動(dòng)處理通常被應(yīng)用在母帶處理的最后一步,而且只使用一次。
抖動(dòng)處理有一段相當(dāng)有趣的歷史:
最早的抖動(dòng)處理出現(xiàn)在二戰(zhàn)時(shí)期。轟炸機(jī)使用機(jī)械計(jì)算機(jī)來做導(dǎo)航和彈道計(jì)算。奇怪的是這些計(jì)算機(jī)在空中的處理性能更加精確。工程師們意識(shí)到,飛機(jī)的振動(dòng)減少了運(yùn)動(dòng)部分的誤差。它們的運(yùn)動(dòng)變得更有連續(xù)性,而不是突然的振動(dòng)。計(jì)算機(jī)里有小的振動(dòng)電機(jī),它們的振動(dòng)被成為抖動(dòng),這是從中世紀(jì)的英文單詞“didderen”衍生而來的,意思是“發(fā)抖”,F(xiàn)代辭典定義抖動(dòng)(dither)為高度緊張,迷惑或焦慮的狀態(tài)。在一定程度上來說,抖動(dòng)讓數(shù)字化的系統(tǒng)更接近了模擬系統(tǒng)。
– Ken Pohlmann,數(shù)字音頻規(guī)則

根據(jù)理論,每秒44.1K的采樣率已經(jīng)足夠覆蓋人耳的聽力范圍了。你可能在無意中了解過尼奎斯特定理,它表述了如何避免混淆現(xiàn)象(一種失真)和如何通過采樣重建所有頻率,它要求使用信號(hào)最高頻率的兩倍來進(jìn)行采樣(這個(gè)定理也應(yīng)用在音頻之外的媒體上,這里我們就不進(jìn)行深入探討了)。
人耳的聽力范圍最高能達(dá)到20kHz(多數(shù)研究表明這個(gè)數(shù)字實(shí)際是在17K左右),因此40K的采樣率就足夠聽清每一個(gè)頻率了。44.1K是行業(yè)標(biāo)準(zhǔn),因?yàn)橐恍┰虮划?dāng)時(shí)寡頭壟斷的SONY確定。
那么長話短說,數(shù)字音頻采樣必須高于尼奎斯特頻率,因?yàn)閷?shí)際運(yùn)用中,采樣會(huì)在數(shù)模轉(zhuǎn)換的過程中通過低通濾波來避免混淆現(xiàn)象。低通濾波器的斜度越平緩,制造的成本越低。因此,通常使用低通濾波器的音頻信號(hào)會(huì)在2kHz的位置有平緩的斜度。比如,要保留20kHz以下完整的頻譜,必須在44kHz的采樣率下完成(20K[最高頻率]+2K[低通濾波器的斜度]x2[尼奎斯特理論]=44K)
最終,44.1K的標(biāo)準(zhǔn)在Sony和Philips(它們都有相似的最終目的)的斗爭(zhēng)中被確定。這也是根據(jù)音頻采樣率和錄像磁帶剖析學(xué)背后的數(shù)學(xué)理論得出的。這樣音頻和視頻可以在同樣錄像磁帶中共存,擁有更高的性價(jià)比。然而,48K是音頻相關(guān)的視頻的標(biāo)準(zhǔn)。CD音頻還是保持在44.1K。

圖片是用Logic錄制的“自然”底鼓的采樣電平。你可以看到聲音是怎么用波形近似的矩形來采樣和量化的。原始的鼓聲不會(huì)有這樣的失真。
有人聲稱自己能夠聽出44.1K采樣率和96K采樣率的區(qū)別。大部分人把這種不同歸結(jié)于頻寬的增加(96K代表頻率上限為48kHz)。雖然我也意識(shí)到更多的采樣會(huì)帶來一些細(xì)微的清晰度改變,但是因此認(rèn)為這些不同是因?yàn)楦叩念l率產(chǎn)生的是不太正確的(至少不是直接相關(guān))。
多種測(cè)試表明,實(shí)際上是低通濾波造成了這些聽覺上的差異。因?yàn)榈屯V波對(duì)更高采樣率產(chǎn)生的不自然影響已經(jīng)不在可聽的頻譜范圍里了。將濾波器切斷的點(diǎn)從22kHz移到48kHz,因此降低了濾波器在可聽范圍內(nèi)的影響,確保了大部分的不自然現(xiàn)象出現(xiàn)在超聲波的頻譜中。
這樣可以使可聽頻譜更加干凈,造成了更高的頻譜/采樣率能更真實(shí)地還原音頻的錯(cuò)覺。雖然這的確是創(chuàng)造出了更真實(shí)的音頻,不過這都是因?yàn)槭褂酶叩牟蓸勇蕘淼窒麛?shù)模轉(zhuǎn)換過程里低通濾波器設(shè)計(jì)不足的原因。
我意識(shí)到,這可能需要專門開設(shè)一門課程,不過總比一點(diǎn)信息沒有的好。了解你正在使用的工具絕不會(huì)是一件壞事,作為音樂制作人,這些都是你需要知曉的細(xì)節(jié)。不過,對(duì)于母帶工程師和發(fā)燒友,這些可能不太適合。
作者:Will Walker
編譯:Logic Loc |