作者:Joe Albano
很多人都知道監聽延遲是大多數製作人在面對的問題,但是你知道它的原理嗎?那就來看Joe Albano為大家詳細解釋吧。
最新最尖端的計算機高速輸入輸出介面 Thunderbolt(雷電)和 USB3 使得超低延遲變成了可能,設備製造商也在抓緊應用以獲得自己的產品優勢。 但不像一些精通數位音訊宿主的技術人員,一般的製作人和錄音工程師大多都對延遲只有一些基本認知。 當然他們知道在大多數情況下,擁有低延遲是一件“好事”,但他們不一定知道有多低比較合適,或者這些延遲的區別在實際應用上具有什麼影響。 下面是一些我們在確定數位音訊宿主環境下合適的延遲設置時,需要注意的一些事項。
延遲
讓我們老生常談一下:監聽延遲是在數位音訊經過計算機(數位音訊宿主)處理時不可避免會出現的現象。 技術上來說,延遲的意思是「等待時間」,是音訊在任何數位音訊設備經過錄製、處理、重播的過程中處理資訊所產生的時間。 延遲是不可避免的,但延遲的時間可以小到人耳完全無法分辨,不過有的時候也會大到讓音樂人在戴著耳機時感受到明顯的「回聲」效果。 不過這樣的延遲在簡單的重播中(比如在沒有人實時錄製、表演,或者進行縮混時),一般完全不會讓人察覺。 但是在即時錄製過程中,樂手或是歌手在耳機里即時監聽數位音訊宿主中返回的信號時,過大的延遲時間是會被人輕易注意到的,同時也可能會引發各式各樣的問題。
有一些技術上的原因會導致音訊的延遲。 音訊介面中的“模擬-數位”或是“數位-類比”轉換器會產生一些很小量的延遲,但這樣的延遲基本只會有一毫秒左右,在總體的延遲中完全可以被忽略。 大部分音訊延遲主要是因為數位音訊信號在錄製和重播的時候,數據從緩慢的機械硬碟到記憶體之間的交換過程。
記憶體緩衝
記憶體緩衝是為了保證數據交換時的可靠性,不會因為讀取/寫入速度不均而導致無法同步造成的“噼啪”聲。 這是需要在數位音訊宿主中的音訊設置中確定的數值——記憶體緩衝的大小,以數位採樣的數量為單位。
宿主緩衝設定
較大的緩衝值會讓計算機工作的更加得心應手,處理音訊的時候會更加可靠,不會出現“噼啪”聲,但會產生時長可觀的音訊延遲,因為需要在記憶體中緩衝、處理的音頻採樣數量較大。 較小的緩衝值會減小這種惱人的延遲,但是每一台計算機都有它的極限,超過這個信號處理能力的極限,“噼啪”聲或是更嚴重的故障聲就會出現。 這樣的問題有時是可以被重現的,但有時卻是間歇性出現(讓找到性能瓶頸的過程變得更加艱難),但它就代表計算機達到了它的處理性能極限。 更快的介面速度一般是穩定性能下音訊延遲的瓶頸所在,但是如果計算機中某一個部分的性能不夠好(比如 5400 轉的機械硬碟,或是沒有什麼剩餘空間的硬碟),那這也會成為音訊延遲的決定性因素。
自然的,音樂是時間的藝術,沒有人希望在錄製最好表演的時候出現過大的音訊延遲,影響樂手的發揮,所以至少在錄音過程中,把延遲設定為可能的最小值是非常重要的。 當然某些時候我們有另外的解決方案,比如零延遲的類比監聽重播方案,但是由於現在數位音訊技術的廣泛應用,我假設幾乎所有的錄音都是經過數位音訊宿主的,所以延遲設定是整套系統中非常重要的部分。
多大才是過大?
人類並不能很明顯的區分非常小的延遲。 一般來說,小於 10 – 12 毫秒的延遲一般不會被人所察覺。 如果表演者在監聽自己的聲音時出現 10 – 12 毫秒以下的延遲,那麼一般來說這樣的延遲會下意識的被人腦忽略成接收資訊時產生的延遲,他們也會在下意識中適應這樣的延遲,在和其他部分的配合中也會處於良好的同步狀態。
讓我們再說得深入一些,聲學上來說,在樂手齊聚一室進行演奏的時候,總會有一些由於聲速而產生的延遲會出現,樂手自身也會下意識的適應著這樣的環境。 聲波在空氣中傳輸的速度大概在每毫秒 1 英尺左右。 所以如果兩個樂手在房間中相距 8 英尺的距離,那麼樂手 A 聽到樂手 B 演奏的內容的時間,是樂手 B 實際演奏時間的 8 毫秒之後,反之亦然,當然他們都能很好的進行演奏。 幸運的是,我們的聽覺並不會受到如此之短的延遲的影響。 我們人類本身就是不完美的,而我們已經習慣了接收資訊時的延遲時間,在音樂的角度上來說,這樣的延遲時間並不影響作為樂手演奏時律動的準確性。
你的感受不一定相同
不過,就算我們把延遲的水準降低到 10 – 12 毫秒的水準,有一些音樂人可能會比一般人更加敏感一些,這也取決於他們演奏樂器的不同。 打擊樂手,比如鼓手,可能對這樣短的延遲更加敏感一些,因為打擊樂器具有非常明確短小的起音時間。 在工作室中,我有接觸過一些鼓手,能感受到僅為 6 – 8 毫秒的延遲,而其他樂手基本都完全不會感受到。 我發現這其實也是因為他們也同時聽到了這些樂器的聲學原聲的緣故——為他們更換更好的隔音耳機,同時增加他們的監聽音量,可以很好的解決問題。 這讓他們可以下意識的習慣自己擊打鼓棒的時間與實際聽到鼓聲時間之間的微小延時。
但是大部分情況下,正常的延時時間應該沒有任何問題:大多數時候 8 – 12 毫秒的延時都行得通,同時這也不需要設置成最低的緩衝值,讓大多數計算機都可以很好的平衡處理能力和延遲之間的選擇。 但如果你明確的需要更低的延遲,那你可能需要知道你計算機能安全達到的最低緩衝區數值設定,也就是你計算機能夠可靠的處理數位音頻的極限。 這需要你在真正的錄音工作之前就提前做好準備,所以在最初設置你的數位音訊工作環境的時候,就需要做好這樣的測試。
最低能有多低
所以我們提到的緩衝區大小和延遲時間之間究竟有沒有什麼關聯呢?這時候我們就要提到採樣率了:下面的一張表格是在 44.1k 採樣率下常用的緩衝區大小數值和延遲時間的對比。
在 44.1k 採樣率下的緩衝區與延遲時間的對比
需要注意的是,緩衝區有兩個,一個是輸入(錄音)緩衝區,另一個是輸出(重播)緩衝區。 在錄音時,音訊經過全部的兩個緩衝區,但是MIDI觸發的虛擬樂器只需要經過回放緩衝區(不過當然MIDI也會增加一些延遲)。
一般來說在大部分小型系統中,64 採樣大小的緩衝區設定一般是理想的——加上“模擬-數位”和“數位-類比”轉換器的延遲(某些音訊介面的驅動也會增加一些額外的延遲時間),你應該會得到一個接近 4 – 5 毫秒的延遲時間。 如果你在使用音響監聽,那麼這個延遲時間還需要增加 3 毫秒左右(聲速大概是每毫秒 1 英尺左右,還記得嗎?)。 如果這樣的設置會產生一些「噼啪」聲,那麼一般來說 128 採樣大小的緩衝區也足夠解決這些問題了,同時總體 7 – 8 毫秒的延遲也應該適合絕大部分的演奏錄音了。
如果你的計算機仍舊無法在 128 採樣的緩衝區設置下可靠的工作,那麼你就會陷入一個比較尷尬的境地。 某些音樂人(尤其是使用虛擬樂器時)也可以接受 256 採樣緩衝區的設置,不過其他人就不一定了。 就我自己的感受而言,在演奏樂器時,雖然它只有一點點惱人,我也可以繼續我的演奏,但是我覺得我對節拍的把握並沒有很理想。 如果緩衝區的設置會讓延遲保持在 10 – 12 毫秒以上,那麼你肯定需要使用耳機進行監聽,同時在宿主軟體中查找有沒有選項可以關閉額外的保護性延遲,可能會對縮短延遲時間有一些説明。 同時,也需要查找一下在樂手的設備中可能產生延遲的部件,比如如果使用 POD 作為吉他效果器,那麼 POD 會增加額外的幾毫秒的延遲。 所以對我來說 256 採樣的緩衝區設定基本上是不在我的選項當中的——我可能需要轉換成純類比的監聽電路,同時沒有辦法在錄音期間使用任何數位音訊宿主提供的信號處理功能。
極限
在大部分當下的數位音訊宿主和音訊介面中,一般來說它們都會提供一個 32 採樣的緩衝區選項。 它能把整體的延遲降低到 1 – 3 毫秒的區間,這也基本上是軟體數位音訊處理,以及高端硬體加速數位錄音設備的延遲的極限了。 在這個選項里,延遲的瓶頸會變成你計算機的年代和介面類型了。 三四年前的計算機可能會在這個選項下出現一些問題,但是去年或者今年發佈的新款計算機有一定的可能性可以在這個選項下穩定工作,當然這也需要你的音訊介面與計算機之間使用某種高速介面來連接,比如之前我們說到的 Thunderbolt(雷電)或是 USB3。
更老的介面規範,比如 FireWire(火線)或者 USB2,在 32 採樣這麼低的緩衝區設定下,可能沒有辦法正常工作,當然試試看也不會有什麼損失(再說一遍,一定要在正式錄音之前測試!)。 但如果你在使用一個比較老的音訊介面(如果沒壞就不會想去換的那種),比如使用 Firewire 400 介面的型號,就算使用轉介面連接到新款電腦上的 Thunderbolt 介面,也不會有 Thunderbolt 介面的高速性能。 128 或是最低 64 採樣的緩衝區大小應該會是最穩定的選項,同時在這樣的設定下,99.9% 的情況下應該都不會出現什麼問題。
所以當你設計安裝好你最新的數位音訊工作站的時候,千萬不要忘了花一點點時間在緩衝區設定上,同時也要作為樂手(或者找到一個樂手)來測試一下不同設定之下的延遲狀況。 也不要僅僅找到不會出現“噼啪”聲的最低值,你需要保證整個工作環境可以輕鬆應對一定的壓力,畢竟這是低延遲錄音的基本挑戰。