[Python] 音訊處理 – Audio 001 – Voice Characteristics

【前言】

某日你到一間餐廳用餐，店內撥放著樂曲，從開始的輕和，突轉悲壯淒涼，最終收斂，形成個完美的起承轉合。而在一系列的變化中，你的心態也跟著起伏。

在聆聽過程中，我們透過音色辨別出了樂器，透過音量與音高判斷出樂曲情境。生活中非常基本的常態，卻有著多樣又複雜的表現方式。那在程式中，我們又如何將其視覺化或修改呢？不外乎都要透過聲音特徵，為此讓我們先複習下基礎吧。

【預計內容】

聲音的型態
音高
音量
音色

【主要內容】

1. 聲音的型態

聲音是透過波的形式傳播，也因此會受到許多因素影響。在上下波之中，最為重要的有震幅強度與頻率，分別對應聲音的音量與音高。而由於發聲時的種種因素，多數情況下音波並非完美的拋物線，從而造成聲音差異，及具代表性的音色。

2. 音高（Pitch）

音高來源於聲波的頻率，頻率越高則越尖銳。而每個人的頻率適性皆不同，但一般能感受到 20 ~ 20,000 Hz 的範圍，當超過上限則統稱超音波。

正常情況下，成年男性的音調約落於 60 – 180 Hz，成年女性的音調約落於 160 – 300 Hz。[2]

那在音樂的十二平均律中，八度音程（octave）被均勻地分成十二個半音（semitone），形成了一個等比數列。這意味著相鄰音符之間的頻率比例在整個音階中是恆定的。這種均勻性使得在不同的調性之間輕鬆地轉調，有利於在各種音調下演奏音樂，並能輕鬆在電腦中利用數學式分析為幾號音。

\[ \text{semitone} = 12 \log_2\left(\frac{\text{f1}}{\text{f0}}\right) \]

公式 1: 半音級距的換算

針對上面的式子，我們舉鋼琴的 A4 與 B4 兩鍵為例。首先，這段區間為兩白夾一黑，即 A4 到 B4 為 2 個半音，根據資料 [3] 的琴鍵表，我們簡單帶入 (493/440) 後會得到 1.9690 的結果。透過這段方程式，我們能算出半音級距，確認需要調整的半音數外，亦能輕鬆理解 MIDI 檔案的音樂格式。

\[ \text{semitone} = 69 + 12 \log_2\left(\frac{\text{Frequency}}{440}\right) \]

公式 2: MIDI 音樂格式的轉換方式（音名 A4 為基準點）[3]

3. 音量（Volume）

音量的最常見的單位為 dB（分貝），然而表示法其實有兩種，分別為功率量與場量兩種。那由於我們離發聲點有段損耗距離，一般我們選用針對強度的功率量之公式進行計算。

\[ \text{SIL (dB)} = 10 \log_{10}\left(\frac{I}{I_0}\right) \]

公式 3: 聲壓公式

而我們剛剛講述到每個人的頻率適性不同，尤其是高頻間可能出現聽力斷層，因此，在音量相同的情況下，所聽到的效果也不相同。這也是為何音樂愛好者常有一組固定的調音器數值，針對自己的聽力，減少聽覺忽大忽小的情況。

4. 音色（Timbre）

音色是我們分辨說話者與樂器的重要關鍵，理想上不受到音高的影響。前面我們提到，自然情況下聲音會有微小的差距，形成每個人獨特的特色。

那在變聲領域當中，改變音色一直以來是最主要的手法。有些人透過模仿嘲諷或娛樂，甚至透過自殘意圖逃避通緝。那在後續，我們就需要透過濾波與音高轉換等手法進行這類操作。

【後話】

這篇主要講述聲音的特徵，但在電腦處理這塊我們還要留意檔案的設定，因此下一篇將會以常見的資料特徵進行介紹。那麼，下期再會。

【參考資料】

[1] ‘音訊訊號處理,’ Wikipedia [繁中].
https://zh.wikipedia.org/zh-tw/%E9%9F%B3%E9%A2%91%E4%BF%A1%E5%8F%B7%E5%A4%84%E7%90%86

[2] Re DE, O’Connor JJ, Bennett PJ, Feinberg DR. Preferences for very low and very high voice pitch in humans. PLoS One. 2012;7(3):e32719. doi: 10.1371/journal.pone.0032719. Epub 2012 Mar 5. PMID: 22403701; PMCID: PMC3293852.

[3] ‘Note names, MIDI numbers and frequencies,’ University New South Wales, Sydney, Australia.
https://www.phys.unsw.edu.au/jw/notes.html