声音信号的介面与处理

多媒體概論mm03.ppt1 聲音信號的介面與處理語音音樂:烘托氣氛、強化主題音效:風聲、雨聲多媒體概論mm03.ppt2聲音的採集 音訊的頻率範圍 電話(2003.4kHz)、調幅廣播(507kHz)、調頻廣播(2015kHz)、寬頻音響(2020kHz)立體聲音訊:由左右兩路單音所組成聲音採集過程 由拾音器(麥克風)收集程控放大器:隔離放大加上可程式衰減低通濾波 ADC:類比聲音轉成數位聲音 匯流排介面與控制邏輯:壓縮等處理存入記憶體多媒體概論mm03.ppt3聲音的播放 聲音播放過程 由儲存器取出壓縮資料 解壓縮 DAC:數位聲音轉成類比聲音 低通濾波 功率放大與音量控制 輸出到音響多媒體概論mm03.ppt4音訊信號介面程控放大低通A/DA/D低通 功放語音控記憶體匯流排介面與控制邏輯音訊處理器左左程控放大低通A/DA/D低通 功放語音控右右音訊輸入音訊輸出多媒體概論mm03.ppt5聲音檔的種類 WAV:以波形表示的聲音,不經壓縮CD-DA:雷射唱盤的聲音,品質較WAV高MIDI:MIDI音訊由音符和時間值組成,佔用的儲存空間較少mp3 Wma 相關資料多媒體概論mm03.ppt6音樂合成 聲音:包括擷取的聲音、合成的聲音 合成音樂:MIDI 合成語言 音色(timbre):區分不同樂器或人的聲音的音質(tone)。
複調(polyphony):同時演奏若干音符時發出的聲音多音色(multi-timbre):同時演奏不同樂器時發出的聲音MIDI:Musical Instrument Digital Interface 1983年根據D.Smith開發的通用合成器(universal synthesizer)標準所製定電腦、電子樂器、演奏控制器彼此通訊的標準樂譜的數位描述,包含音符、定時、樂器指派多媒體概論mm03.ppt7MIDI合成器 利用數位訊號處理器(DSP)構成的電子設備,用來產生音樂或聲音利用一組固定的音調值來產生特定樂器的音色,在使用調頻(FM)原理,利用軟體控制產生豐富的聲音傳輸資料率為 31.25KbpsMIDI檔案儲存各種樂器的音色,音符,節拍,音量,16個樂器通道之指派儲存指令而非實際波形,所需空間小,1分鐘 MIDI檔僅約4KB儲存空間多媒體概論mm03.ppt8多媒體資料壓縮考慮要素 壓縮後的影像或語音品質是否可接受 壓縮成本,包含運算時間,軟硬體需求 壓縮後的資料傳輸率,可否滿足傳輸通道的限制多媒體概論mm03.ppt9 聲音信號的處理 人耳可聽見頻率範圍 20Hz-20KHz CD-DA 20Hz-20KHz FM 調頻廣播 20Hz-15KHz AM 調頻 50Hz-7KHz 電話 300Hz-3.4KHz多媒體概論mm03.ppt10信號的數位化 Analog-to-Digital(A-D)conversion Sampling 取樣 Quantization 量化 Coding 編碼多媒體概論mm03.ppt11Sampling 取樣 Sampling Theory連續性(continuous)信號轉為離散(discrete)資料時,取樣率(sampling rate)必須是信號頻寬的兩倍以上,方能從離散式完整還原為連續信號 discrete v.s.digital 轉換為頻域信號 Fourier transform多媒體概論mm03.ppt12實例 聲音信號頻寬為 20 kHz,理論上取樣率應為 40 kHz(CD-Audio 之取樣率為 44.1 kHz)信號取樣頻率為 f(Hz),且每個取樣值以 R個位元表示,則信號傳輸率 T:T=f x R(bits per second,or BPS)多媒體概論mm03.ppt13數位音訊取樣率與資料率取樣率 KHz量化階度bits資料率Kbps電話音質8864AM1616256CD 單音22.0516352.8CD 立體44.116705.6DAT4816768多媒體概論mm03.ppt14語音壓縮 根據語音信號的冗餘度和人類的聽覺感知,在保持音質、限制碼率、編碼計算過程三者之間與一個折衷。
電話語音編碼 波形編碼:把持與輸入波形不變錄音)語聲編碼:聽起來一樣,但波形可以不同編碼器,彈鋼琴,MIDI)高品質語音編碼 由中高碼率的編碼方法實現多媒體概論mm03.ppt15波形編碼標準編碼率(kb/s)編碼方法音質 應用CCITT G.71164PCM1語音CCITT G.72132ADPCM3.5語音/數位切換CCITT G.72264SB+PDPCM 廣播 優值語音、音樂、視訊會議PCM:脈衝編碼調變DPCM:差分脈衝編碼調變A DPCM:自適應差分脈衝編碼調變SB:子頻帶(sub-band),以4kHz為界,分高低頻多媒體概論mm03.ppt16混合編碼混合參數模型法編碼及波形編碼以低於16kbps碼率得到高品質的合成語音基於按分析來合成的線性預測(LPAS):採用聽覺加權技術,在閉環基礎上尋找主觀失真最小的激勵向量多脈衝線性預測編碼(MP-LPC):1982年,9.6kbps衛星導航通訊標準碼激勵線性預測(CELP):1984年,使用向量量化(VQ),能在4.8kbps以上的碼率獲得較高品質的語音CCITT G.728:1992年,使用貝爾實驗室的LD-CELP(低延遲碼激勵線性預測)演算法,以16 kbps編碼語音。
多媒體概論mm03.ppt17高傳真音響壓縮 20Hz20kHz的信號 MPEG-1:ISO/IEC 11172標準 MPEG-2:ISO/IEC 13818標準多媒體概論mm03.ppt18MPEG-1音訊壓縮系統規定了用於數位儲存媒介的高品質音訊的編碼和解碼表示與雷射唱盤CD、數位音訊碟帶(DAT:Digital Audio Tape)等介質所用的PCM標準相容利用聽覺掩蔽效應,取得良好的壓縮效果,使得在96kbs的碼率下達到CD的音質採用不同級別的編碼系統,及越高性能越好,且可以向下相容MP3多媒體概論mm03.ppt19智慧語音介面技術 語音通訊(人講話、人聽話)壓縮、編碼、傳輸 語音品質與傳輸碼率 語音合成(機器講話、人聽話)摹坊人腦講話前的思維 發音規則、選詞、造句 語音識別(人講話、機器聽話)摹坊人類的聽覺 識別語音的涵義 正確率。