1、H. 261建議簡介
拿起電話機,不僅能聽到對方的聲音,而且可以看到活動的圖像,這種理想的通信手段就是電視電話(Video Phone)。而會議電視是指利用電視技術的設備進行開會的另一種通信方式。ITU-T的第15研究組于1990年提出了用于電視電話和會議電話的H. 261標準。
H.261簡稱p x 64標準,全稱為《p x 64kbit/s視聽業務的視頻編碼解碼器》。當p=1或2時,碼率最大為128kbit/s,由于該碼率太低,只能傳輸清晰度不太高的圖像,所以只能適用于面對面的電視電話。當p大于或等于6時,碼率大于或者等于384kbit/s,可傳輸清晰度尚好的圖像,所以適用于會議電話。
2、圖像格式
圖像格式是指圖像寬高比和每幀圖像的大小。為了使現行的各種電視制式(PAL、NTSC和SECAM)比較容易轉換為電視電話的圖像格式,便于相互交換,且碼率又較低,H. 261采用通用中間格式CIF,CIF規定圖像亮度分量Y的水平像素為352個,垂直像素為288個。圖像色差分量CB和CR的水平與垂直分辨率均為亮度分量的一半。另外,圖像尺寸的寬高比為4∶3,與常規電視一致。
當電視電話在ISDN網中傳輸時,若p取1或2時,最高信道速率為128kbit/s,上述的CIF規定的圖像尺寸太大,為此專門定義了QCIF格式(其中Q為Quarter,即1/4),此時亮度圖像的水平像素為176,垂直像素為144,色度CB和CR的水平像素為88,垂直像素為72。
QCIF為最低要求,所有的電視電話系統都必須達到此要求。而CIF為任選。下圖1為H.261的數據結構。
圖1:H.261的數據結構
CIF和QCIF的數據結構分為圖像層(P)、塊組層(GOB)、宏塊層(MB)和塊層(B)。以CIF為例,每個一幀圖像層P包括12個GOB(QCIF為三個塊組),每個GOB為3 x 11個MB,每個MB由4個8 x 8的色差塊(CB和CR)組成。它們的格式見圖2。
圖2:CIF格式
H.261規定最大幀速率為29.97幀/秒。CIF每秒傳輸的像素點數為352 x 288 x 29.97,再進行量化編碼后達到36.45Mbit/s的速率。QCIF因每行的點數和行數均為CIF的一半(即176 x 144 x 29. 97),因而數據率為9.15Mbit/s。
3、視頻編解碼
視聽業務的關鍵技術之一是視頻信號的編解碼。圖3中上方為視頻編碼器,下方為視頻解碼器,左側為視頻信號的輸入和輸出端。如果輸入信號是NTSC、PAL、SECAM制模擬復合視頻信號,則應先解碼成紅、綠、藍(R,G,B)三基色信號,經過模數轉換,再變為亮度、色度信號Y、CB和CR,進一步轉換成幀頻為30 Hz的CIF或QCIF格式,經過幀存儲器緩沖及壓縮編碼后,送入信道。收端經過相反的過程,還原成復合視頻信號。
圖3:圖像壓縮傳輸系統框圖
實際的圖像壓縮編碼標準中,為了得到較高的壓縮比,往往采用多種混合的壓縮編碼方案及技術手段。H.261建議采用混合壓縮編碼方式,即幀內變換編碼,幀間預測。前后兩幀相似,則應用幀間預測,對預測誤差進行DCT處理。若兩幀差異較大,則進行幀內DCT處理。第一幀肯定是幀內變換。每一個DCT均是對一個8 x 8的塊進行處理。
DCT處理后,再對其系數進行量化。直流系數采用步長為8的均勻量化,交流系數則用變步長的均勻量化。然后進行“Z”字型掃描獲得連零的游程、幅值數據,再對其進行二維變字長編碼。幀間預測采用運動估值(發端)和運動補償(收端)的辦法。在采用上述措施后,圖像的數碼率可以壓縮到1%~10%左右。圖4為H. 261壓縮編碼原理框圖。
在H. 261的基礎上又提出了甚低比特速率視聽會議壓縮編碼標準H.263,通過改進的壓縮方案,可提供小于64kbit/s的、可接受的視頻信號質量的壓縮編碼圖像信號。