Các thành viên trong nhóm:
1.Hoàng Ngọc Giao : 08520493
2.Nguyễn Văn Minh : 08520236
3.Trần Quang Vũ : 08520479
4.Lê Đặng Quang : 08520579
Chương 4: Mã hóa văn bản, giọng nói, hình ảnh, và tín hiệu Video
TỔNG QUAN
Các thông tin được trao đổi giữa hai thực thể (người hoặc máy móc) trong một hệ thống truyền thông có thể là một trong các định dạng sau:
Văn bản
Giọng nói
Hình ảnh
Video
Trong hệ thống truyền thông điện tử , thông tin này đầu tiên được chuyển đổi thành tín hiệu . Ví dụ, một micro là bộ chuyển đổi có thể chuyển đổi giọng nói của con người thành tín hiệu analog. Tương tự, máy quay video chuyển đổi các cảnh trong thực tế cuộc sống thành tín hiệu analog. Trong một hệ thống truyền thông kỹ thuật số, bước đầu tiên là chuyển đổi tín hiệu analog sang định dạng kỹ thuật số bằng cách sử dụng kỹ thuật chuyển đổi analog -to-kỹ thuật số. Điều này biểu diễn tín hiệu số cho các loại hình thông tin là chủ đề của chương này. tín hiệu số này biểu diễn cho các loại hình thông tin là chủ đề của chương này.
4.1)Tin nhắn văn bản :
Tin nhắn văn bản được biểu diễn chung bởi bảng mã ASCII (American Standard Code for Information Interchange), trong đó 7 bit mã được sử dụng để biểu diễn một ký tự . một dạng mã khác được gọi là EBCDIC (Extended Binary Coded Decimal Interchange Code) cũng được sử dụng .để truyền các tin nhắn văn bản , đầu tiên văn bản được chuyển sang các dạng mã này , và sau đó dòng bit sẽ được chuyển thành tín hiệu điện .
Sử dụng bảng mã ASCII số lượng ký tự có thể được biểu diễn giới hạn đến 128 bởi vì chỉ có 7-bit mã được sử dụng .Bảng mã ASCII cũng được dùng biểu diễn cho nhiều ngôn ngữ châu Âu. Để biểu diễn cho các ngôn ngữ Ấn Độ, một tiêu chuẩn được biết đến như Indian Standard Code for Information Interchange (ISCII)(bảng mã tiêu chuẩn để trao đổi thông tin ) đã được phát triển. ISCII có 7-bit và cả 8-bit.
ASCII là chương trình mã hóa được sử dụng rộng rãi nhất cho biểu diễn cho văn bản trong máy tính . ISCII được sử dụng để thể hiện cho văn bản của các ngôn ngữ Ấn Độ.
Chú ý, trong ASCII mở rộng, mỗi ký tự được biểu diễn bằng 8 bit. Sử dụng 8 bit, một ký tự đồ họa và các ký tự điều khiển mới có thể được thể hiện.
Unicode đã được phát triển để thể hiện cho tất cả các ngôn ngữ trên thế giới. Unicode sử dụng 16 bit để đại diện cho mỗi ký tự và có thể được sử dụng để mã hóa các ký tự của bất kỳ ngôn ngữ nào được công nhận trên thế giới. ngôn ngữ lập trình hiện đại như Java và các ngôn ngữ có dấu như là XML hỗ trợ Unicode.
Unicode được sử dụng để biểu diễn cho bất kỳ ngôn ngữ trên thế giới trong máy tính. Unicode sử dụng 16 bit để biểu diễn cho mỗi ký tự. Java và XML hỗ trợ Unicode.
Điều quan trọng cần lưu ý là cơ chế mã hóa ASCII / Unicode không phải là cách tốt nhất, theo Shannon. Nếu chúng ta xem xét các tần số xuất hiện của các ký tự của một ngôn ngữ và sử dụng từ mã nhỏ cho các ký tự thường xuyên xuất hiện, các mã hóa sẽ có hiệu quả hơn. Tuy nhiên, nhiều xử lý sẽ được đòi hỏi, và nhiều hơn nữa sẽ gây ra chậm trễ.
Các cơ chế mã hóa tốt nhất cho các tin nhắn văn bản được phát triển bởi Morse. Mã Morse được sử dụng rộng rãi cho giao tiếp trong thời gian trước. Nhiều tàu đã sử dụng mã Morse cho đến khi tháng 5 năm 2000. Trong mã Morse, ký tự được biểu diễn bằng dấu chấm và dấu gạch ngang. mã Morse không còn được sử dụng trong các hệ thống truyền thông tiêu chuẩn.
Lưu ý : mã Morse sử dụng dấu chấm và dấu gạch ngang để đại diện cho nhiều ký tự tiếng Anh. Nó là một mã hiệu quả bởi vì mã ngắn được sử dụng để biểu diễn cho ký tự có tần số suất hiện cao và mã dài được sử dụng để biểu diễn cho ký tự có tần số xuất hiện thấp. Ký tự E chỉ được biểu diễn bởi duy nhất một dấu chấm ( . )và ký tự Q biểu diễn bởi dấu gạch gạch chấm gạch (- - . -).
4.2.Âm thanh
Để truyền tiếng nói từ một nơi khác, các bài phát biểu (tín hiệu âm thanh) là đầu tiên chuyển đổi thành tín hiệu điện bằng cách sử dụng một bộ chuyển đổi, các microphone. Tín hiệu điện này là một tín hiệu analog . Các tín hiệu thoại tương ứng với câu nói “how are you”được thể hiện trong hình 4.1. Các đặc tính quan trọng của tín hiệu thoại được đưa ra ở đây:
Các tín hiệu thoại có băng tần 4kHz tức là, các thành phần tần số cao nhất trong các tín hiệu giọng nói là 4kHz. Mặc dù thành phần tần số cao hơn, có mặt, họ không đáng kể, do đó, một bộ lọc được sử dụng để loại bỏ tất cả các thành phần tần số cao trên 4kHz. Trong các mạng điện thoại, băng thông được giới hạn chỉ 3.4kHz…
Cường độ thay đổi tùy theo mỗi người . Cường độ là tần số cơ bản trong các tín hiệu giọng nói. Giọng nam, cường độ là trong khoảng 50-250 Hz. Giọng nữ, cường độ là trong khoảng 200-400 Hz.
Âm thanh của tiếng nói có thể được phân loại chung như là vô thanh và hữu thanh . Tín hiệu tương ứng với hữu thanh (chẳng hạn như các nguyên âm a, e, i, o, u) sẽ được các tín hiệu định kỳ và sẽ có biên độ cao. Tín hiệu tương ứng với vô thanh (như th, s, z, vv) sẽ giống như tín hiệu nhiễu và sẽ có biên độ thấp.
Tín hiệu thoại được xem là một tín hiệu bất tĩnh, nghĩa là, các đặc điểm của tín hiệu (như cường độ và năng lượng) khác nhau. Tuy nhiên, nếu chúng ta lấy phần nhỏ của các tín hiệu thoại với thời gian 20 miligiây, tín hiệu có thể được coi là không thay đổi. Nói cách khác, trong thời gian nhỏ, các đặc điểm của tín hiệu không thay đổi nhiều. Do đó, giá trị cường độ có thể được tính bằng cách sử dụng tín hiệu thoại của 20 mili giây. Tuy nhiên, nếu chúng ta lấy 20 mili giây tiếp theo, cường độ có thể khác nhau.
<img src=‘http://img249.imageshack.us/img249/1511/35501070.png’ border=‘0’ alt=‘user posted image’ />
Hình 4.1: Dạng sóng âm của giọng nói
Các tín hiệu thoại chiếm một băng thông là 4KHz. Các tín hiệu thoại có thể được chia thành một tần số cơ bản và giai điệu của nó. Các tần số cơ bản hoặc cao độ là thấp đối với giọng nam và cao đối với giọng nữ.
Những đặc điểm này được sử dụng trong khi chuyển đổi các tín hiệu thoại analog sang dạng kỹ thuật số.Sự chuyển đổi Analog-to-kỹ thuật số của tín hiệu thoại có thể được thực hiện bằng cách sử dụng một trong hai kỹ thuật: mã hóa dạng sóng và vocoding .
Lưu ý : Các đặc tính của tín hiệu thoại được mô tả ở đây được sử dụng rộng rãi cho các ứng dụng xử lý lời nói như chuyển đổi text–to-speech và nhận dạng giọng nói.
Tín hiệu âm nhạc có băng tần là 20kHz. Các kỹ thuật được sử dụng để chuyển đổi tín hiệu âm nhạc vào dạng kỹ thuật số cũng tương tự như đối với tín hiệu thoại.
4.2.1 )Mã hóa dạng sóng :
Mã hóa dạng sóng được thực hiện theo cách tín hiệu điện tương tự có thể được sao chép vào cuối nhận được với sự thay đổi tối thiểu. Hàng trăm kỹ thuật mã hóa dạng sóng đã được đề xuất bởi nhiều nhà nghiên cứu. Chúng ta sẽ nghiên cứu hai kỹ thuật mã hóa dạng sóng quan trọng là: điều chế xung mã (PCM) và điều chế mã xung vi sai thích ứng (ADPCM).
Điều chế mã xung :
Điều chế mã xung (PCM) là đầu tiên và được sử dụng rộng rãi nhất trong hầu hết các kỹ thuật mã hóa dạng sóng các. Tổ chức ITU-T (International Telecommunication Union - Telecommunication Standardization Sector) đưa ra khuyến nghị G.711 quy định các thuật toán để mã hóa tiếng nói ở định dạng PCM.
PCM kỹ thuật mã hóa dựa trên định lý Nyquist, định lý nói rằng nếu một tín hiệu được lấy mẫu thống nhất ít nhất là gấp đôi tần số cao nhất, nó có thể được tái tạo mà không có bất kỳ sự biến dạng nào. Tần số cao nhất trong tín hiệu thoại là 4kHz, vì vậy chúng ta cần phải mẫu dạng sóng là 8.000 mẫu / giây, mỗi 1/8000th của một giây (125 micro giây). Chúng tôi đã tìm ra biên độ của sóng cho mỗi 125 micro giây và truyền giá trị đó thay vì truyền tải những tín hiệu tương tự như là nó có. Các giá trị vẫn còn giá trị mẫu tương tự, và chúng ta có thể “quantize” các giá trị này thành một số mức số cố định .Như trong hình 4.2, nếu số lượng lượng tử hóa là 256, chúng ta có thể đại diện cho mỗi mẫu bằng 8 bit. Vì vậy, 1 giây của tín hiệu thoại có thể được đại diện bởi 8000 × 8 bit, 64kbits. Do đó, để truyền giọng nói bằng cách sử dụng PCM, chúng tôi yêu cầu tốc độ dữ liệu là 64 kbps. Tuy nhiên, lưu ý rằng kể từ khi chúng ta xấp xỉ các giá trị mẫu thông qua lượng tử hóa, sẽ có một sự biến dạng trong các tín hiệu được xây dựng lại, biến dạng này được gọi là tiếng ồn lượng tử hóa.
JPEG.<img src=‘http://img97.imageshack.us/img97/3416/90640694.png’ border=‘0’ alt=‘user posted image’ />
Hình 4.2: Điều chế mã xung
ITU-T tiêu chuẩn G.711 quy định các cơ chế mã hóa của tín hiệu thoại. Tín hiệu tiếng nói có giới hạn băng thông là 4kHz, lấy 8.000 mẫu / giây, và mỗi mẫu được thể hiện bằng 8 bit. Do đó, bằng cách sử dụng PCM, tín hiệu thoại có thể được mã hoá là 64kbps.
Trong tiêu chuẩn kỹ thuật mã hóa PCM của ITU trong khuyến nghị G.711, các đặc tính phi tuyến của thính giác con người được khai thác-tai là nhạy cảm hơn với tiếng ồn lượng tử hóa trong biên độ tín hiệu thấp hơn so với tiếng ồn trong tín hiệu biên độ lớn. Trong G.711, một (phi tuyến) chức năng lượng hóa logarit được áp dụng cho các tín hiệu thoại, và vì vậy các tín hiệu nhỏ được lượng hóa với độ chính xác cao hơn. Hai chức năng lượng hóa, được gọi là quy tắc A và quy tắc m, đã được quy định tại G.711. Quy tắc m được sử dụng tại Mỹ và Nhật Bản. Quy tắc A được sử dụng ở châu Âu và các quốc gia theo tiêu chuẩn Châu Âu. Chất lượng lời nói được làm bằng kỹ thuật mã hóa PCM được gọi là âm sắc lời nói và được lấy làm tài liệu tham khảo để so sánh chất lượng của các kỹ thuật mã hóa tiếng nói khác.
Đối với chất lượng âm thanh CD, tỷ lệ lấy mẫu là 44.1kHz (một mẫu mỗi 23 micro giây), và mỗi mẫu được mã hoá với 16 bit. Đối với hai kênh truyền âm thanh stereo, tốc độ bit được đòi hỏi là 2 × 44,1 × 1000 × 16 = 1.41Mbps.
Lưu ý chất lượng của lời nói được sử dụng kỹ thuật mã hóa PCM được gọi là chất lượng thực . Để so sánh chất lượng của các kỹ thuật mã hóa khác nhau, chất lượng thực lời nói được lấy ra để xem xét .
Điều chế mã xung vi sai thích ứng :
Một cách đơn giản mà có thể được sửa đổi chế độ để PCM là chúng ta có thể mã hóa sự khác biệt giữa hai mẫu kế tiếp hay hơn là mã hóa các mẫu một cách trực tiếp. Kỹ thuật này được gọi là điều chế xung mã vi sai (vi sai).
Một đặc tính của các tín hiệu thoại có thể được sử dụng là một giá trị mẫu có thể được dự đoán từ các giá trị mẫu quá khứ. Ở phía truyền, chúng ta dự đoán giá trị của mẫu và tìm thấy sự khác biệt giữa giá trị dự báo và giá trị thực tế và sau đó gửi các giá trị khác biệt. Kỹ thuật này được gọi là điều chế thích nghi xung mã vi sai (ADPCM). Sử dụng ADPCM, tín hiệu thoại có thể được mã hoá tại 32kbps mà không cần bất kỳ sự xuống cấp về chất lượng so với PCM.
ITU-T khuyến nghị G.721 quy định các thuật toán mã hóa. Trong ADPCM, giá trị của mẫu lời thoại không được truyền, nhưng sự khác biệt giữa giá trị dự báo và các mẫu giá trị thực tế được thì được truyền. Nói chung, các coder ADPCM lấy dữ liệu mã hoá tiếng nói PCM và chuyển đổi nó thành dữ liệu ADPCM.
Các sơ đồ khối của một bộ mã hóa ADPCM được thể hiện trong Hình 4.3 (a). 8-bit [. Mu]-luật mẫu PCM được đặt vào bộ mã và được chuyển đổi sang dạng tuyến tính. Mỗi giá trị mẫu được dự đoán bằng cách sử dụng một thuật toán dự đoán, và sau đó giá trị dự đoán của các mẫu tuyến tính được trừ vào giá trị thực tế để tạo ra các tín hiệu khác biệt. lượng tử hóa thích nghi được thực hiện trên giá trị khác biệt này để tạo ra một mẫu giá trị ADPCM 4-bit, là cái được truyền đi. Thay vì đại diện cho mỗi mẫu bằng 8 bit, trong ADPCM chỉ có 4 bit được sử dụng. Ở đầu tiếp nhận, các bộ giải mã, thể hiện trong hình 4.3 (<!–emo&B)–><img src=‘http://www.uit.edu.vn/forum/html/emoticons/cool.gif’ border=‘0’ style=‘vertical-align:middle’ alt=‘cool.gif’ /><!–endemo–>, có được phiên bản dequantized(chuyển từ tín hiệu số sang tín hiệu tương tự) của tín hiệu kỹ thuật số. Giá trị này được thêm vào các giá trị được tạo ra bởi các yếu tố dự báo thích ứng để tạo ra các lời nói được mã hoá PCM tuyến tính, được điều chỉnh để tái tạo lại bằng quy tắc m dựa trên phương pháp mã hoá tiếng nói PCM .
<img src=‘http://img220.imageshack.us/img220/5033/39296356.png’ border=‘0’ alt=‘user posted image’ />
Hình 4.3: (a) Bộ mã ADPCM .
<img src=‘http://img716.imageshack.us/img716/9332/50013897.png’ border=‘0’ alt=‘user posted image’ />
Hình 4.3: (<!–emo&B)–><img src=‘http://www.uit.edu.vn/forum/html/emoticons/cool.gif’ border=‘0’ style=‘vertical-align:middle’ alt=‘cool.gif’ /><!–endemo–> Bộ giải mã ADPCM.
Có rất nhiều kỹ thuật mã hóa dạng sóng chẳng hạn như điều chế Delta (delta modulation -DM) và điều chế biến đổi độ dốc liên tục (continuously variable slope delta modulation - CVSD). Sử dụng cách này, tốc độ mã hóa có thể được giảm đến 16kbps, 9.8kbps, và có thể giảm nữa. Khi tốc độ mã giảm, chất lượng của lời thoại cũng là đi xuống. Có những kỹ thuật mã hóa bằng cách sử dụng giọng nói chất lượng tốt ,có thể được mã hóa với tốc độ thấp.
Kỹ thuật mã hóa PCM được sử dụng rộng rãi trong các mạng điện thoại. ADPCM được sử dụng trong các mạng điện thoại cũng như trong nhiều hệ thống phát thanh như công nghệ truyền thông không dâykỹ thuật số cải tiến (DECT).
Trong ADPCM, mỗi mẫu được biểu diễn bằng 4 bit, và do đó tốc độ dữ liệu cần thiết là 32kbps. ADPCM được sử dụng trong các mạng điện thoại cũng như hệ thống phát thanh như DECT.
Lưu ý Trong 50 năm qua, hàng trăm kỹ thuật mã hóa dạng sóng đã được phát triển với tốc độ dữ liệu có thể được giảm xuống thấp 9.8kbps để có được tiếng nói chất lượng tốt.
4.2.2)Vocoding :
Một phương pháp mã hóa tín hiệu thoại hoàn toàn khác nhau đã được đề xuất bởi H. Dudley vào năm 1939. Ông đặt tên là coder vocoder , một thuật ngữ bắt nguồn từ voice coder. Trong một vocoder, mô hình điện cho biến đổi lời thoại thể hiện trong Hình 4.4 được sử dụng. Mô hình này được gọi là mô hình nguồn lọc bởi vì cơ chế biến đổi lời thoại được xem là hai thực thể riêng biệt-một bộ lọc phát âm và các nguồn kích thích. Nguồn kích thích bao gồm một máy phát xung và bộ tạo tiếng ồn. Các bộ lọc được kích thích bởi các máy phát xung để tạo âm hữu thanh (nguyên âm) và tiếng ồn của máy phát điện để sản xuất âm vô thanh (phụ âm). Bộ lọc lọc các hệ số biến thiên theo thời gian . Bởi vì các đặc tính của tín hiệu thoại khác nhau từ từ theo thời gian, khoảng 20mili giây, các hệ số bộ lọc có thể được giả định là không đổi.
<img src=‘http://img813.imageshack.us/img813/9718/39912547.png’ border=‘0’ alt=‘user posted image’ />
Hình 4.4: Mô hình điều chế giọng nói .
Trong kỹ thuật vocoding, tại máy phát, tín hiệu thoại được chia thành nhiều phần theo thời gian mỗi phần 20 mili giây . Mỗi phần chứa 160 mẫu. Mỗi phần được phân tích để kiểm tra xem nó là một phần hữu thanh hoặc vô thanh bởi bằng cách sử dụng các thông số như năng lượng, biên độ, vv… Đối với phần hữu thanh, cao độ được xác định. Đối với mỗi phần, các hệ số bộ lọc cũng được xác định. Các thông số này –vô thanh /hữu thanh, hệ số bộ lọc, và cao độ cho phần hữu thanh, được truyền tới người nhận. Ở đầu tiếp nhận, tín hiệu thoại được tái tạo bằng cách sử dụng các mô hình điều chế giọng nói . Sử dụng phương pháp này, tốc độ dữ liệu có thể được giảm thấp khoảng 1.2Kbps. Tuy nhiên, so với kỹ thuật mã hóa, chất lượng giọng nói sẽ không được quá tốt . Một số kỹ thuật được sử dụng để tính các hệ số bộ lọc. Dự báo tuyến tính được dùng phổ biến nhất trong những kỹ thuật này.
Trong kỹ thuật vocoding, mô hình điện cho biến đổi lời thoại được sử dụng. Trong mô hình này, vùng phát âm được thể hiện như một bộ lọc. Các bộ lọc được kích thích bởi một máy phát xung để tạo ra âm hữu thanh và bởi một máy phát tiếng ồn để tạo ra âm vô thanh .
Chú ý giọng nói được tạo ra bằng cách sử dụng các kỹ thuật vocoding âm thanh rất cơ học hoặc giống robot . Một giọng nói như vậy được gọi là giọng nói. tổng hợp Nhiều giọng nói tổng hợp, được tích hợp vào robot, máy ảnh, và nhiều nữa,đều sử dụng các kỹ thuật vocoding.
Dự đoán tuyến tính
Các khái niệm cơ bản của dự đoán tuyến tính là các mẫu của một tín hiệu thoại có thể gần giống với một sự kết hợp tuyến tính của các mẫu quá khứ của tín hiệu đó.
Nếu Sn là mẫu bài phát biểu thứ n, sau đó
S_n=∑a_k S_(n-k)+G U_n
ak (k = 1, …, P) là các hệ số dự đoán tuyến tính, G là độ lợi của bộ lọc phát âm , và Un là kích thích cho các bộ lọc. hệ số dự báo tuyến tính (thông thường 8-12) đại diện cho các hệ số của bộ lọc. Tính toán hệ số dự đoán tuyến tính liên quan đến việc giải quyết P phương trình tuyến tính. Một trong những phương pháp được sử dụng rộng rãi nhất để giải quyết những phương trình này là bằng thuật toán Levinson- Durbin.
Mã hóa của tín hiệu thoại bằng cách sử dụng phương pháp phân tích dự đoán tuyến tính bao gồm các bước sau:
Khi truyền kết thúc, phân chia các tín hiệu thoại vào khung, mỗi khung có thời gian 20mili giây. Đối với mỗi khung, tính toán hệ số dự đoán tuyến tính và cao độ và tìm hiểu xem khung là hữu thanh hoặc vô thanh . Chuyển đổi các giá trị này thành các từ mã và gửi đến đầu nhận.
Tại máy thu, sử dụng các tham số và mô hình điều chế giọng nói, xây dựng lại các tín hiệu thoại.
Trong kỹ thuật dự đoán tuyến tính, một mẫu giọng nói là xấp xỉ như là một sự kết hợp tuyến tính của các mẫu n trước đó. Các hệ số dự đoán tuyến tính được tính toán mỗi 20 mili giây và gửi đến người nhận, và dựng lại các giọng nói bằng cách sử dụng các hệ số. Sử dụng phương pháp này, tín hiệu thoại có thể được nén thấp tới 1.2Kbps.
Sử dụng vocoder dự đoán tuyến tính, tín hiệu thoại có thể được nén thấp đến 1.2Kbps. Chất lượng của bài phát biểu sẽ rất tốt cho tốc độ dữ liệu xuống 9.6kbps, nhưng tiếng nói của âm thanh tổng hợp cho tốc độ dữ liệu thấp hơn nữa. Sự thay đổi ít của kỹ thuật này được sử dụng rộng rãi trong nhiều hệ thống thiết thực như hệ thống thông tin di động, tổng hợp giọng nói, v.v…
Lưu ý các biến thể của LPC kỹ thuật được sử dụng trong nhiều hệ thống thương mại, chẳng hạn như các hệ thống thông tin di động và điện thoại Internet.
4.3)Hình ảnh
Để chuyển một hình ảnh, hình ảnh được chia thành lưới gọi là điểm ảnh (hoặc các phần tử hình ảnh). Số lượng các mạng lưới càng cao thì các độ phân giải càng cao. kích cỡ mạng lưới như 768 × 1024 và 400× 600 thường được sử dụng trong đồ họa máy tính. Đối với hình ảnh đen trắng, mỗi điểm ảnh được cho một giá trị màu xám. Nếu có 256 cấp độ màu xám, mỗi điểm ảnh được biểu diễn bằng 8 bit. Vì vậy, để đại diện cho một hình ảnh với kích thước mạng lưới là 400 × 600 điểm ảnh với mỗi điểm ảnh của 8 bit, bắt buộc dung lượng lưu trữ là 240kbytes. Đại diện cho màu sắc, các thang màu của ba màu cơ bản đỏ, xanh dương và xanh lá cây, được kết hợp với nhau. Các sắc thái của màu sắc sẽ cao hơn nếu mức độ mỗi màu được sử dụng nhiều hơn.
Trong mã hóa hình ảnh, hình ảnh được chia thành lưới nhỏ gọi là điểm ảnh, và mỗi điểm ảnh được lượng tử hóa. Số điểm ảnh càng cao thì chất lượng của hình ảnh được tái tạo càng cao.
Ví dụ, nếu một hình ảnh được mã hóa với độ phân giải 352 × 240 pixels và mỗi điểm ảnh được biểu diễn bằng 24 bit, kích thước của hình ảnh là 352 × 240 × 24 / 8 = 247,5 KB.
Để lưu trữ những hình ảnh cũng như để gửi thông tin qua một phương tiện truyền thông, hình ảnh cần phải được nén. Một hình ảnh nén chiếm ít không gian lưu trữ nếu được lưu trữ trên đĩa mềm như là hoặc đĩa CD-ROM. Nếu hình ảnh được gửi qua một phương tiện truyền thông, hình ảnh được nén có thể được truyền đi nhanh chóng.
Một trong những hình ảnh được sử dụng rộng rãi nhất là định dạng mã hóa định dạng JPEG. Liên hiệp các nhóm chuyên gia về hình ảnh (Joint Photograph Experts Group -JPEG) đề xuất tiêu chuẩn này để mã hóa các hình ảnh. Sơ đồ khối nén hình ảnh JPEG được thể hiện trong hình 4.5.
<img src=‘http://img254.imageshack.us/img254/685/32061550.png’ border=‘0’ alt=‘user posted image’ />
Hình 4.5: Nén JPEG.
Để nén hình ảnh bằng cách sử dụng kỹ thuật nén JPEG, hình ảnh được chia thành các khối 8 ×8 điểm ảnh và mỗi khối được xử lý bằng cách sử dụng các bước sau:
1-Áp dụng biến đổi cosin rời rạc (DCT), trong đó có các ma trận 8 × 8 và tạo ra một ma trận 8 × 8 có chứa các hệ số tần số. Điều này cũng tương tự như Fast Fourier Transform (FFT) được sử dụng trong kỹ thuật số xử lý tín hiệu. Kết quả ma trận thể hiện cho hình ảnh trong miền không gian tần số.
2-Lượng tử hóa các hệ số tần số thu được ở Bước 1. Đây chỉ là làm tròn các giá trị đến mức lượng tử gần nhất. Kết quả là, chất lượng của hình ảnh sẽ hơi suy giảm.
3-Chuyển đổi các mức lượng tử hóa thành bit. Vì sẽ có ít thay đổi trong các hệ số tần số liên tiếp, sự khác biệt trong các hệ số tần số được mã hoá thay vì trực tiếp mã hóa các hệ số.
JPEG nén của một hình ảnh được thực hiện theo ba bước sau: (a) phân chia các hình ảnh thành 8 × 8 ma trận và áp dụng biến đổi cosin rời rạc (DCT) trên mỗi ma trận, (<!–emo&B)–><img src=‘http://www.uit.edu.vn/forum/html/emoticons/cool.gif’ border=‘0’ style=‘vertical-align:middle’ alt=‘cool.gif’ /><!–endemo–> lượng tử hóa của các hệ số tần số thu được ở bước (a), và © chuyển đổi của các mức lượng tử hóa thành bit. tỷ lệ nén của 30:1 có thể đạt được bằng cách sử dụng kỹ thuật này.
Tỷ lệ nén của 30:1 có thể đạt được bằng cách sử dụng nén JPEG. Nói cách khác, một hình ảnh 300kB có thể được giảm xuống còn khoảng 10kB.
Lưu ý JPEG nén hình ảnh được sử dụng rộng rãi trong việc phát triển trang web. So với các tập tin ánh xạ bit (trong đó có một phần mở rộng bmp.), Những hình ảnh JPEG (trong đó có một phần mở rộng. Jpg) chiếm không gian ít hơn và do đó có thể được tải về nhanh chóng khi chúng ta truy cập một trang web.
4.4 VIDEO
Một tín hiệu video chiếm băng thông 5MHz. Sử dụng định lý lấy mẫu Nyquist, chúng ta cần phải lấy mẫu tín hiệu video là 10 mẫu / mili giây. Nếu chúng ta sử dụng PCM 8-bit, tín hiệu video đòi hỏi băng thông 80Mbps. Đây là một tốc độ dữ liệu rất cao, tỷ lệ, và mã hóa kỹ thuật này không thích hợp cho truyền dẫn video kỹ thuật số. Một số kỹ thuật mã hóa video đã được đề xuất để giảm tốc độ dữ liệu.
Đối với mã hóa video, đoạn video được xem xét một loạt các khung hình. Ít nhất là 16 khung hình / giây được yêu cầu để có được những nhận thức về chuyển động video. Mỗi khung được nén bằng cách sử dụng các kỹ thuật nén hình ảnh và truyền đi. Sử dụng kỹ thuật này, video có thể được nén đến 64kbps, mặc dù chất lượng sẽ không được tốt.
Mã hóa video là một phần mở rộng của mã hóa hình ảnh. Như hình 4.6, một loạt các hình ảnh hoặc khung hình, điển hình là 16-30 khung hình, được truyền đi mỗi giây. Do sự kiên trì của mắt, những hình ảnh rời rạc xuất hiện như thể nó là một đoạn video chuyển động. Theo đó, tốc độ dữ liệu để truyền video sẽ bằng số khung nhân với tỷ lệ dữ liệu cho một khung hình. Tốc độ dữ liệu được giảm xuống còn khoảng 64kbps trong các hệ thống hội nghị video nơi độ phân giải của hình ảnh và số khung được giảm đáng kể. Các kết quả video là thường được chấp nhận cho tiến hành cuộc họp kinh doanh trên Internet, mạng nội bộ công ty, nhưng không cho truyền, cuộc hội thoại , các chương trình khiêu vũ, bởi vì các video sẽ bị giật nhiều.
Nhóm chuyên gia hình ảnh động (Moving Picture Experts Group-MPEG) phát hành một số tiêu chuẩn cho video mã hóa. Các tiêu chuẩn sau đây được sử dụng hiện nay:
MPEG-2: Tiêu chuẩn này là dành cho phát sóng video kỹ thuật số. Các tốc độ dữ liệu là 3 và 7.5Mbps. Chất lượng hình ảnh sẽ tốt hơn nhiều so với truyền hình analog. Tiêu chuẩn này được sử dụng trong phát thanh truyền hình qua vệ tinh phát sóng trực tiếp.
Một loạt các tiêu chuẩn nén video đã được phát triển. Đáng chú ý trong số đó là MPEG-2, được sử dụng để phát sóng video. MPEG-4 được sử dụng trong các ứng dụng hội nghị truyền hình và phát sóng truyền hình HDTV độ nét cao.
MPEG-4: Tiêu chuẩn này được sử dụng rộng rãi để mã hóa, sáng tạo, và phân phối các nội dung nghe nhìn cho nhiều ứng dụng vì nó hỗ trợ một loạt các tốc độ dữ liệu. Các tiêu chuẩn MPEG-4 dựa theo các khía cạnh sau :
Đại diện cho nội dung nghe nhìn, được gọi là các đối tượng truyền thông.
Mô tả thành phần của các đối tượng này để tạo ra hợp chất các đối tượng truyền thông.
Ghép kênh và đồng bộ hóa dữ liệu.
<img src=‘http://img255.imageshack.us/img255/1904/61012630.png’ border=‘0’ alt=‘user posted image’ />
Hình 4.6: Mã hóa Video thông qua các khung hình và các điểm ảnh.
Các đối tượng nguyên thủy có thể vẫn còn có hình ảnh, âm thanh, văn bản, đồ họa, video, hoặc bài phát biểu tổng hợp. Mã hóa Video khoảng giữa 5kbps và 10Mbps, mã hóa lời thoại từ 1.2Kbps đến 24kbps, audio (âm nhạc) mã hóa ở 128kbps, v.v… là có thể. MP3 (MPEG Layer-3) là tiêu chuẩn để phân phối âm nhạc với tốc độ dữ liệu 128kbps, mà là một phần của chuẩn MPEG-4.
Đối với hội nghị truyền hình, 384kbps và 2.048Mbps tốc độ dữ liệu là rất thường được sử dụng để có được chất lượng tốt hơn so với 64kbps.Thiết bị cho hội nghị Video có hỗ trợ các tốc độ dữ liệu này rất có giá trị trong thương mại.
MPEG-4 được sử dụng trong các hệ thống thông tin di động hỗ trợ hội nghị truyền hình trong khi di chuyển. Nó cũng được sử dụng trong hội nghị truyền hình qua Internet.
Mặc dù có nhiều phát triển trong truyền thông kỹ thuật số, phát thanh truyền hình video còn là tín hiệu tương tự ở hầu hết các nước. Nhiều tiêu chuẩn đã được phát triển cho các ứng dụng video kỹ thuật số. Khi cáp quang được sử dụng rộng rãi như là môi trường truyền dẫn, có lẽ sau đó kỹ thuật số video sẽ được phổ biến. Định dạng video kỹ thuật số quan trọng ở Châu Âu được đưa ra ở đây:
Multimedia CIF format (định dạng đa phương tiện CIF): chiều rộng 360 pixels ; chiều cao 288 pixels ; số khung hình / giây là 6,25-25; tốc độ truyền bit không nén là 7,8-31 Mbps; có nén là 1-3 Mbps.
Video conferencing (định dạng QCIF): Chiều rộng là 180 pixels , chiều cao 144pixels; khung hình / giây là 6,25-25, tốc độ bit không nén 1,9-7,8 Mbps; có nén 0,064-1 Mbps.
TV kỹ thuật số, định dạng ITU-R BT.601: Chiều rộng 720pixels, chiều cao 526pixel ; khung hình / giây 25; tốc độ bit không nén 166 Mbps; có nén 5-10 Mbps.
HDTV, định dạng ITU-R BT.109: chiều rộng 1920pixels, chiều cao 1250pixels; khung hình / giây 25; tốc độ bit không nén 960 Mbps; có nén 20-40 Mbps.
Lưu ý thương mại hóa phát sóng video kỹ thuật số đã không xảy ra rất nhanh. Dự kiến nhu cầu sử dụng HDTV sẽ cất cánh trong thập kỷ đầu của thế kỷ XXI.
Tóm tắt
Chương này trình bày các chi tiết của mã hóa văn bản ,tiếng nói, hình ảnh, và video sang định dạng kỹ thuật số. Đối với văn bản, ASCII là đại diện thông dụng nhất. Bảy bit được dùng để biểu diễn ký tự. Unicode, trong đó sử dụng 16 bit hiện đang được sử dụng để đại diện các văn bản. Ký tự của bất kỳ ngôn ngữ trên thế giới có thể được đại diện bằng cách sử dụng Unicode.
Đối với âm thanh, xung mã (PCM) là kỹ thuật mã hóa được sử dụng rộng rãi nhất. Trong PCM, tiếng nói được mã hóa với tốc độ dữ liệu 64kbps bằng cách lấy mẫu tín hiệu thoại tại 8.000 mẫu / giây và đại diện cho mỗi mẫu bằng 8 bit. Sử dụng mã xung vi sai thích ứng (ADPCM), tỷ lệ mã hóa có thể được giảm tới 32kbps mà không giảm chất lượng. Một kỹ thuật được sử dụng để mã hóa tiếng nói là mã hóa dự đoán tuyến tính (Linear Prediction Coding -LPC), vớikỹ thuật này tốc độ dữ liệu có thể được giảm xuống thấp 1.2Kbps. Tuy nhiên, tỷ lệ bit đi xuống, chất lượng đi xuống. Các biến thể của LPC được sử dụng trong nhiều ứng dụng như truyền thông di động, điện thoại Internet, v.v…
Đối với nén hình ảnh, tiêu chuẩn của nhóm chuyên gia Liên kết hình Ảnh (JPEG) được sử dụng, qua đó tỷ lệ nén có thể đạt được lên tới 30:1. Đối với mã hóa video, tiêu chuẩn được sử dụng rộng rãi nhất đã được phát triển bởi Moving Picture Experts Group (MPEG). MPEG-2 được sử dụng để phát sóng. MPEG-4 định nghĩa tiêu chuẩn để mã hóa video từ 5kbps đến 10Mbps. MPEG-4 được sử dụng trong truyền thông di động cũng như truyền thông đa phương tiện qua Internet.
Tài liệu tham khảo :
J. Campbell. C Programmer’s reference guide to Serial communication. Prentice-Hall, Inc., 1997.
G. Karlsson. “Asynchronous Transfer of Video”. IEEE Communications Magazine, Vol. 34, No. 8, August 1996.
G. K. Wallace. “The JPEG Still Picture Compression Standard”. Communications of the ACM, Vol. 34, No. 1, April 1991, pp. 30-44.
D. LeGall. “MPEG: A Video Compression Standard for Multimedia Applications”. Communications of the ACM, Vol. 34, No. 1, April 1994.
<a href=‘http://www.cdacindia.com’ target=‘_blank’>http://www.cdacindia.com</a> Web site của Trung tâm phát triển nâng cao máy tính. Bạn có thể có được những chi tiết của tiêu chuẩn ISCII từ website này.
Câu hỏi
Các tiêu chuẩn khác nhau để mã hóa các tin nhắn văn bản là gì?
Thế nào là dạng sóng mã hóa? Giải thích kỹ thuật mã hóa PCM và ADPCM.
Vocoder là gì? Mô tả mô hình điều chế giọng nói.
Giải thích kỹ thuật mã hóa LPC.
Giải thích kỹ thuật nén JPEG.
Các tính năng nổi bật của các tiêu chuẩn MPEG-4 là gì?
Các bài tập
-
Trên máy tính đa phương tiện của bạn, ghi lại giọng nói của bạn và thực hiện các dạng sóng tiếng nói. Lưu trữ dữ liệu trong một tập tin và kiểm tra kích thước file. Thay đổi tốc độ lấy mẫu và mức lượng tử hóa (bit / mẫu), lưu trữ dữ liệu bài phát biểu, và quan sát các kích thước tập tin.
-
Cài đặt một máy quay phim desktop trên máy tính của bạn và, bằng cách sử dụng một gói phần mềm như Microsoft NetMeeting, tham gia vào một hội nghị video qua mạng LAN. Quan sát chất lượng video.
-
Tính toán tỷ lệ bit cần thiết để truyền video nếu video được truyền đi ở tốc độ 30 khung hình / giây, với mỗi khung hình được chia thành 640 × 480 điểm ảnh, và mã hóa được thực hiện tại 3 bit / pixel.
-
Mô tả các tiêu chuẩn mã hóa Ấn Độ cho trao đổi thông tin.
-
Tải về miễn phí phần mềm MP3 và tìm ra những nén đạt được trong phần mềm MP3 bằng cách chuyển đổi file WAV vào file MP3.
-
Tính toán bộ nhớ cần thiết để lưu trữ 100 giờ của cuộc hội thoại bằng giọng nói nếu mã hóa được thực hiện bằng cách sử dụng (a) PCM tại 64kbps (<!–emo&B)–><img src=‘http://www.uit.edu.vn/forum/html/emoticons/cool.gif’ border=‘0’ style=‘vertical-align:middle’ alt=‘cool.gif’ /><!–endemo–> ADPCM tại 32kbps và © LPC tại 2.4kbps.
-
Nếu tín hiệu âm nhạc là giới hạn băng thông là 15 kHz, tốc độ lấy mẫu tối thiểu phải có là gì? Nếu 12 bit được sử dụng để đại diện cho mỗi mẫu, tốc độ dữ liệu là gì?
-
Một hình ảnh có kích thước 640 × 480 pixel. Mỗi pixel được mã hoá bằng cách sử dụng 4 bit. Yêu cầu bao nhiêu bộ nhớ để lưu trữ các hình ảnh?
Trả lời
Để ghi lại giọng nói của bạn trên máy tính đa phương tiện của bạn, bạn có thể sử dụng máy ghi âm thanh có sẵn trên hệ điều hành Windows. Bạn cũng có thể sử dụng một phần mềm tiện ích tinh vi hơn như (http://www.goldwave.com) GoldWave. Bạn sẽ có tùy chọn để chọn tỷ lệ lấy mẫu (8kHz, 16kHz, vv) và mức lượng tử hóa các (8 bit, 16 bit, vv.) GoldWave cung cấp các tiện ích để lọc tiếng ồn xung quanh, thay đổi cao độ, và như vậy.
Khi bạn sử dụng một gói phần mềm như Microsoft NetMeeting qua mạng LAN, video sẽ được truyền đi với tốc độ bit rất thấp, do đó, video sẽ xuất hiện giật.
Nếu video được truyền đi ở tốc độ 30 khung hình / giây, với mỗi khung hình được chia thành 640 × 480 điểm ảnh, và mã hóa được thực hiện tại 3 bit / pixel, tốc độ dữ liệu
30 × 640 × 480 × 3 bit / giây = 3 × 64 × 48 × 3kbps = 27.648 kbps = 27.648Mbps
Tiêu chuẫn mã hóa Ấn Độ cho trao đổi thông tin (ISCII) là một tiêu chuẩn được phát triển bởi Sở Điện tử (Bộ Thông tin Công nghệ), Chính phủ Ấn Độ. Mã ISCII được sử dụng để đại diện cho các ngôn ngữ Ấn Độ trong máy tính. Trung tâm phát triển nâng cao của máy tính (CDAC) cung cấp cho phần cứng và phần mềm cho xử lý ngôn ngữ Ấn Độ dựa trên ISCII. Bạn có thể tìm hiểu chi tiết từ <a href=‘http://www.cdacindia.com’ target=‘_blank’>http://www.cdacindia.com</a> trang web.
phần mềm MP3 có thể được lấy từ các trang web sau đây:
<a href=‘http://www.dailymp3.com’ target=‘_blank’>http://www.dailymp3.com</a>
<a href=‘http://www.mp3machine.com’ target=‘_blank’>http://www.mp3machine.com</a>
<a href=‘http://www.mp3.com’ target=‘_blank’>http://www.mp3.com</a>
Để lưu trữ 100 giờ tiếng nói, yêu cầu bộ nhớ được đưa ra dưới đây nếu các mã hóa được thực hiện bằng cách sử dụng (a) PCM tại 64kbps, (<!–emo&B)–><img src=‘http://www.uit.edu.vn/forum/html/emoticons/cool.gif’ border=‘0’ style=‘vertical-align:middle’ alt=‘cool.gif’ /><!–endemo–> ADPCM tại 32kbps, và © LPC tại 2.4kbps.
a)Để lưu trữ 100 giờ tiếng nói bằng cách sử dụng PCM với tốc độ dữ liệu 64kbps, Tổng thời gian của cuộc hội thoại bằng giọng nói = 100 giờ = 100 × 3600 giây .Bộ nhớ yêu cầu = 100 × 3600 × 64 kbps = 100 × 3600 × 8 Kbytes = 360 × 8 Mbytes = 2880Mbytes
b)1440Mbytes
c)100 × 3600 × 2.4kbps = 100 × 3600 × 0.3Kbytes = 36 × 3 MB = 108Mbytes
Nếu tín hiệu âm nhạc có băng thông giới hạn 15kHz, tốc độ lấy mẫu tối thiểu cần thiết là hai lần băng thông. Do đó,
Tỷ lệ lấy mẫu tối thiểu = 2 × 15kHz = 30kHz
Nếu 12 bit được sử dụng để đại diện cho mỗi mẫu, tốc độ dữ liệu = 30.000 × 12 bit / giây = 360.000 bit / giây = 360kbps.
kích thước Hình ảnh là 640 × 480 pixel. Mỗi điểm ảnh được mã hoá bằng cách sử dụng 4 bit. Để lưu trữ các hình ảnh,
Bộ nhớ yêu cầu = 640 × 480 × 4 bit = 153.6Kbytes.
Các dự án
Phát triển một chương trình để tạo ra mã Morse. Các đầu ra của mã Morse (biểu diễn âm thanh bằng dấu gạch và chấm) được nghe thông qua card âm thanh. Thời hạn của dấu gạch ngang là ba lần so với các dấu chấm.
Nghiên cứu các thuật toán Durbin-Levinson để tính hệ số dự đoán tuyến tính. Thực hiện các thuật toán trong phần mềm.
Phát triển phần mềm để nén hình ảnh bằng cách sử dụng các tiêu chuẩn.