Современные методы позиционирования и сжатия звука
	
	
человеку,  также  будет  ослаблена  чувствительность  человеческого  уха  на 
период в 100 мс после и 5 мс до возникновения сильного звука).  Psycoacustic 
(психоакустическая) модель используемая  в  MPEG  разбивает  весь  частотный 
спектр на части, в которых  уровень  звука  считается  одинаковым,  а  затем 
удаляет  звуки  не  воспринимаемые  человеком,  благодаря   описанным   выше 
эффектам. 
    В Layer III части разбитого спектра самые маленькие,  что  обеспечивает 
самое хорошее сжатие. MPEG Audio поддерживает совместимость  Layer'ов  снизу 
вверх, т.е. decoder (декодировщик) для Layer  II  будет  также  распознавать 
Layer I. 
    Синхронизация и объединение звука и  видео,  осуществляется  с  помощью 
System Stream, который включает в себя: 
Системный слой, содержащий временную и другую информацию чтобы  разделить  и 
синхронизовать видео и аудио. 
Компрессионный слой, содержащий видео и аудио потоки. 
    Видео  поток  содержит  заголовок,  затем  несколько   групп   картинок 
(заголовок и несколько картинок  необходимы  для  того,  что  бы  обеспечить 
произвольный доступ к картинкам в группе в независимости от их порядка). 
    Звуковой  поток  состоит  из  пакетов  каждый  из  которых  состоит  из 
заголовка и нескольких звуковых кадров (audio-frame). 
    Для синхронизации аудио и видео потоков в системный поток  встраивается 
таймер, работающий с частотой 90 КГц (System Clock Reference --  SCR,  метка 
по  которой  происходит  увеличения  временного  счетчика  в   декодере)   и 
Presentation Data Stamp (PDS, метка насала  воспроизведения,  вставляются  в 
картинку  или  в  звуковой  кадр,  чтобы  объяснить   декодеру,   когда   их 
воспроизводить. Размер PDS сотавляет 33 бита, что  обеспечивает  возможность 
представления любого временного цикла длинной до 24 часов). 
Параметры MPEG-1 (Утверждены в 1992) 
    Параметры Аудио: 48, 44.1,  32  КГц,  mono,  dual  (два  моно  канала), 
стерео, интенсивное стерео (объединяются сигналы с частотой выше 2000  Гц.), 
m/s stereo (один канал переносит сумму - другой разницу). Сжатие и  скорость 
передачи звука  для  одного  канала,  для  частоты  32  КГц  представлены  в 
таблице. 
|Способ          |Скорость передачи kbps (килобит в    |Коэффициент     | 
|кодирования     |сек.)                                |сжатия          | 
|Layer I         |192                                  |1:4             | 
|Layer II        |128..96                              |1:6..8          | 
|Layer III       |64..56                               |1:10..12        | 
    Параметры  Видео:  в  принципе  с  помощью  MPEG-1   можно   передавать 
разрешение вплоть до 4095x4095x60 fps  (в  этих  границах  кадр  может  быть 
произвольного  размера),  но  так  как  существует  Constrained   Parameters 
Bitstream (CPB, неизменяемые параметры потока данных; другие  стандарты  для 
MPEG-1 поддерживаются  далеко  не  всеми  декодерами)  которые  ограничивают 
общее число макроблоков в картинке (396 для скорости <= 25  fps  и  330  для 
скорости <= 30 fps)  то  MPEG-1  кодируется  стандартом  SIF  /352*240*30  - 
(получено урезанием стандарта CCIR-601) или  352*288*25  -  (урезанный  PAL, 
SECAM) формат 4:2:0, 1.15 MBPS (мегабит в сек.), 8 bpp (бит на  точку)  -  в 
каждой плоскости/. 
    Существует более высокое разрешение для MPEG-1 - так называемый  MPEG-1 
Plus, разрешение как у MPEG-2  ML@MP  (Main  Level,  Main  Profile)  -  этот 
стандарт часто используется в Set-Top-Box для улучшения качества. 
MPEG2 - upgrade для MPEG1 
    Компрессия по стандарту  MPEG-2  кардинально  меняет  положение  вещей. 
Более 97% цифровых данных, представляющих  видео  сигнал  дублируются,  т.е. 
являются избыточными и могут быть сжаты  без  ущерба  качеству  изображения. 
Алгоритм  MPEG-2  анализирует   видеоизображение   в   поисках   повторений, 
называемых  избыточностью.  В  результате  процесса  удаления  избыточности, 
обеспечивается превосходное видеоизображение  в  формате  MPEG-2  при  более 
низкой скорости передачи  данных.  По  этой  причине,  современные  средства 
поставки видеопрограмм,  такие  как  цифровые  спутниковые  системы  и  DVD, 
используют именно стандарт MPEG-2. 
    Изменения в Audio: 
Появились новые виды частот 16, 22.05, 24 КГц. 
Поддержка многоканальности - возможность иметь 5 полноценных каналов  (left, 
center,  right,  left  surround,  right   surround)   +   1   низкочастотный 
(subwoofer). 
Появился AAC (Advanced  Audio  Coding  -  прогрессивное  кодирование  звука) 
стандарт - обеспечивает очень высокое качество звука со  скоростью  64  kbps 
per channel (килобит в сек. на канал),  возможно  использовать  48  основных 
каналов, 16 низкочастотных каналов для звуковых эффектов,  16  многоязыковых 
каналов и 16 каналов данных. До 16 программ  может  быть  описано  используя 
любое количество элементов звуковых и других данных. Для AAC существуют  три 
вида профиля - Main (используется когда нет лишней памяти),  Low  Complexity 
(LC), Scalable Sampling Rate (SSR, требуется декодер с изменяемой  скоростью 
приема данных). 
    Декодеры должны быть: 
   1. "forwards compatible" (вперед совместимыми)  -  MPEG-2  Audio  Decoder 
      понимает любые MPEG-1 аудио каналы. 
   2. "backward compatible" (обратно совместимыми) -  MPEG-1  Audio  Decoder 
      должен понимать ядро MPEG-2 Audio (L-канал, R-канал) 
   3. "matrixing" (матрицируемыми) - MPEG1 Audio Decoder должен понимать  5- 
      ти канальный MPEG-2 (L = left signal + a * center signal +  b  *  left 
      surround signal, R = right signal + a * center  signal  +  b  *  right 
      surround signal) 
   4. MPEG-1 Звуковой декодер не обязан понимать MPEG-2 AAC. 
    В следствии зтого совершенно спокойно можно использовать MPEG-1 Vidio + 
MPEG-2 Audio или наоборот MPEG-2 Audio + MPEG-1 Video. 
    Изменения в Видео: 
Требуется чтобы разрешение по вертикали  и  горизонтали  было  кратно  16  в 
кодировщике кадров (frame-encoder) стандартах  (покадровое  кодирование),  и 
32 по вертикали в кодировщике полей (field-encoder, каждое поле  состоит  из 
двух кадров) стандартах (interlaced video). 
Возможность форматов 4:4:4, 4:2:2 (Next profile). 
Введены понятия Profile (форма, профиль) и Levels (уровни). 
Размер frame до 16383*16383. 
Возможность кодировать interlaced video. 
Наличие режимов масштабирования (Scalable Modes) 
Pan&Scanning  вектор  (вектор  панорамировани  и  масштабирования),  который 
говорит декодеру как преобразовывать, например 16:9 в 4:3. 
    Изменения связаные с алгоритмами кодирования: 
Точность частотных коэффициентов выбирается пользователем (8, 9, 10, 11  бит 
на одно значение -- в MPEG-1 только 8 бит). 
Нелинейный quantization процесс (разбиение непрерыных данных в  дискретные). 
Возможность   загрузить   quantization   matrix   (матрица    преобразований 
непрерыных данных в дискретные) перед каждым кадром. 
Новые режимы предсказания движения (16x8 MC, field MC, Dual Prime) 
    Scalable Modes (доступно только в Next и Main+ Profile) делят MPEG-2 на 
три слоя (base, middle, high) для того чтобы организовать уровни  приоритета 
в видеоданных (на пример  более  приоритетный  канал  кодируется  с  большим 
количеством информации по коррекции ошибок чем менее): 
   1. Spatial scalability (пространственное масштабирование) - основной слой 
      кодируется  с  меньшим  разрешением  и  затем  он   используется   как 
      предсказание для более приоритетных. 
   2.  Data  Partitioning  (дробление  данных)  -  разбивает  блок   из   64 
      quantization коэффициентов в два потока из которых более  приоритетный 
      переносит низкочастотные (наиболее  критичные  к  качеству),  а  менее 
      приоритетный (высокочастотные). 
   3. SNR (Signal to Noise Ratio)  Scalability  (масштабировние  соотношения 
      сигна/шум) - каналы кодируются с одинаковой  скоростью,  но  с  разным 
      качеством (менее приоритетный слой содержит плохую  картинку  -  более 
      дискретные  шаги,   а   высокоприоритетный   слой   содержит   довесок 
      позволяющий построить качественную картинку) 
   4. Temporal Scalability (временное масштабирование) - менее  приоритетный 
      слой  содержит  канал  с   низкой   скоростью   передачи   кадров,   а 
      высокоприоритетный  содержит   информацию   позволяющую   восстановить 
      промежуточные кадры используя для предсказания менее приоритетные. 
Уровни 
|Уровень    |Максимальное     |Максимальная       |Примечание            | 
|           |разрешение       |скорость           |                      | 
|Low        |352*240*30       |4 Mbps             |CIF, кассеты          | 
|Main       |720*480*30       |15 Mbps            |CCIR 601, студийное TV| 
|High 1440  |1440*1152*30     |60 Mbps            |4x601, бытовое HDTV   | 
|High       |1920*1080*30     |80 Mbps            |Продукция SMPTE 240M  | 
|           |                 |                   |std                   | 
Профили 
|Профиль    |Комментарии                                                 | 
|Simple     |Такой же как и Main только без B - картинок. Используется в | 
|           |программах и CATV (кабельное ТВ)                            | 
|Main       |Стандартный MPEG-1, 95% пользователей, CATV, спутники       | 
|Main+      |Main со Spatial и SNR Scalability                           | 
|Next       |Main+ c форматом 4:2:2                                      | 
Допустимые комбинации Профилей и Уровней 
|Simple      |Main         |Main+                  |Next    | 
|High        |No           |No                     |4:2:2   | 
|High 1440   |No           |Main c Spatial         |4:2:2   | 
|            |             |Scalability            |        | 
|Main        |90% от всех  |Main c SNR Scalability |4:2:2   | 
|Low         |No           |Main c SNR Scalability |No      | 
Наиболее популярные стандарты. 
|Разрешение              |Комментарии                         | 
|352*480*24 (progressive)|VHS, хорош для фильмов              | 
|544*480*30 (interlaced) |Laserdisc (LD), D-2, Качество как у | 
|                        |PAL                                 | 
|704*480*30 (interlaced) |Качество CCIR 601.Studio D-1        | 
    Системный уровень MPEG-2, обеспечивает два уровня объединения данных: 
   1. Packetized Elementary Stream (PES) - разбивает звук и видео на пакеты. 
   2. Второй уровень делится на: 
MPEG-2 Program Stream (совместим с MPEG-1 System) - для  локальная  передача 
в среде с маленьким уровнем ошибок 
MPEG-2 Transport Stream (Рис.  6)  -  внешнее  вещание  в  среде  с  высоким 
уровнем ошибок - передает транспортные пакеты (длиной 188 либо  188+16  бит) 
двух типов (сжатые данные -- PES -- и сигнальную  таблицу  Program  Specific 
Information -- PSI). 
MPEG-3 - ненужный формат 
    Был  разработан  для  HDTV  приложений  с  параметрами  -  максимальное 
разрешение (1920*1080*30), скорость 20 -  40  Mbps.  Так  как  он  не  давал 
принципиальных улучшений по сравнению с MPEG-2 (да и к тому же  MPEG-2  стал 
широко использоваться в разных вариантах, в том числе и  для  HDTV),  то  он 
благополучно вымер. 
MPEG-4 - очень мощный формат 
    MPEG-4 - стандарт для низкоскоростной передачи (64  kbps),  находящийся 
еще в стадии разработки. Первую версию планировалось закончить в 1999  году. 
    Краткое описание: 
Разделяет картинку на различные элементы, называемые  media  objects  (медиа 
объекты). 
Описывает структуру этих объектов и их взаимосвязи чтобы затем собрать их  в 
видеозвуковую сцену. 
Позволяет изменять сцену, что обеспечивает высокий  уровень  интерактивности 
для конечного пользователя. 
    Видеозвуковая сцена состоит из медиа  объектов,  которые  объеденены  в 
иархическую структуру: 
Неподвижные картинки (например фон) 
Видио объекты (говорящий человек). 
Аудио объекты (голос связанный с этим человеком). 
Текст связанный с данной сценой. 
Синтетические объекты - объекты которых не было  изначально  в  записываемой 
сцене, но которые туда добавляются при демонстрации  конечному  пользователю 
(например синтезируется говорящая голова). 
Текст связанный с головой из которого в конце синтезируется голос. 
    Такой способ представления данных позволяет: 
Перемещать и помещать медиа объекты в любое место сцены. 
Трансформировать объекты, изменять геометрические размеры. 
Собирать из отдельных объектов составной объект и проводить над  ним  какие- 
нибудь операции. 
Изменять  текстуру  объекта   (например   цвет),   манипулировать   объектом 
(заставить ящик передвигаться по сцене) 
Изменять точку наблюдения за сценой. 
MPEG-J 
    MPEG-J - стандартное расширение MPEG-4 в котором  используются  Java  - 
элементы. 
MPEG-7 
    MPEG-7  -  не  является  продолжение   MPEG   как   такового   -   стал 
разрабатываться сравнительно недавно, планируется его закончить  к  2001  г. 
MPEG  -  7  будет  обеспечивать  стандарт  для  описания   различных   типов 
мультимедийной информации (а не  для  ее  кодирования),  чтобы  обсепечивать 
эффективный и быстрый ее поиск. MPEG-7  официально  называют  -  "Multimedia 
Content Description  Interface"  (Интерфейс  описания  мультимедиа  данных). 
MPEG-7  определяет  стандартный  набор  дискриптеров  для  различных   типов 
мультимедиа информации, так же он  стандартизует  способ  определения  своих 
дискриптеров и их взаимосвязи (description schemes). Для  этой  цели  MPEG-7 
вводит DDL (Description Definition Language -  язык  описания  определений). 
Основная цель применения MPEG-7 это поиск  мультимедиа  информации  (так  же 
как сейчас мы можем найти текст по какому-нибудь предложению), например: 
Музыка.  Сыграв  несколько  нот  на   клавиатуре   можно   получить   список 
музыкальных произведений, которые содержат такую последовательность. 
Графика.  Нарисовав  несколько  линий  на  экране,  получим  набор  рисунков 
содержащих данный фрагмент. 
Картины. Определив объект  (задав  его  форму  и  текстуру)  получим  список 
картин, содержащих оный. 
Видео. Задав объект и движение получим набор видео или анимации. 
Голос. Задав фрагмент голоса певца, получим набор песен и видео роликов  где 
он поет. 
MHEG 
    MHEG - (Multimedia & Hypermedia Expert Group --  экспертная  группа  по 
мультимедиа и гипермедиа) - определяет стандарт для  обмена  мультимедийными 
объектами  (видео,  звук,  текст  и  другие   произвольные   данные)   между 
приложениями  и  передачи  их  разными  способами  (локальная   сеть,   сети 
телекоммуникаций  и  вещания)  с  использованием  MHEG  object  classes.  Он 
позволяет программным объектам включать в  себя  любую  систему  кодирования 
(например MPEG), которая определена в базовом приложении.  MHEG  был  принят 
DAVIC (Digital Audio-Visual Council -- совет по цифровому  видео  и  звуку). 
MHEG  объекты  делаются  мультимедиа   приложениями   используя   multimedia 
scripting languages. 
    Утверждается,  что  MHEG   -   будущий   международный   стандарт   для 
интерактивного  TV,  так  как  он  работает  на  любых  платформах   и   его 
документация свободно распространяема. 
Что такое MP3 ? 
    MP3 -- сокращение от  MPEG  Layer3.  Это  один  из  потоковых  форматов 
хранения и передачи аудиосигнала в цифровой форме, разработанный  Fraunhofer 
IIS и THOMSON, позднее утвержденный как часть  стандартов  сжатого  видео  и 
аудио  MPEG1  и  MPEG2.  Данная  схема  является  наиболее  сложной   схемой 
семейства MPEG Layer 1/2/3. Она требует наибольших затрат машинного  времени 
для кодирования по сравнению с двумя другими и  обеспечивает  более  высокое 
качество кодирования. Используется главным  образом  для  передачи  аудио  в 
реальном времени по сетевым каналам  и  для  кодирования  CD  Audio.  Полные 
спецификации формата доступны на сайте http://www.mp3tech.org/. 
Детали 
    MP3 -- потоковый формат. Это означает, что передача  данных  происходит 
потоком независимых отдельных блоков данных -- фреймов. Для  этого  исходный 
сигнал при кодировании разбивается на равные по  продолжительности  участки, 
именуемые  фреймами  и  кодируемые  отдельно.   При   декодировании   сигнал 
формируется из последовательности декодированных фреймов. 
    Высокая степень компактности  MP3  по  сравнению  с  PCM  16Bit  Stereo 
44.1kHz (CD Audio) и ему подобными  форматами  при  сохранении  аналогичного 
качества звучания  достигается  с  помощью  дополнительного  квантования  по 
установленной схеме, позволяющей минимизировать потери качества. 
    Последнее,   в   свою   очередь,   достигается   учетом    особенностей 
человеческого слуха,  в  том  числе  эффекта  маскирования  слабого  сигнала 
одного диапазона частот более мощным сигналом соседнего диапазона, когда  он 
имеет место, или мощным сигналом предыдущего фрейма,  вызывающего  временное 
понижение чувствительности уха к сигналу текущего фрейма. Также  учитывается 
неспособность большинства людей различать сигналы, по мощности лежащие  ниже 
определенного уровня, разного для разных частотных диапазонов. 
    Подобные  техники  называются  адаптивным  кодированием   и   позволяют 
экономить на наименее значимых с точки зрения восприятия  человеком  деталях 
звучания.  Степень  сжатия,   и,   соответственно,   объем   дополнительного 
квантования, определяются  не  форматом,  а  самим  пользователем  в  момент 
задания параметров кодирования.  Ширина  потока  (bitrate)  про  кодировании 
сигнала,  аналогичного  CD  Audio  (44.1kHz  16Bit  Stereo)  варьируется  от 
наибольшего, 320kbs (320 килобит  в  секунду,  также  пишут  kbs,  kbps  или 
kb/s), до 96kbs и ниже. 
    Термин  битрейт  в  общем  случае  обозначает  общую  величину  потока, 
количество передаваемой за единицу времени информации, и поэтому  не  связан 
с внутренними тонкостями строения потока, его  смысл  не  зависит  от  того, 
содержит ли поток моно или стерео, или  пятиканальное  аудио  с  текстом  на 
разных языках, или что-либо еще 
    На  проведенных  тестах  специально  приглашенные   опытные   эксперты, 
специализирующиеся  на  субъективной  оценке  качественности  звучания,   не 
смогли различить звучание оригинального трека на CD и закодированного в  MP3 
с коэффициентом сжатия 6:1, то есть с  битрейтом  в  256kbs.  Правда,  тесты 
были проведены на небольшом количестве материала, и на  самом  деле  не  все 
столь хорошо, нередко бывает действительно нужно пользоваться 320kbs. 
      Более  низкие  битрейты,  несмотря  на  их  популярность,   не   дают 
возможности обеспечить надлежащее  качество  кодирования,  что  незаслуженно 
обеспечило MP3 дурную славу любительского формата. На  самом  деле,  хотя  и 
256kbs, и  даже  320kbs  тоже  не  дают  возможности  осуществить  полностью 
прозрачное кодирование, но отличия  от  CD  Audio,  по  которому  кодируется 
тестовый MP3, сравнимы с отличиями самого CD Audio от исходного  аналогового 
сигнала, из которого  он  был  получен  путем  оцифровки.  То  есть  потери, 
конечно, есть, но несущественны с точки зрения того, кому качество CD  Audio 
представляется  достаточным.  Фактически,  их  обнаружение  обычно  является 
задачей нетривиальной на аппаратуре класса Hi-Fi. 
Настоящее и будущее MP3 
    MP3 на сегодня имеет два огромных преимущества перед другими 
доступными форматами его рода. Одно из них состоит в том, что  ни  про  один 
из существующих подобных форматов нельзя  пока  сказать,  что  он  полностью 
гарантирует устойчивое сохранение качества звучания  на  достаточно  высоких 
битрейтах, кроме MP3, который достойно выдержал проверку временем.  Пожалуй, 
единственный известные мне конкурент в  этом  плане  --  последние  варианты 
формата ATRAC, используемый в минидисках. 
    Для MP3 также написано  множество  удобного  программного  обеспечения. 
Этот факт отражает второе, не менее  важное  преимущество  --  на  ближайшие 
годы, а возможно, и на  все  десятилетие,  MP3  стал  стандартом  де  факто, 
настолько много сделано в него вложений пользующимися им  сторонами,  в  том 
числе и цифровыми радиостанциями. 
    MP3 довольно  долго  оставался  неизвестным,  но  несколько  лет  назад 
начался взрывной рост его популярности, столь же быстро начали появляться 
залежи нелегальных MP3 файлов. Сейчас налажено производство  аппаратных  MP3 
плееров, а карманных, и для автомобилей.  Таким  образом,  MP3  стал  первым 
массово признанным форматом хранения аудио после CD-Audio. 
    Несмотря на то, что MP3 появился достаточно давно, более новые форматы, 
претендующие на его место, появившиеся к настоящему моменту, все на  поверку 
оказались любительскими. Они могут быть или не быть хороши  по  сравнению  с 
MP3  на  низких  битрейтах,  это  зависит  от  трека  и  особенностей  слуха 
конкретного человека, но на  место  MP3  256kbs...  320kbs  претендовать  не 
способны. 
    Возможно, "монополия" MP3 в сфере компьютеров на низких  битрейтах  все 
же будет отчасти сломлена новым форматом от Microsoft -- WMA. Но  пока  рано 
говорить об этом. С другой стороны, появление Microsoft на данном  рынке  со 
столь  сильной  разработкой   означает   быстрое   отсеивание   оказавшимися 
неудачными ветвей AAC и VQF. Впрочем, остается надежда, что  AAC  еще  будет 
доработан. 
    В завершение упомяну один адрес, по  которому  расположился  проект  по 
созданию    свободного    от     патентных     ограничений     кодера     -- 
http://www.sulaco.org/mp3/free.html. Правда, патентов вокруг MP3  накопилось 
столько, что, думаю, проект этот завершен не будет. 
    (Впрочем, если говорить о свободных от патентах аудиокодерах вообще, то 
существует и более реальный проект, не являющийся проектом  MP3  кодера.  Он 
расположен по адресу http://www.xiph.org/.) 
Описание процесса кодирования 
Подготовка к кодированию. Фреймовая структура 
    Перед кодированием исходный сигнал разбивается на  участки,  называемые 
фреймами, каждый из которых кодируется  отдельно  и  помещается  к  конечном 
файле независимо от других. Последовательность воспроизведения  определяется 
порядком расположения фреймов. Каждый фрейм  может  кодироваться  с  разными 
параметрами. Информация о них содержится в заголовке фрейма. 
Начало кодирования 
    Кодирование начинается с того, что исходный сигнал с  помощью  фильтров 
разделяется на  несколько,  представляющих  отдельные  частотные  диапазоны, 
сумма которых эквивалентна исходному сигналу. 
Работа психоакустической модели 
    Для  каждого  диапазона  определяется  величина  маскирующего  эффекта, 
создаваемого сигналом соседних диапазонов  и  сигналом  предыдущего  фрейма. 
Если она превышает мощность сигнала  интересующего  диапазона  или  мощность 
сигнала  в  нем  оказывается  ниже  определенного   опытным   путем   порога 
слышимости, то для данного фрейма данный диапазон сигнала не кодируется. 
    Для оставшихся данных для  каждого  диапазона  определяется,  сколькими 
битами на сэмпл мы  можем  пожертвовать,  чтобы  потери  от  дополнительного 
квантования были ниже величины маскирующего эффекта. При  этом  учитывается, 
что потеря одного бита ведет к внесению шума квантования  величиной  порядка 
6 dB. 
Завершение кодирования 
    После завершения работы психоакустической модели  формируется  итоговый 
поток, который дополнительно кодируется по  Хаффману,  на  этом  кодирование 
завершается. 
Замечание 
    На   практике   схема   несколько   сложнее.    Например,    необходимо 
согласовываться  с  требованиями  битрейта.  В  зависимости  от  кодера  это 
приводит при повышении  битрейта  к  разного  рода  релаксациям  при  отборе 
сохраняемой  части  исходного  сигнала,  а  при  понижении  --  наоборот,  к 
ужесточению критериев. 
Способы кодирования стерео сигнала 
    В рамках MP3 кодирование стереосигнала  допустимо  четырьмя  различными 
методами: 
    Dual  Channel  --  Каждый  канал  получает  ровно  половину  потока   и 
кодируется  отдельно  как  моно  сигнал.  Рекомендуется  главным  образом  в 
случаях,  когда  разные  каналы  содержат  принципиально  разный  сигнал  -- 
скажем, текст на разных языках. 
    Выставляется в некоторых кодерах по требованию. 
    Stereo -- Каждый канал кодируется  отдельно,  но  кодер  может  принять 
решение отдать одному каналу больше  места,  чем  другому.  Это  может  быть 
полезно в том случае,  когда  после  отброса  части  сигнала,  лежащей  ниже 
порога  слышимости  или  полностью  маскируемой,  оказалось,  что   код   не 
полностью заполняет выделенный для  данного  канала  объем,  и  кодер  имеет 
возможность  использовать  это  место  для  кодирования  другого  канала.  В 
документации к mp3enc замечено, что этим, например,  избегается  кодирование 
"тишины" в одном канале, когда в другом есть сигнал. 
    Данный режим выставлен по умолчанию в большинстве ISO-based кодеров,  а 
также используется продукцией FhG IIS на битрейтах выше 192kbs.  Применим  и 
на более низких битрейтах порядка 128kbs... 160kbs. 
    Joint Stereo (MS Stereo)  --  Стереосигнал  раскладывается  на  средний 
между  каналами  и  разностный.  При  этом  второй  кодируется   с   меньшим 
битрейтом. Это позволяет несколько увеличить качество кодирования в  обычной 
ситуации, когда каналы по фазе  совпадают.  Но  приводит  и  к  резкому  его 
ухудшению, если кодируются сигналы, по фазе  не  совпадающие.  В  частности, 
фазовый сдвиг практически всегда  присутствует  в  записях,  оцифрованных  с 
аудиокассет, но встречается и на CD, особенно если  CD  сам  был  записан  в 
свое время с аудиоленты. С другой стороны, уже совершена (первая ?)  попытка 
написать программу  для  автоматической  коррекции  фазового  сдвига,  адрес 
страницы автора -- http://www.chat.ru/~lrsp. Возможно, она  немного  поможет 
любителям кодировать оцифровки с аудиокассет с битрейтом порядка 128kbs. 
    Режим выставлен по умолчанию продукцией FhG IIS, а также кодером  Lame, 
для битрейтов от 112kbs до 192kbs. 
    Joint  Stereo  (MS/IS  Stereo)  --  Вводит  еще  один  метод  упрощения 
стереосигнала, повышающий качество кодирования на  особо  низких  битрейтах. 
Состоит в том, что для некоторых частотных диапазонов оставляется  уже  даже 
не  разностный  сигнал,  а  только  отношение  мощностей  сигнала  в  разных 
каналах. Понятно, для кодирования этой информации употребляется еще  меньший 
битрейт. 
    В отличие от всех предыдущих, этот  метод  приводит  к  потере  фазовой 
информации,  но  выгоды  от  экономии  места  в  пользу   среднего   сигнала 
оказываются выше, если речь идет о очень низких битрейтах. 
    Этот режим по умолчанию используется продукцией  FhG  IIS  для  высоких 
частот на битрейтах от 96kbs и ниже  (другими  качественными  кодерами  этот 
режим практически не используется). 
    Но, как уже говорилось, при применении данного режима происходит потеря 
фазовой информации, также теряется любой противофазный сигнал. 
Простые заблуждения и ошибки, делаемые пользователями MP3 
    Вокруг MP3 набралось столько заблуждений,  что  создается  впечатление, 
что так все и было задумано, что это чей-то заговор. :) Но -- по порядку. 
    Одно  из  самых  больших  заблуждений,  связанных  с   MP3,   постоянно 
проявляется в споре "128kbs vs 256kbs  --  с  каким  битрейтом  кодировать". 
Аргументы  сторонников  первого  варианта  исчерпываются  напоминанием,  что 
такие MP3 вдвое меньше. Утверждение, что уж лучше держать  CD  Audio  вместо 
MP3 256kbs, несостоятельно --  качество  MP3  256kbs...  320kbs  практически 
сответствует оригиналу, а занимаемый объем в 4.5--6 раз меньше.  Заблуждение 
же состоит в том, что и 128kbs дает достаточно высокое  качество.  На  самом 
же деле для людей, сознательно  выбирающих  128kbs,  сохранение  близкого  к 
исходному качества просто не является слишком важным, так как их  аппаратура 
обычно не лучше плееров -- "мыльниц;". В то же  время  многие  владельцы  CD 
кодируют их в MP3 даже просто потому, что гораздо реже нужно CD менять -  на 
моем 8Gb винчестере поместится более пятидесяти часов музыки в MP3  битрейта 
320kbs. Как  говорится,  в  этом  случае  мотивы  пользователей  128kbs  нам 
непонятны. 
    Чтобы не суметь отличить MP3 128kbs от оригинала, нужно либо  не  иметь 
слуха, либо взять аппаратуру похуже. И то, что на  большинстве  компьютерных 
систем с  момента  покупки  стоит  ужасно  шумная  звуковая  плата  от  ESS, 
известно всем хорошо. Только мне с некоторых пор кажется, что дело еще  и  в 
постоянном отравлении некачественным звуком,  и,  как  следствие,  временной 
(но постоянно возобновляемой)  потере  чувствительности.  Мы  слишком  часто 
слушаем то, что слушать не стоило бы,  и  дело  не  только  характеристиками 
компьютерной техники -- MP3 128kbs при нормальном слухе не понравится  и  на 
ESS.  Конечно,  по  сравнению  с  дребезгом  колонок  уличного  киоска   под 
аккомпанемент трамвая звучание MP3 128kbs может  казаться  весьма  неплохим, 
но это не нормально. 
    А что до карты -- простая малошумная  карта  и  относительно  приличные 
наушники стоят не так  уж  много.  Поэтому  в  обзоре  не  учитываются  шумы 
компьютера и карты -- эти трудности вполне преодолимы. 
    Другое  небольшое  заблуждение  состоит  в  том,  что   уровень   шумов 
декодированного сигнала  сильно  связан  с  уровнем  качества  MP3.  Но  это 
заблуждение развевается очень быстро -- заметить, что качество  MP3  зависит 
от других причин, легче легкого. Как правило, уровень шумов очень  низок  на 
любых битрейтах, это скорее характеристика плеера. 
    Кроме того, в большинстве учебников  прямо  говорится  о  неспособности 
человека слышать частоты выше  16kHz.  Но  во-первых,  это  просто  неверно, 
многое зависит от мощности  сигнала  и  от  возраста  слушателя.  Во-вторых, 
человек -- существо, не лишенное оригинальности. Даже  когда  он  не  слышит 
такие звуки с помощью уха осознанно, он все же ощущает их. И это  влияет  на 
восприятие. Поэтому обрезание частот выше 16kHz можно  считать  обоснованным 
на низких битрейтах, когда оно позволяет намного  лучше  закодировать  более 
низкие диапазоны, но нельзя не брать в расчет, когда речь заходит о  высоких 
битрейтах, приближающих качество сигнала к уровню CD Audio.  Да,  кстати,  у 
детей частотный порог слышимости куда выше 16kHz. 
Немного о програмах 
    Новых пользователей в заблуждение  вводит  повсеместная  реклама  очень 
продаваемых, но в то же время очень по сравнению  с  другими  посредственных 
кодеров от XingTech. По поводу их недостатков я еще пройдусь ниже. 
    На втором месте по объему рекламы мы видим кодеры от самого  уважаемого 
производителя, FhG IIS, но они тоже обладают определенными  недостатками,  к 
тому же дороги, поэтому дешевые и быстрые  кодеры  от  XingTech  сегодня  на 
вершине популярности. 
    Но недостатки  кодеров  от  FhG  IIS  в  основном  связаны  со  слабыми 
возможностями настройки  и  концентрацией  усилий  разработчиков  на  низких 
битрейтах. Если FhG IIS будет с того  коммерческая  выгода,  то  специалисты 
быстро все поправят. 
    О третьей группе кодеров, основанных  на  свободно  доступном  исходном 
коде написанного в иллюстративных целях кодера от ISO, также  будет  сказано 
ниже. 
    Из плееров же, как не составляет труда заметить, наиболее  популярен  и 
раскручен плеер Winamp. Еще недавно он не блистал высоким  качеством  звука, 
да и сейчас снова не блещет, но недавно на протяжении  нескольких  версий  в 
нем использовался декодер  от  FhG  IIS,  и  при  условии  его  установки  ( 
например, из версии 2.22 ) вопрос с выбором плеера практически отпадает. 
    Кроме того, есть и другие хорошие плееры, могущие поспорить  в  Winamp, 
некоторые из них упомянуты во второй части обзора. 
    Кроме плееров и кодеров, к  программам,  связанным  с  MP3,  относят  и 
грабберы -- копировщики треков с CD в WAV-файлы. 
Немного о некоторых битрейтах 
    Чем  выше  битрейт,  тем  выше  оказывается  качество   закодированного 
сигнала. Но каждый битрейт имеет свою сферу применения. 
    Профессионалы,  аудиофилы,  а  также  все,  кто  заботится  о  создании 
качественной  копии,  вполне   соответствующей   про   качеству   оригиналу, 
применяют   только   высокие   битрейты.   С   другой   стороны,    наиболее 
многочисленная  часть  любителей   MP3   применяет   его   для   кодирования 
"популярной"   музыки,   главное   отличительное   свойство    которой    -- 
недолговечность, способность быстро устаревать и  становиться  неинтересной, 
поэтому такие MP3 и хранятся недолго, и требования  к  их  качеству  гораздо 
более низкие, что приводит к использованию низких битрейтов. 
    В Интернет, как правило, можно найти только MP3, закодированные 
с битрейтом 128kbs (и/или  кодерами  от  XingTech,  о  которых  ниже).  Этот 
битрейт, являясь "любимым" битрейтом FhG IIS, был признан также  оптимальным 
для использования в Интернет. В принципе, на  эту  роль  больше  подошел  бы 
битрейт  112kbs  по  разным  соображениям,  но  он  оказался   маловат   для 
достаточно качественного кодирования,  и  дополнительно  закрепился  битрейт 
128kbs, несколько превышающий по  качеству  112kbs,  и  который  позже  стал 
основным в Интернет. 
    Если отвлечься ненадолго от кодирования собственно CD Audio,  то  можно 
заметить, что поток величиной порядка 112kbs довольно удобен, например,  для 
прямых  трансляций  на  большие  расстояния.  В  этом  случае   MP3   хорошо 
окупается, по сравнению с передачей того же сигнала  другими  способами.  На 
странице  FhG  IIS  можно  почитать  более  подробно  об  этом.  Также   MP3 
используется на цифровых радиостанциях, но  там  требования  к  качеству  на 
полпорядка выше. 
    Вернемся к кодированию CD Audio. 
    Выбирать  основной  для  себя  битрейт  вам  самим,  в  зависимости  от 
потребностей. Я сам, когда  начинал  разбираться  с  MP3,  изначально  искал 
именно и только полноценную замену CD Audio, с меньшим  объемом,  но  с  как 
минимум не меньшим качеством, и такую возможность MP3 в общем-то дает. 
    Дело в том, что в уже упоминавшихся тестах с участием  профессиональных 
прослушивателей, в которых для всех использованных  тестовых  композиций  не 
было найдено различий в звучании MP3 256kbs и оригинала, было на самом  деле 
использовано  весьма  ограниченное  число   композиций.   На   практике   же 
существует довольно много композиций, где приходится переходить  на  320kbs, 
и в то же время я не слышал  ни  об  одной,  где  результат  кодирования  на 
320kbs оказался бы недостаточно хорош. Отличия,  конечно,  все  же  остаются 
обнаружимы при использовании исключительной аппаратуры, но в целом  качество 
практически то же. 
    В общем же из результатов  всех  известных  мне  тестов  можно  сделать 
следующие выводы. Во-первых,  битрейт  256kbs  для  абсолютного  большинства 
пользователей совершенно достаточен. 
    И,  наконец,  немного  о  собственно  MP3  128kbs,  пользующемся  такой 
популярностью. В свое время он был широко разрекламирован FhG  IIS,  но  при 
его использовании мы  имеем  скорее  качество  аудиокассеты,  записанной  на 
подозрительного происхождения магнитофоне, хотя и  с  очень  низким  уровнем 
шумов. Романтически настроенные разработчики даже почти  официально  назвали 
это  'CD-качеством',  что  очень  далеко  от  истины.  Впрочем,  это  давняя 
традиция -- ADPCM  тоже  в  свое  время  называли  форматом,  дающим  только 
неслышимые искажения. 
    На самом деле различие между качеством  звука  на  битрейтах  128kbs  и 
256kbs... 320kbs  принципиально,  так  как  первый  к  качеству  уровня  CD, 
собственно, никакого отношения  не  имеет,  в  отличие  от  двух  последних. 
Разумеется,  для   тех,   кому   качество   средней   аудиокассеты   кажется 
великолепным, данная оценка неверна, также  она  не  столь  категорична  для 
случаев, когда внимание сильно отвлечено. Но в целом, думаю, все ясно. 
VBR & XingTech 
    XingTech -- фирма,  производящая  наиболее  скоростные  MP3  кодеры.  К 
сожалению, ее кодеры  всегда  славились  и  продолжают  славиться  невысоким 
качеством. 
    В районе конца 98  --  начала  99  года  XingTech  первая  использовала 
технологию переменного битрейта, VBR. Если  в  случае  постоянного  битрейта 
кодер выбирает наиболее значащие частотные составляющие фрейма,  убирающиеся 
в выделенный битрейт, то  в  случае  VBR  задается  максимальный  допустимый 
уровень потерь, а кодер выбирает еще и минимальный битрейт, достаточный  для 
выполнения поставленной задачи.  Стоящие  рядом  в  конечном  потоке  фреймы 
Страницы: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14 
	
	
					
							 |