Перейти к содержанию
  • записи
    34
  • комментариев
    529
  • просмотра
    50903

Как работает цифровой звук или почему аудиофилия это бред, часть первая


Daniel5555

11425 просмотров

В этой записи я бы хотел поговорить о цифровом звуке и попутно разоблачить такой популярный вид фричества как аудиофилия. К сожалению, в последнее время я все чаще вижу проявления этого фричества, которое проникает в умы даже вполне разумных людей и заставляет их тратить деньги на технологические аналоги гомеопатических таблеток. Говорю «к сожалению», потому что все то, что я напишу в этой статье, должны, в принципе, знать все люди, окончившие школу. Но по каким-то непонятным мне причинам они то ли забывают, то ли не хотят применять когда-то полученные ими знания на практике. Вера в аудифилию в данный момент даже проникла и широко распространилась среди инженеров, хотя вот уж кто, а они бы должны разбираться досконально в подобных вещах.

Изначально я хотел написать эту статью в более агрессивном стиле. Но в итоге я решил, что лучше я обойдусь без ругательств и провокаций. Напротив, я очень надеюсь, что эту статью прочитают как раз таки именно аудиофилы и задумаются над тем, во что они верят и достаточно ли у них оснований для их веры. Поэтому я обойдусь без провокаций и сосредоточусь только и исключительно на фактах.

Для начала я бы хотел предоставить краткое содержание этой статьи, чтобы у вас уже возникла идея о чем идет речь:

1. Основы: как воспроизводится звук на компьютере и любом другом электронном устройстве

2. Что такое звук

3. Что такое децибелы

4. Разрядность – есть ли разница между 16 и 24 битами

5. Частота – есть ли смысл идти дальше 22 килогерц?

6. ЦАПы и усилители

7. Форматы файлов

8. Нейрология: музыка как продукт воображения

9. Что реально влияет на качество звука

И самое главное я хочу сказать именно сейчас: доводы аудиофилов не являются доводами связанными с какими-то инженерными, техническими аспектами. Доводы аудифилов противоречат науке, конкретно физике и математике. Инженерным и техническим аспектам они тоже противоречат и аудиофилы не знают, как работает их аудиосистемы, но это маленькая проблема по сравнению с тем, как они противоречат физическим или математическим законам, что показывает полное незнание основ. Именно на научных аспектах я и сосредоточусь вместо того, чтобы объяснять, какие бывают разные виды ЦАПов и прочие детали, которые не имеют принципиального значения.

1. Основы: как воспроизводится звук на компьютере и любом другом электронном устройстве

Для начала, на цифровом носителе, например жестком диске, находится аудио файл. Этот аудио файл имеет определенный внутренний формат, но все они представляют собой набор нулей и единиц (0110010101...), то есть любой файл можно представить как очень большое число. Это число можно перевести без каких-либо проблем в привычную десятичную систему исчисления (189208...).

Прямое последствие этого заключается в том, что копии одного и того же файла все абсолютно одинаковые. Неважно на каком носителе они находятся или как именно их передали или создали – если копии корректные, то они точно такие же. Разница в воспроизведении одного и того же файла может быть только за счет какого-либо другого элемента в этой цепочке воспроизведения.

А цепочка эта такая:

Файл -> программа аудио-плеер -> цифро-аналоговый преобразователь (ЦАП) -> усилитель -> колонки или наушники.

Работает это так:

Вначале программа-плеер загружает в память (либо получает извне) аудио-файл.

Затем программа декодирует его, если это требуется, в несжатый цифровой поток, который и представляет собой цифровой звук. Этот несжатый цифровой звук мы будем просто называть .WAV и мы будем считать, что это формат, в котором музыка распространяется на обычных аудио дисках (двухканальное стерео с разрядностью 16 бит и частотой 44,1 килогерц на канал).

После этого этот звук поступает в цифро-аналоговый преобразователь, который берет каждое число и преобразует его в аналоговое значение, которое ему соответствует, чаще всего это напряжение, измеряемое в вольтах (от некоего минимального значения, которое соответствует цифровому числу 0 и до максимального, которое соответствует числу 65,536 – это максимальное число, которое можно записать в 16 битах).

После этого звук уже в виде электрического тока поступает в усилитель, задача которого это поднять напряжение до значения, которое подходит колонкам. Усилитель должен усиливать сигнал линейно, то есть каждое значение, которое поступает к нему на входе, должно быть увеличено в одинаковой пропорции на выходе.

В колонках электрический ток превращается в физические колебания, которые передаются воздуху и так получается звук, который мы слышим.

Эта цепочка, которую мы будем называть отныне звуковым трактом, присутствует в том или ином виде в любой цифровой аудио системе. Сами элементы могут выглядеть очень по-разному в разных системах (MP3-плееры, смартфоны, компьютеры и так далее), но они обязательно присутствуют. Если говорить о компьютере, то ЦАП и усилитель находятся в звуковой карте (которая часто встроена в материнскую плату). Колонки часто имеют свой собственный встроенный усилитель, а некоторые из них могут иметь и свой ЦАП (и подключение к ним происходит в обход звуковой карты). У аудиофилов бывает так, что каждый компонент представляет собой отдельное устройство. Заранее хочу сказать, что никакого смысла в этом нет.

Бывают и сверхинтегрированные системы, которые в одном маленьком чипе включают в себя почти весь звуковой тракт. Например, VS1063 от финской компании VLSI, который позиционируется как аппаратный ускоритель для небольших систем, таких как MP3-плееры, включает в себя аппаратный аудио-плеер для большинства популярных форматов, ЦАП и усилитель. При этом он стоит всего лишь 4.80 евро.

2zhr5e8.jpg

2. Что такое звук

Если говорить о звуке, то по сути дела это волна, которая передается посредством некой физической среды, в нашем случае это воздух. Эта волну практически невозможно представить визуально, поскольку она трехмерная и распространяется во всех направлениях с достаточно сложной геометрией. Чтобы показать волну графически обычно рисуют синусоиду. Тут важно понять то, что синусоида это НЕ волна, это всего лишь синусоида. Она показывает состояние волны в некой точке в пространстве в определенный момент времени и не более того. Мы видим лишь одну часть волны, которая прошла через эту точку в определенное время. Впрочем этого уже более чем достаточно для того, чтобы зафиксировать свойства волны, такие как ее частоту.

24nnoeb.jpg

Само значение, которое отображается на синусоиде, в физическом смысле является давлением, которое оказывает звуковая волна на микрофон или уши человека. Это давление измеряется в микропаскалях и тут очень важно понять, что любой звук и, тем более, музыка, являются колебанием волны с определенной частотой (в случае музыки, с меняющейся частотой), но никак не отдельным значением давления взятым в определенный момент. Просто давление воздуха не является каким-либо звуком и не несет никакой звуковой информации для мозга человека. Вот когда давление колеблется от одного значения к другому, скажем с частотой 15 килогерц, это создает высокий, «писклявый» звук. Конкретное значение давления во время таких колебаний определяет громкость – чем выше давление, тем выше громкость. Когда давление становится слишком высоким, оно наносит повреждения органам слуха или звукозаписывающей аппаратуре.

Таким образом, повторюсь, значение давления в определенный момент времени не несет вообще никакой информации относительно звука и если нет колебаний, то любое значение соответствует тишине.

3. Что такое децибелы

После того, как мы разобрались в физической природе звука (я надеюсь), настала пора поговорить о такой мистической вещи, как децибелы. Децибелы это «всего лишь» единица измерения чего-либо, такая же как мегабайт и другие, если говорить упрощенно.

Проблема для многих людей заключается в том, что децибелы являются непостоянной единицей измерения, а единицей у которой каждая ступень растет экспоненциально по сравнению с предыдущей. То есть, предположим что у нас имеется 1 децибел чего-либо. Затем у нас стало 2 децибела. Если разложить эти два децибела и представить их в виде линейки, которая отмеряет сантиметры, то окажется, что первый децибел на ней занимает всего один сантиметр, тогда как второй занимает целых два сантиметра и, таким образом, суммарное значение будет 3 сантиметра. Это происходит потому что значение второго децибела возросло экспоненциально по сравнению с первым. Если добавить третий децибел, то он уже займет 4 сантиметра на этой линейке и суммарное значение составит 7 сантиметров. (Это всего лишь пример, чтобы показать экспоненциальный рост, на самом деле децибелы не переводятся в другие единицы именно так).

Если вы далеки от инженерных наук, то, возможно, у вас возникнет вопрос, зачем нужна такая единица измерения. Ответ на этот вопрос выходит за рамки этой записи и, если кому интересно, я предлагаю ознакомиться с этим видео:

Я же продолжу говоришь о звуке. В нашем случае мы можем использовать децибелы в значении громкости и никаком более. То есть 0 децибел у нас будут соответствовать абсолютной тишине (вакууму) тогда как, скажем, 140 децибел буквально убивают – настолько это громкий звук. Главное помнить, что несмотря на то, что мы измеряем в децибелах громкость, это единица по прежнему растет экспоненциально. Звук громкостью в 140 децибел не в 140 раз громче звука в 1 децибел, а в миллионы раз (в 8 912 655 раз, если быть точным).

Так же у некоторых может возникнуть вопрос, что такое отрицательные децибелы, вроде -40 децибел и так далее. Так вот – это тоже самое, просто во многих аудио приборах инженеры берут некое значение, скажем 80 децибел, за «стандартное» значение громкости и от него уже отмеряют вниз меньшую громкость и вверх большую. Само стандартное значение при этом является 0 децибел в локальной системе этого прибора. В некоторых случаях 0 децибел это вообще максимальная громкость и звук отмеряется исключительно вниз в такой аппаратуре.

Мы не будем использовать эти отрицательные децибелы и для нас абсолютной тишиной всегда будет 0 децибел.

4. Разрядность

Теперь, уточнив или вспомнив все основы основ, пора переходить к тому, как записан цифровой звук. Звук записывает микрофон – прибор, который улавливает колебания звуковой волны и превращает ее в электрический ток, напряжение которого колеблется пропорционально колебаниям звуковой волны, так что их синусоида получается одинаковой. Безусловно, у каждого микрофона существует погрешность и синусоида колебаний напряжений не соответствует полностью синусоиде оригинальной звуковой волны, но это не имеет никакого отношения к тому цифровой звук или нет. Микрофон будет там так или иначе.

Напряжение этого тока поступает в аналого-цифровой преобразователь (АЦП), который превращает его в цифровое число. Обычно разрешение этого числа номинально является 24 бита, хотя ни один реально существующий АЦП не обладает такой точностью (более того, не один микрофон не обладает такой чувствительностью). Причина по которой используют такое или даже большее число бит заключается в необходимости калибровки аудио оборудования, но реальной ценностью из них обладают только эти 16 бит, которые и появятся на цифровых дисках. Почему? – задаете вы логичный вопрос. И сейчас вы получите на него ответ.

Как мы уже выяснили ранее, то что записывает микрофон это количество децибел в данный конкретный момент времени. Децибелы же, в свою очередь, можно перевести в такую единицу измерения, как микропаскали, поскольку физически то, что записывается, это давление.

Звук же, в свою очередь, это не давление, а колебания давления, то есть синусоида, которая соответствует звуковой волне. Таким образом, чтобы записать любой звук, или музыку, нам необходимо всего лишь иметь возможность записать самый тихий звук, который встречается в мелодии и самый громкий звук. Самый тихий звук, очевидно, это звук, который соответствует абсолютной тишине, то есть 0 децибел (на практике это не так, как станет ясно в дальнейшем). А какой звук самый громкий? То есть, какого максимального давления достигает звуковая волна в самом громком звуке, который существует в музыке?

Это число, к счастью, примерно известно. Это 104 децибела – давление, которое способен выдать на максимуме полный симфонический оркестр (и следовательно, звук такой громкости может быть включен в какое-нибудь музыкальное произведение, хотя маловероятно, что такое существует). Добавим еще 1 децибел к этому, чтобы уж наверняка, и получаем 105 децибел в итоге (не забывайте, что значение децибел растет экспоненциально).

И тут мы сталкиваемся с важной деталью – дело в том, что 0 децибел, это давление в вакууме, то есть отсутствие давления. В реальной жизни воздух всегда оказывает какое-то минимальное давление на органы слуха и микрофоны. Это давление так же сопровождается тем, что называют амбиентным шумом. Даже когда вы сидите в библиотеке, то всегда вы слышите какие-то звуки, которые производятся из-за колебаний давления воздуха (которые создают люди, которые читают книги, дышат, ходят и так далее). Шум библиотеки или вашей квартиры ночью соответствует примерно 35 децибелам. В лучших музыкальных студиях (далеко не всех) это число удается свести к 15 децибелам (в сотни раз ниже). Ниже свести это число невозможно физически, сам микрофон создает электронный шум, который примерно соответствует этим 15 децибелам.

Таким образом то давление, которые было измерено в случае оркестра на самом деле ему не соответствует полностью, а соответствует самому оркестру плюс амбиентному шуму. Чтобы этот амбиентный шум не засорял звукозапись на студиях всегда калибруют аудио-оборудование прежде чем производить запись. Его просто включают и измеряют тишину. Когда эта тишина измерена, а в лучшем случае она равна 15 децибелам, а в наиболее частом 25 и более, то это число просто принимают за абсолютную тишину и в дальнейшем его вычитают из записи.

Никакой потери информации здесь нет, потому что давление в один конкретный промежуток времени представляет собой какое-то число. Соответственно, если реальное давление во время записи какой-то музыки равно 105 децибелам (и какому-то числу микропаскалей, которое соответствует этому значению) и мы знаем, что в тишине микрофон выдает 15 децибел (звук всегда колеблется так как воздух это нетвердое тело, то всегда можно сказать, что существует некая звуковая волна с максимальным давлением в 15 децибел), мы можем смело отнять это значение и записать что давление составляло в тот момент времени 90 децибел.

В свою очередь, когда этот звук будет воспроизведен, то на эти 90 децибел наложится электронный шум колонок и других электронных компонентов, а так же амбиентный шум у слушателя. Все это не должно как-либо влиять на качество звука, потому что, как мы уже выяснили раньше, звук это волна и конкретное значение давления всего лишь определяет громкость звука. Если форма воспроизведенной волны такая же, как форма записанной волны, то звук воспроизводится с идеальной точностью независимо от наложенного шума. Проблема заключается лишь в том, что в реальном оборудовании шум неравномерный и изменяет форму волны.

Сколько бит требуется, чтобы записать это максимальное давление воздуха, которое мы уже обозначили как давление в 90 децибел? На аудио дисках используется разрядность в 16 бит и это можно перевести в децибелы по следующей формуле: (число бит * 6.0206) + 1.761 децибел. Я не буду вдаваться в подробности того, как получена эта формула, но это в целом чистая математика и вопрос заключается в том, достаточно ли нам 16 бит для записи любой музыки. Погрешности оборудования в нее не включены, но они и не должны быть, поскольку речь сейчас идет исключительно о разрядности.

Таким образом, мы выясняем, что в 16 битах можно записать 98.09 децибел. Если вы помните, что децибелы являются экспоненциальной единицей измерения, это более чем в два раза больше, чем необходимо для того, чтобы записать самый громкий звук, который способен выдать полный симфонический оркестр. Это никак не связано с техническими особенностями ЦАПов, АЦП и прочего оборудования – чистая математика, которая прекрасно соответствует жизни. Все это хороший пример того, как наука помогает инженерии и объясняет нашу жизнь.

Во время того, когда происходило создание стандарта аудио CD, инженеры Philips хотели, чтобы звук записывался с разрешением 14 бит вместо 16. Sony настаивали на 16 битах и были очень долгие споры по поводу. 14 бит дает нам около 86 децибел, так что этого было бы все еще более чем достаточно для всей настоящей музыки. И действительно, разницы в качестве тогда инженеры не слышали. По техническим причинам было выбрано 16 бит, благодаря чему мы можем считать, что в практическом плане мы записываем музыку с бесконечным разрешением.

Это значение – 98.09 децибел, называется динамическим диапазоном. Оно означает по сути, разницу между минимальным давлением звуковой волны и максимальным на протяжении всей записанной музыки. Такой музыки в реальности не существует. Более того, в современных записях музыки, что популярного рока или метала, что попсы, динамический диапазон крайне низкий. Я был бы не удивлен, если бы подавляющее большинство музыки, которую слушают на этом форуме, можно было бы записать с разрешением в 8 бит без потери качества. Помните, что речь идет всего лишь о максимальном давлении, которое само по себе не является никакой музыкой или даже звуком. Звук это колебание волны, а динамический диапазон задает максимальный перепад давления в этом колебании.

С широким динамическим диапазоном до сих пор записывают только классическую музыку, да ряд артистов, которые все еще считают, что если слушатели не слишком хорошо слышат мелодию, то они сами способны поднять уровень громкости.

Разрешение не имеет никакого отношения к качеству записываемого звука. Оно всего лишь задает диапазон который можно записать, причем нижнюю границу диапазона задает чувствительность микрофона или его настройки. Часто аудиофилы проводят аналогию с числом цветов, которые можно отобразить, и разрешением звука. Эта аналогия, если вы поняли все написанное выше, совершенно безумная.

Разрядность не влияет на количество звуков, которые можно записать, потому что конкретный звук задает волна и ее частота. Разрядность влияет всего лишь на громкость звука, который можно записать. В данный момент максимально громкий звук, который можно записать в 16 бит, это звук, который имеет максимальное давление 98.09 децибел + 15 децибел (амбиентого шума) = 113.09 децибел. Но кому это нужно? Не существует музыки, которая использует звуки от которых в буквальном смысле глохнешь.

Разрядность так же не имеет никакого отношения к чувствительности микрофонов и другого оборудования. Разрядность позволяет записать любое значение давления измеряемое в децибелах согласно формуле выше. Конкретное значение повышается линейно с каждым битом и экспоненциально в том, как это воспринимается психологически. Замечу, что это очень нетривиально для осознания, так как большая часть коммерческих плееров повышают громкость линейно, а не экспоненциально. Их софт специально производит эту конверсию для удобства слушателя.

Реальная чувствительность к давлению напрямую зависит от микрофона и еще нет ни одного такого из них, который бы соответствовал по своей чувствительности 16-битной разрядности. Впрочем этого более чем достаточно для человеческих ушей.

Может возникнуть вопрос, а как тогда регулируется громкость? Если речь идет о программном повышении громкости, то к каждому 16-битному числу означающему давление банально добавляется какое-то число, если громкость хочется повысить. Если хочется ее понизить, то число соответственно отнимается. Как я уже говорил, музыка получается от колебаний волны, а все эти значения давлений сами по себе никакой роли не играют. Если повысить громкость слишком сильно, то в какой-то момент ЦАП, усилитель или колонки не смогут выдать такое значение и волну банально срежет, что очень сильно отразится на качестве звука. То же самое произойдет, но более спокойно, если звук уменьшить – при вычитании определенного числа самые тихие звуки уйдут в ноль и останутся только самые громкие.

Если громкость регулируется колонками, то повышение/понижение громкости осуществляется на уровне усилителя и там регулируется напряжение тока, а не цифровое число.

5. Частота

Покончив с разрядностью, пора переходить к частоте. Именно частота задает всю гамму звуков, которую можно записать, тогда как разрядность только влияет на громкость и динамический диапазон. Частота определяет, сколько этих 16-битных чисел, о которых мы говорили выше, можно записать в одной секунде аудиозаписи (на один канал).

Здесь все относительно просто. Люди слышат звуки в диапазоне от 20 герц до 20 килогерц (20000 герц). 1 герц означает, что волна выполняет одно колебание от максимума к минимуму в течении секунды, 20 герц – 20 колебаний.

Звук с частотой менее 20 герц является инфразвуком и он опасен для здоровья. Звук выше 20 килогерц люди не слышат, эти волны слишком быстрые, чтобы уши успели их зафиксировать. Конечно, многие люди воображают себе, что уж они-то слышат все частоты идеально и даже выше 20 килогерц, но на самом деле большая часть из людей, которые читают этот текст вряд ли слышат звуки с частотой более 17-19 килогерц, особенно если вы злоупотребляете MP3-плеерами.

Музыка же и вовсе расположена в среднем диапазоне, где-то от 25 герц до 10 килогерц. В формате .WAV, который используется в аудио дисках, звук записывается с частотой вплоть до 22,05 килогерц на канал. Это связано с тем, что записывающее оборудование не обладает идеальной чувствительностью и оно снижается по мере приближения к верхней границе диапазона. Поэтому этой верхней границей взято число в 22,05 килогерца, чтобы вплоть до 20 килогерц чувствительность была максимальной.

Типичный бред, который распространяют аудиофилы в связи с частотой заключается в том, что они утверждают, что чем выше частота, тем более точную синусоиду можно построить. Чем точнее синусоида – тем лучше звук, поэтому лучше всего слушать музыку с частотой аж 192 килогерца. Имеет ли это смысл?

Честно говоря, здесь мы имеем дело с банальным незнанием математики. Дело в том, что если мы знаем максимальную частоту волны, то мы можем идеально воспроизвести ее форму используя теорему Найквиста-Шеннона, так же известную как теорема Котельникова, которая гласит, что частота проверки на конкретное значение должна быть в два раза больше максимальной частоты волны. То есть для 20 килогерц мы можем использовать частоту проверки (сэмплинга) в 40 килогерц и мы сможем на основе этого воспроизвести идеальную форму волны.

Доказательство этой теоремы вы можете найти сами, если вам необходимо. Я лишь скажу что она доказана, и что она сама по себе не имеет никакого отношения к звуку или каким-то техническим аспектам звукозаписи. Это просто фундаментальный закон вселенной.

Аудиофилы почему-то этого не воспринимают. В их понимании звуковая волна в кратчайший промежуток времени между сэмплингами умудряется сделать какие-то непонятные завихрения вперед-назад или вверх-вниз и поэтому ее нужно постоянно ловить, чтобы не потерять какую-то информацию. На самом деле волны чисто физически на такое не способны.

Так как в реальных аудио записях используется частота в 22,05 килогерца в .WAV файлах используется фактическая частота сэмплинга в 44,1 килогерца на канал. Это сделано так, чтобы слушатель на своем оборудовании мог совершенно точно построить именно такую волну, какая была получена во время записи. Это никак не связано с ошибками сэмплинга, это необходимо для воссоздания синусоиды и только для этого.

Может вознкнуть вопрос, что же делать, если АЦП во время записи выдал ошибку и показал не то число, которое соответствует реальному значение давления в тот момент. Об этом и мы поговорим в следующем разделе.

6. АЦП, ЦАПы и усилители

В целом читая тематические форумы и сайты, у меня возникло впечатление, что АЦП и ЦАПы являются какими-то мистическими приборами для аудиофилов. На самом деле по сути это всего лишь цепочка резисторов подключенных в особом порядке. Как и в любом электроприборе, в АЦП и ЦАПах напряжение постоянно танцует туда-сюда, спасибо квантовой механике и с этим процессом невозможно что-либо сделать. Главный вопрос заключается лишь в том, имеют ли эти погрешности в измерении какой-либо смысл.

Как мы помним, значение, которое выдает АЦП, является давлением. В свою очередь чувствительность человека к давлению это сложный вопрос, особенно учитывая, что оно меняется в зависимости от условий. Но в целом достаточно очевидно, что люди не обладают чувствительностью для того, чтобы отличить все из 65,536 возможных ступеней в динамическом диапазоне. Если говорить о чувствительности в децибелах, то разницу в 0.2 децибела люди сознательно не чувствуют, но подсознательно воспринимают. Разница в 0.1 децибел считается неразличимой ни сознательно, ни подсознательно. Большая часть коммерческих устройств позволяют регулировать громкость с точностью не более 0.5 децибел (чаще всего они гораздо грубее). Конечно, следует учитывать где именно расположены два звука, которые мы сравниваем. В случае, если это 15 децибел и 15.5 децибел, скорее всего разницы никто не почувствует.

Если же говорить о более грубых ошибках, то традиционно существуют несколько простых техник для их преодоления. Первая это оверсэмплинг, когда вместо 1 значения берется, скажем, 8 и затем выдается среднее арифметическое. Другой способ это отбрасывание результатов, которые явно слишком большие или слишком маленькие на фоне других значений. Вместе эти два способа позволяют получить почти идеально точные значения для музыки. Разницу чаще всего видят приборы, но явно не люди.

В заключении еще раз напомню, что оверсэмплинг не имеет никакого отношения к теореме Найквиста, о которой мы говорили выше. Те 44,1 килогерц, о которых мы говорили выше, это значения, которые уже прошли оверсэмплинг.

Надо сказать и пару слов об усилителях. Если ЦАПы, кроме уж совсем хреновых, на качество звука в целом не влияют, то усилители оказывают воздействие, которое можно услышать. Чаще всего слышимые различия обусловлены разницей в технологии изготовления, вроде ламповых усилителей против электронных.

Качество усилителя определяется максимальным количеством искажений по отношению к идеальной синусоиде которая должна быть на выходе (ее можно рассчитать математически и сравнить с фактическим результатом). Считается, что процент искажений равный 0.07% или меньше является невозможным для того, чтобы их услышать. Естественно, имеются в виду наихудшие значения искажений по всему диапазону (если бы мы брали наилучшие и не принимали в расчет худшие, то это мало бы давало реальной информации о качестве).

Большая часть современных электронных усилителей имеют искажения значительно ниже по всему диапазону, чем это значение. Исключения составляют только уж совсем дешевые усилители в очень дешевой электронике, вроде китайских таблетов за 50 долларов.

В заключение необходимо сказать пару слов о так называемых однобитных ЦАПах, которые стоят на многих материнских платах. Они действительно однобитные и физический принцип по которому они работают достаточно сложно описать. Их суть заключается в том, чтобы преобразовать «один за другим» все 16 бит для одного значения, преобразовывая только один бит за раз, и после этого приступить к следующему. Их проблема заключается в том, что чаще всего они выдают менее точные значения, чем настоящие 16-битные ЦАПы. Тем не менее, их точности чаще всего более чем хватает и погрешности которые они вносят не слышны на фоне погрешностей колонок, разве что эти колонки очень высокого качества.

7. Форматы файлов

Все аудио файлы можно разделить на два типа: с потерями и без потерь. Первые являются наиболее популярной категорией, куда входят .mp3 и .aac. Их особенность заключается в том, что из этих файлов невозможно восстановить такую же синусоиду, какая была у оригинального и несжатого цифрового потока (.WAV). Эти файлы ориентированы на то, что человеческая чувствительность достаточно ограниченная и слушатели не заметят разницы.

Вторые файлы (.FLAC, .APE и сам .WAV) можно раскодировать в оригинальный цифровой поток (в случае .WAV этого делать, естественно, не требуется, его можно сразу отправить к ЦАПу). В этом плане они похожи на классические алгоритмы сжатия типа WinRAR и то, что они выдают на выходе на 100% соответствует оригинальному цифровому потоку.

Если говорить о качестве, то с точки зрения математики все очевидно – форматы с потерей информации однозначно хуже форматов без потерь. На практике все не совсем очевидно. В целом, люди плохо слышат разницу между MP3 с битрейтом 320 кбпс и оригинальным файлом, но ее услышать все-таки можно, особенно в некоторых сложных для алгоритма ситуациях. В случае AAC есть основания полагать, что с битрейтом 192 кбпс никто разницы не слышит вообще на любом оборудовании, что может значить, что на этом этапе достигнут предел человеческой чувствительности.

Тем не менее, чтобы быть абсолютно уверенным в хорошем качестве, можно рекомендовать использовать форматы без потерь по возможности. Но в общем случае особого выигрыша от этого нет и если используется MP3 с высоким битрейтом, AAC или OGG, то можно считать что качество находится на весьма высоком уровне.

8. Нейрология

Дочитав до этого момента (спасибо вам за это) у многих может возникнуть вопрос, а как вообще так получается, что люди начинают слышать более высокое качество с каким-нибудь 24-битным ЦАПом вместо обыкновенного 16-битного?

Ответ на этот вопрос, как и ответ на многие другие вопросы, лежит в области функционирования человеческого мозга. Можно легко осознать, что на самом деле музыка существует только в нашей голове и сознание ее получает уже в обработанном виде от подсознания. Подсознание в свою очередь оказывает невероятное влияние на то, как мы видим вещи (в буквальном смысле). И все, что проходит через органы чувств, проходит через подсознание в обязательном порядке.

Так вино за 10 долларов кажется нам вкуснее чем вино за 1 доллар, хотя на самом деле и там, и там налита одна и та же бодяга. Мы прекрасно понимаем, что цена не означает высокое качество, однако когда мы не задумываемся об этом мозг может очень легко достроить картинку так, как ему кажется лучше. И подсознание способно оперировать очень сложными конструкциями, гораздо более сложными чем цена продукта. Маркетологи об этом прекрасно знают. Один старый способ продать кота в мешке, например дорогостоящий ЦАП, это сравнить его звучание с обычной аудиосистемой, но в случае дорогостоящего ЦАПа еще и поднять громкость аудиозаписи на 0,2 децибела. Сознательно люди не чувствуют разницы, но подзнание ее улавливалиет. При этом давно известно, что людям больше нравится более громкая музыка. Вот так доростоящий ЦАП начинает звучать "лучше" обычного. По этим же причинам музыкальные продюссеры сейчас делают аудио диски громкими и с узким динамическим диапазоном.

Тоже самое происходит и с другими компонентами. Так люди считают, что звук улучшился от замены USB-кабля. Или считают что ламповый звук лучше электронного. На самом деле ламповые усилители действительно звучат не так как электронные, но это не значит что одно лучше или хуже другого. Но не задумываясь об этом, многие, распознав «теплый ламповый звук» сразу же предпочитают его любому другому, хотя его можно сэмулировать и на электронных компонентах с тем же самым успехом.

И мне, в принципе, все равно, но пусть они не засирают мозг другим людям этими мнениями. Лучше пусть они честно скажут, что им нравится звук такого типа и перестанут говорить, что он именно лучше.

Наиболее удивительная для меня вещь заключается в том, что среди аудиофилов даже есть люди, которые патологически ненавидят цифровой звук. Когда цифровой звук только появился, все от аудиоинженеров до музыкантов были восхищены его качеством. До его появления все аналоговые носители были шумными и изнашивались со временем. Любимую композицию невозможно было послушать без треска или шума на заднем фоне, типичным у виниловых пластинок того времени, которые прослушивались много раз.

Цифровой звук на аудио дисках воспринимался как что-то из другого мира – впервые музыку можно было услышать в идеальном качестве, без каких-либо сторонних шумов. И эта запись никогда не могла испортиться со временем и ее можно было передать другим людям через электронные средства связи без каких-либо потерь в качестве.

Но крайне низкий процент людей воспринял это новое, цифровое звучание, с нескрываемым ужасом. Цифровой звук настолько непривычно звучал для них, привыкших к аналоговым записям, что им казалось, что знакомые им мелодии потеряли глубину и привычную им атмосферу. Как некоторые люди верили долгое время назад, что фотографии забирают у людей душу, так и первые аудиофилы считали, что цифровая запись забирает душу у музыки.

Этот тренд продолжается по сей день, хотя мало у кого он наблюдается в настолько экстремальной форме. Но его основной смысл остается, душу музыке нужно вернуть. Она не умещается в 16 бит и 44,1 килогерца, нужно 24 бита и 192 килогерца. Некоторым еще и нужно применение ритуальных объектов, вроде позолоченных кабелей, или ЦАПов размером с сервер. Некоторые используют сверхточные часы (осцилляторы) стоимостью в несколько тысяч долларов, пользу в которых не смогли найти ни на одной профессиональной студии. Другие старательно определяют загрузку процессора во время воспроизведения музыки, считая что это влияет на качество (на самом деле единственное что нужно сделать процессору это успеть раскодировать поток музыки в несжатый формат и отравить его ЦАПу до того, как у того закончились данные для конвертирования и все современные процессоры справляются с этим без проблем). Список можно продолжать и продолжать, его бы хватило на цикл статей.

На всем этом, естественно, наживаются десятки, если не сотни, компаний, деятельность которых граничит с настоящим мошенничеством. От этого страдают и обычные люди, которые иногда тратят несколько тысяч долларов на совершенно бессмысленный для них ЦАП вместо того, чтобы купить на эти же деньги качественные колонки.

Главное что нужно понять из всего этого – душа музыки находится не в битах или какой-то частоте. Она находится только в двух местах – в мозгу слушателя и в мозгу артиста, который эту музыку создает. Ее оттуда можно убрать только когда люди сами ее изгоняют, становясь аудиофилами.

Если же говорить о физических, математических, технических аспектах – все это уже давно и успешно решено. Многие люди работали годами над этими проблемами, у многих из них ученые степени и они все отмеряли тысячи раз, прежде чем прийти к каким-то стандартам. С математической и физической точки зрения современный стандарт 16 бит/44,1 килогерца это идеал, выше которого подняться невозможно, потому что физически музыка не находится выше. Технически – да, есть более и менее качественное оборудование, с этим ничего не сделать, но в целом средний потребительский сегмент полон очень качественными продуктами, которые обладают качеством, о котором еще лет 30 назад нельзя было даже мечтать. Стандартный недешевый смартфон обладает музыкальным трактом, к которому сложно придраться, более дорогие решения делают сверхкачественный звук доступным массовому потребителю.

Статья не влезла целиком в блог, поэтому окончание опубликовано в следующей записи. Если будете писать комментарий, то для удобства будет лучше, если вы его напишите в комментарий к окончанию, а не к этой записи.

14 Комментариев


Рекомендуемые комментарии

Полностью согласен. Имея хорошую 5.1 систему у меня один друг удивляется и называет идиотом, что я не перешёл на 24 бита, мол нафига мне такая система? И как ему объяснить, что человеческое ухо, даже очень крутого музыканта, не может распознать эти самые 24 бита вместо стандартных 16 бит.

Я даже больше скажу, 44.1 килогерца не всегда нужно. Как и не нужна погоня за диапазоном 0 - 32к за которыми многие носятся. Хоть я и сам аудиофил, но за цифрами не гоняюсь. 

Ссылка на комментарий
Имея хорошую 5.1 систему у меня один друг удивляется и называет идиотом, что я не перешёл на 24 бита, мол нафига мне такая система? И как ему объяснить, что человеческое ухо, даже очень крутого музыканта, не может распознать эти самые 24 бита вместо стандартных 16 бит.

Ну, оно не просто не может распознать, там вообще нету разницы. Пока не записывается что-либо, чей диапазон не выходит за пределы тех самых 98 децибел, 24-бита не нужны для воспроизведения в принципе. Это как использовать линейку длиной в 30 сантиметров для измерения объектов с максимальной длиной 10 сантиметров и утверждать, что это лучше, чем линейка длиной 15 сантиметров. Точность линеек одинаковая, в случае звука это зависит от чувствительности микрофона, который не имеет отношения к разрядности и ее не достигает по своей чувствительности.

 

 

 

что в данном случае понимается под семплингом?

Конверция из аналогового значения в цифровое посредством АЦП.

 

Например у меня есть тактильный экран, резистивный, и для получения информации о нажатии используется два 12-битных АЦП. Когда происходит касание, АЦП производит сэмплинг и выдает какое-то число, которое сохраняется в памяти и драйвер уже может его использовать для определения положения касания на экране. Это число это сэмпл, процесс получения - сэмплинг.

 

В случае звука речь идет о получении одного числа, которое обозначает давление в данный конкретный момент. Таких чисел 44,1 тысяча на канал в секунду у .WAV.

Ссылка на комментарий

>> Говорю «к сожалению», потому что все то, что я напишу в этой статье, должны, в принципе, знать все люди, окончившие школу. Но по каким-то непонятным мне причинам они толи забывают, толи не хотят применять когда-то полученные ими знания на практике

Если речь о знаниях русского языка - "то ли" пишется раздельно, местоимение с частицей. Ваш дежурный граммар-наци happy.png

А статья хороша, да

Ссылка на комментарий

>> Говорю «к сожалению», потому что все то, что я напишу в этой статье, должны, в принципе, знать все люди, окончившие школу. Но по каким-то непонятным мне причинам они толи забывают, толи не хотят применять когда-то полученные ими знания на практике

Если речь о знаниях русского языка - "то ли" пишется раздельно, местоимение с частицей. Ваш дежурный граммар-наци happy.png

А статья хороша, да

 

Исправил, спасибо.

Ссылка на комментарий

Но слушай, ты ведь на самом деле не только для ЕнЕ наверняка её писал, да? Для собственного стороннего проекта, какой-то у тебя есть, по слухам - или тоже кустарной журналистикой промышляешь?

Ссылка на комментарий
Но слушай, ты ведь на самом деле не только для ЕнЕ наверняка её писал, да? Для собственного стороннего проекта, какой-то у тебя есть, по слухам - или тоже кустарной журналистикой промышляешь?

Конкретно эта статья - для ЕнЕ. Может быть потом я ее опубликую где-нибудь еще, возможно с доработками (в ней картинок очень мало сейчас, но у меня особо не было времени их искать или рисовать свои). Кстати, если есть желание, то ее распространение разрешается.

У меня нет сторонних проектов на русском, кроме ЕнЕ. Кустарной журналистикой я не промышляю :)

Ссылка на комментарий

Мб на инглише есть проект? Я вроде где-то читал на форуме, неужели спутал

 

Кстати, если есть желание, то ее распространение разрешается

Хм, заманчиво. Не то, чтобы у меня выходы прям есть по подобной тематике, но потыкаюсь, может где и заинтересует

Ссылка на комментарий
Мб на инглише есть проект? Я вроде где-то читал на форуме, неужели спутал

На этом форуме я как-то раз пропиарил мой блог про фигурное катание под названием Skating Passion на английском. Я перестал его вести, вроде бы, в начале лета 2013 года, потому что у меня нехватало времени на него из-за работы. Я банально не мог его обновлять в необходимом ритме и моя подруга, с которой я его вел, тоже оказалась перегружена на работе. До этого он обновлялся в среднем раз в два дня или даже каждый день и достиг относительно высокой посещаемости (до 300 человек в день), некоторые статьи были переведены с инглиша на другие языки отдельными фанатами.

 

 

 

Забавно, в урле название записи "как-работает-цифровой-звук-или-почему-аудиофил"

Да, я тоже заметил. Хорошо хоть не "как-работает-цифровой-звук-или-почему-я-аудиофил" :)

Ссылка на комментарий
На этом форуме я как-то раз пропиарил мой блог про фигурное катание под названием Skating Passion на английском

Точно. Вот не мог же я взять и придумать. Он.

Очень годная статистика, молодцом. То, что статьи переводили - это вообще блеск

Ссылка на комментарий

Ох уж мне эти теоретики...

 

Чтобы понять, что не всё так просто, представим себе синусоидальный сигнал с частотой, допустим, 14 кГц, оцифрованный с частотой дискретизации 44.1 кГц. На один период входной синусоиды приходится около трех точек (отсчетов), и восстановить исходную частоту в виде синусоиды при данных условиях НЕВОЗМОЖНО. Поэтому и придумывают всякие дополнительные фильтры.

 

С низкими частотами - всё просто. Там почти всё готово, но с высокими, которые являются гораздо боле важными с точки зрения эмоционального восприятия музыкального материала, не всё так легко.

 

На лицо неверное понимание теоремы Котельникова.

 

Это, конечно, не всё. Просто лень писать.

 

И к аудиофилии, которая вообще-то не об этом совсем, всё это не имеет никакого отношения. Аудиофилы вообще не вникают в цифровой звук. Им как раз - подавай звук аналоговый, тёплый и ламповый (где вообще ничего не оцифровывается, хотя, строго говоря, преобразования присутствуют, без них невозможно).

Ссылка на комментарий
Чтобы понять, что не всё так просто, представим себе синусоидальный сигнал с частотой, допустим, 14 кГц, оцифрованный с частотой дискретизации 44.1 кГц. На один период входной синусоиды приходится около трех точек (отсчетов), и восстановить исходную частоту в виде синусоиды при данных условиях НЕВОЗМОЖНО. Поэтому и придумывают всякие дополнительные фильтры.

Как я уже писал в статье, для идеального восстановления синусоиды достаточно частоты дискретизации в два раза большей + 1 (если быть точным), чем максимальная частота волны. То есть, для 14000 герц достаточно 28001 герц дискретизации.

 

Я не знаю что вы там представляете, но форму синусоиды задает очень малое число параметров, в основе только амплитуда и частота. Поэтому такой частоты дискретизации достаточно. Синусоида не может делать какие-то там странные завихрения - одной частоте и амплитуде соответствует только одна форма.

 

Лучше не представляйте, а попробуйте изобразить эту волну.

 

На лицо неверное понимание теоремы Котельникова.

Это у вас неверное понимание. Почитайте ту же Википедию или какой-нибудь более-менее серьезный источник.

 

Это, конечно, не всё. Просто лень писать.

Да, но писать вот эту хрень без всяких оснований было не лень.

 

И к аудиофилии, которая вообще-то не об этом совсем, всё это не имеет никакого отношения. Аудиофилы вообще не вникают в цифровой звук. Им как раз - подавай звук аналоговый, тёплый и ламповый (где вообще ничего не оцифровывается, хотя, строго говоря, преобразования присутствуют, без них невозможно).

Расскажите это продавцам элитных 64-битных ЦАПов.

Ссылка на комментарий
Гость
Добавить комментарий...

×   Вставлено с форматированием.   Вставить как обычный текст

  Разрешено использовать не более 75 смайлов.

×   Ваша ссылка была автоматически встроена.   Отображать как обычную ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставлять изображения напрямую. Загружайте или вставляйте изображения по ссылке.

×
×
  • Создать...