Изба-читальня Фотографии О себе Свадьба Гостевая English

Мяу....

Присланный m.wav:

Сначала, что мы видим в заголовке файла:

- оцифрован с использованием одного канала (моно).

- 8 бит на канал - т. е. 256 значений сигнала, соответственно соотношение между минимальным регистрируемым и максимальным воспроизведенным сигналом соответствует 1/256 -> 0.00390625. Иначе говоря, динамический диапазон: ln (1/256) / ln (10) * 20 = ~ 48.2 дБ. (аналогичное значение этого параметра имеют магнитофоны 3-4 класса (хотя это очень зависит и от используемых кассет), телевизоры, etc.). Магнитофоны 1-0 класса - ~50..60 дБ. Теоретический предел для компакт-проигрывателей (не путать с пошлыми cd-rom'ми для компов с кнопкой Play !!!) - ~ 96.3 (по стандарту он должен быть больше 90 дБ).

- 22050 выборок в секунду, т. е. по теореме Котельникова максимальная представимая таким образом частота будет = 11025 Гц. В отличие от динамического диапазона этот параметр будет существенно зависеть и от особенностей аналоговой части карточки и от микрофона (особенно !) - т. е. от параметров, тщательно скрываемых производителем ;) ( не дай Бог кто узнает >8=E !    :) ) Кроме того, для упрощения реализации в различных планах, реальный диапазон будет начинаться не от 0 Гц, а где-то от 100 - более низкие частоты будут срезаны (чем ниже - тем больше) (В целом, эти частотные характеристики соответствуют большинству ширпотребовской аудиотехники. Более качественные модели: магнитофоны 2 класса (кассетные) - ~60..12500, 1 класс - ~50..14000, 0 класс - ~40..16000 (Hi-Fi). Для катушечных эти параметры сдвинуты на единицу - т. е. катушечник 2го класса должен соответствовать кассетнику 1го и т.д. Катушечник 0 класса - ~25..19000 - истинный Hi-End :) ). Компакт-проигрыватель: минимальные требования 20..20000 - больше ухи не должны слышать :), реально берется чуть больше - на всякий случай.

- Длина собственно данных (т. е. фактическое количество выборок) - 46784. Если учесть, что число выборок в секунду 22050 -> время между совпадающими фазами выборки - 1/22050 = 4.5351E-5 с, можно оценить, что полное время записи: 4.5351E-5 * 46784 = 2.1217 с.

Теперь характеристика в целом (я бы мог показать это все на картинках, но жалко канал):

- В начале файла идет значительный пустой кусок - его можно было откусить стандартными средствами типа Фонограф (входит в дистриб виндовоза еще с 3.1 (а может и раньше ?) версии. Пустой кусок есть ~ 20 % объема > 9k   Кстати, в конце тоже есть небольшой пустой фрагмент. 

- В начале пустого фрагмента хорошо видны шумы системы - примерно 1/256, т. е. их уровень близок к динамическому диапазону (что для цифровых устройств обычно и есть требуемый rulez).

- Ноль уровня (значение выборок в отсутствие сигнала) соответствует не математическому центру (256 / 2 = 128), а несколько отклонен - 134, т. е. динамический диапазон для положительных и отрицательных полуволн
будет несколько различен (что в результате уменьшает общий ДД по уровню минимального ДД для полуволны) -> (255-134) * 2 = 244 уровня (теперь снова см. второй пункт от начала ;), если делать, конечно, нечего :) ). 

Теперь собственно о мяу, тебе и очень многом другом ( так уж получилось ;) ):

- Два графика.

схема 1

Верхний - небольшой (~5-10 %) фрагмент m.wav. Большая часть m.wav содержит такую же (по форме) последовательность колебаний, но  нет ни одной пары периодов, совершенно совпадающих по количественным оценкам - они вытягиваются вверх/вниз ("громкость"), слегка меняют форму (т. е. пички внутри каждого поднимаются и опускаются один относительно другого), но основные частоты (расстояния между крупными пичками по X (времени)) остаются вполне стабильными ( основные ноты удержаны ;) ).

схема 2

Второй график - спектрограмма. Рассчитана с использованием преобразования Фурье (не "быстрого"). Собственно математическое ядро - не мое - его делал мой знакомый, поэтому часть последующих комментариев его. Красные точки на пиках графика - собственно вычисленные значения, белые линии - :)))) - линейная интерполяция - т. е. просто соединяют соседние по X (частотам) точки. Что такое спектрограмма - в курсе ? Что любой сложный сигнал можно представить как сумму гармоник - синусоидальных колебаний различных частот, фаз и амплитуд ? На втором графике координаты каждой точки заданы двумя параметрами - по X - частота некоторой гармоники, Y - ее амплитуда. Если амплитуда отрицательна - значит фаза гармоники лежала в пределах pi/2..pi*3/2 (90 - 270 градусов), а не 0..90 & 270..360. Точное значение фазы не рассчитывается ( не знаю, что с ним потом можно сделать ;) ).

- Из умственного анализа входных выборок можно кое-что рассказать о том, чему соответствуют пики на спектрограмме. Первый всплеск вверх - не учитывается как слышимый - это гармоника единственный период которой - собственно весь файл. Следующий пик, направленный вниз - основная гармоника голоса (на тот момент на том звуке !). Численный анализ показал (надеюсь, верный), что она соответствует частоте ~ 210 Гц (естественно, по ходу процесса она "плывет" ;)) - все-таки 'мяу' содержит несколько нот), иначе говоря - соль диез малой октавы или первая от замка влево черная кнопка на пианино (у рояля, кажется, так же должно быть) (щас подошел к пианино... не, где-то ошибся я почти на ноту... Ну да ладно - ты, надеюсь, не заметила ;)) ). Два следующих пика вниз и + третий пик вверх - производные от основной гармоники. Они резко спадают по амплитуде (по сравнению с основной ), но кратны по частоте - если основная - 210 -> вторая - 420, третья - 630 и т. д.. Кстати, одинаковые ноты в соседних октавах отличаются по частоте достаточно точно в два раза. Вообще-то, гармоники образуются только в нелинейной среде (некоторые эффекты нелинейных сред - любимая тема моего шефа), причем эффект их образования, как и все в природе имеет и положительные стороны и отрицательные. В аудиоаппаратуре - это исключительно отрицательный эффект, проявляется в хрипах (кстати, если ручку громкости чего нибудь выкрутить на максимум и оно начнет хрипеть - это и есть - вход системы в нелинейный режим и как следствие - образование гармоник). В лазерной технике эффект широко используется для получения 'редких' частот излучения. Например, мы имеем банальный   гелий-неоновый лазер, основная красная линия которого есть 632.8 нм (нанометров (1e-9 м)), т. е. частота излучения 4.741E+14 Гц. А нам по пьяному делу захотелось посветить соседу в глаз именно невидимым ультрафиолетом, т. е., например, 316.4 нм. Тогда мы подбираем какой-нибудь материал, который уже при небольшом воздействии проявлят нелинейные эффекты в этих областях, запихиваем в него исходный сигнал, а на выходе получаем набор различных частот, в том числе и требуемый нам УФ. Сосед и не заметил (тоже нетрезвый был), как у него имело место отслоение сетчатки. Гармоники в твоем голосе дают некоторую 'наполненность' или 'законченность' (не знаю, как точно назвать) звучания. Вообще-то, именно их соотношения определяют основную для человечьего слуха разницу между мужским и женским голосом. Более подробно пока ничего не скажу (применительно к голосу), но, может, поговорю с людями - чего нибудь дополню потом. Куча остальных мелких всплесков дальше по оси (их на самом деле больше, чем видно на рисунке, просто они очень мелкие - в таком масштабе не видны) - в основном шумы, причем, в основном, карты (шумы микрофона на ее фоне ничтожны) (шумы голоса (в т. ч. образованные не только голосовыми связками) малы по сравнению с шумом карты, в оцифровке я их не заметил), хотя могут также встречатся и 'неважные' (маскируемые основными тонами) компоненты голоса.

Ну, что знал - рассказал (с) "Особенности национальной охоты"

1999 © Владимир Раводин

А вот собственно и сам файл... m.wav... (45,7 кб)