Вы здесь

Почему при использовании программных модулей (использующих HRTF) не всегда удается получить приемлемый бинауральный эффект?

На эту тему написано много отечественных и зарубежных публикаций. Попытаемся разобраться в этом вопросе на любительском уровне, так сказать, очертить границы не познанного :)

3D звук - это очень сложно! То, что мы сейчас наблюдаем в этой сфере, базируется на основе лишь нескольких фундаментальных открытий (механизмы слухового восприятия), и только это - уже работает! В аудио записях, с разной долей успешности, присутствует пространство. Огромное количество факторов влияют на восприятие звука. Впечатляет способность мозга обрабатывать неимоверное количество информации в соответствии с нужным контекстом, практически мгновенно. Программные модули используют некую упрощенную, и даже - очень, математическую модель реального объекта для придания звуку пространственных эффектов.

Пару слов про объект и факторы, которые могут влиять на восприятие звука:

  • Голова (объем и форма, строение костей и пазух), шея (длина,подвижность), торс и конечности (рост, например), положение в пространстве - на основе разных физических данных формируются индивидуальные двигательные стереотипы, тесно взаимосвязанные со слухом и различными реакциями организма (например, ориентировочная реакция сопровождается поворотом головы и т.д.).
  • Ушная раковина с ее уникальными особенностями (рельеф, конфигурация слухового канала), состояние барабанной перепонки и слуховых косточек с суставами, улитка (наличие действующих волосковых клеток на всем протяжении улитки).
  • Функциональное состояние организма в целом (гормональный фон и т.д.), род деятельности (профессия) и бытовые навыки, внешние условия жизнедеятельности (житель пустыни в засуху и крайнего севера во время полярной ночи, например, находятся в разных условиях и состояниях)
  • Нейрональные механизмы слухового восприятия - обусловленные наследственностью, условиями формирования мозга в онтогенезе и т.д.

Объектик не простой, что и сказать! При всем уважении к математикам...

При создании манекенов для бинауральной записи, разработчики очень тщательно подбирают материалы с необходимыми акустическими характеристиками. Фокусируются, в основном, на ушных раковинах и качестве встроенных микрофонов. Торс и череп отдаленно напоминают оригинал. Это аналоговый подход в бинауральной звукозаписи. Он, на настоящий момент, наиболее совершенен (имхо). Такие бинауральные микрофоны (микрофоны+манекен) стоят прилично. Результат, однако, не всегда предсказуем. Вполне понятно стремление специалистов, в первую очередь, получить предсказуемую, качественную моно/стерео запись для дальнейшего творческого сведения.

Второй подход - программный. Для стерео и монофонических аудио-файлов разработана эффективная процедура HRTF-свертки, которая применяется в различных directX и VST-модулях. Импульсные характеристики могут быть получены либо с помощью бинауральных микрофонов (KEMAR, например) в анэхоидных камерах или реальных помещениях, с другой стороны, рассчитаны математически для виртуальных объектов с заданными свойствами. Качество импульсных характеристик может сильно варьировать, а оценка всегда носит субъективный характер.

Как получить импульсные характеристики помещения (пространства) для свертки?

Вариантов не много: подобрать готовые, или записать самостоятельно. В последнем случае, необходимо получить два аудио-файла: исходный сигнал (короткий широкополосный или тональный; длинный  20Гц-20кГц) и его измененную копию, записанную с многократными отражениями (и не только) в условиях реального помещения. Извлечь нужную функцию (HRTF - Head-Related Transfer Functions) из двух файлов (исходного и видоизмененного) с помощью программы Voxengo Deconvolver и других аналогов. Полученные импульсы можно использовать (свертка) в большинстве известных аудио редакторов для придания треку пространственного звучания.

Таким образом, импульсные характеристики кодируют очень разностороннюю информацию обо всех преобразованиях звука на пути между его источником и записывающим микрофоном:

  • конфигурация пространства
  • Число отражений звука от различных препятствий (стены или рельефные элементы ушной раковины), его затухание или усиление  со временем в различных частотных диапазонах
  • масса балластной информации, далекой по содержанию от ваших творческих замыслов.

Что можно сказать? Если вы используете чужие HRTF из бесплатных баз, то не забудьте поинтересоваться как они были получены, прикиньте можно ли использовать их совместно при бинауральном сведении.

В двух импульсах в пределах одного микса запросто могут оказаться разные:

  • уши (головы)
  • исходные расположения микрофонов относительно пола и стен
  • геометрия пространства
  • способы получения импульсных характеристик
  • и еще много чего...

 

И, не удивляйтесь потом, почему бинауральный микс звучит так плохо...  Вместо кристального звучания - каша!

Будут правки, дополнение текста. Это просто наброски...  (версия от 10 окт. 2013). Обсуждение бинаурального сведения на форуме здесь.

Литература, однако!

  1. Технологии создания позиционируемого 3D звука

  2. Head-related transfer function

  3. LISTEN HRTF DATABASE

  4. HRTF Measurements of a KEMAR Dummy-Head Microphone

  5. FAQ по 3D звуку с точки зрения QSound

  6. КОМПЬЮТЕРНОЕ МОДЕЛИРОВАНИЕ АКУСТИКИ ПОМЕЩЕНИЙ. АУРАЛИЗАЦИЯ