GOLD WAVE

 

Назначение GoldWave

 

GoldWave аудиоредактор (http://www.goldwave.com/).

см. рисунок главного окна

GoldWave предназначен для:

  • анализа аудио сигналов:

    • человеческой речи,

    • пения птиц,

    • песен китов.

  • проигрывания,

  • визуализации,

  • редактирования,

  • микширования

  • конвертации аудио файлов.

 

Возможности GoldWave

 

Поддерживает множество форматов, в том числе:

  • MP3,

  • WAV,

  • AU,

  • IFF,

  • VOC,

  • SND,

  • MAT,

  • AIFF....

Позволяет использовать различные эффекты:

  • добавление эхо,

  • "увядание" звука (Fade),

  • реверс,

  • фленджер,

  • допплер,

  • редактировате эквалайзером и пр.

Позволяет убирать шумы, реставрировать старые записи и т.д.

Позволяет записывать звук с микрофона, кассет, пластинок, радио.

Инструмент CD Reader дает возможность делать точные копии треков аудиодисков.

 

 

Общие характеристики GoldWave

• Несколько интерфейсов документов для работы с большим количеством файлов в одной сессии
• Редактирования больших файлов: 4 Гб и выше (NTFS только)
• • Высокое качество: 24-бит, 192 кГц
• в режиме реального времени изображения: бар, формы волны, спектрограммы, спектр, VU метра, ...
• Несколько уровней отмены
• Пакетная обработка и преобразование
• Прямое редактирование сигнала с помощью мыши
• Настраиваемые инструменты
• Настраиваемые цвета сигнала
• Несколько встроенных специальных функций и клавиш
 

 

 

Операции в GoldWave

Масштабирование осциллограммы (позволяет детализировать изображение):

  • Растяжение осциллограммы по вертикали: Ctrl и клавиши перемещения курсора вверх по вертикали.

  • Сжатие осциллограммы по вертикали: Ctrl и клавиши перемещения курсора вниз по вертикали.

  • Растяжение осциллограммы по горизонтали: Shift и клавиши перемещения курсора вверх по вертикали.

  • Сжатие осциллограммы по горизонтали: Shift и клавиши перемещения курсора вниз по вертикали.

Нормализация звуковых файлов заключается в таком масштабировании амплитуды файла, при котором максимальная амплитуда сигнала будет приведена к максимально возможному значению амплитуды, определяемого разрядностью формата звукового файла.

  • выбрать из меню Effects строку Volume, а затем из меню второго уровня — строку Maximize.

Выделение фрагмента звукового файла:
щелкнуть левой клавишей мыши в начале выделяемого фрагмента,

  • затем — правой клавишей мыши в конце выделяемого фрагмента.
    выделенный фрагмент выделяется синим цветом.

После того как фрагмент выделен, с ним можно выполнять различные операции, доступные через меню Edit и Effects (скопировать фрагмент в  Clipboard, удалить его, наложить фильтр и т.п.).
 

Вырезка фрагмента звукового файла
При проведении исследований речи можно вырезать фрагменты записанных звуковых файлов, сохраняя их в отдельных файлах. Таким способом можно вручную выделять слова, слоги, фонемы, морфемы и другие лексические конструкции.

  • нужно выделить фрагмент файла и скопировать выделенный фрагмент в Clipboard, выбрав из меню Edit строку Copy.

  • нужно создать из содержимого буфера обмена Clipboard новый звуковой файл, выбрав из меню Edit строку Paste new.

  • сохранить новый файл, воспользовавшись для этого строкой Save As меню File.

 

 

Поиск лексических конструкций

При записи повествовательного предложения (например, «Мама мыла раму») делаем паузу между словами и слогами для того, чтобы было легче выделить на осциллограмме лексические элементы:

Всплески сигнала отмечаем соответствующими им слогами предложения.

На осциллограмме должно быть отчетливо видно, что в начале предложения громкость звука резко увеличивается, а затем уменьшается от слога к слогу. Характер изменения амплитуды речевого сигнала для вопросительных предложений будет несколько иным.

На осциллограмме должны быть видны отдельные аллофоны, составляющие речь. Например, в слове мама первый слог выглядит несколько иначе, чем второй (чтобы оптимизировать изображение осциллограммы слова мама можно растянуть ее по горизонтали.
 

Классифицировать фонемы и аллофоны по форме линий, огибающих соответствующий фрагмент осциллограммы. Однако форма этой линии несет лишь информацию об энергии звукового сигнала, но не о его частотном спектре.

Например,  формы огибающей линии слов мыла и раму довольно близки, хотя есть и отличия.

 

 

Просодическая вариативность речевого сигнала

Интонация может полностью менять смысл предложения.

Посмотрим, как видно изменение интонации на осциллограмме речевого сигнала.
Одним лишь изменением интонации это предложение может быть легко преобразовано в три различных по смыслу вопросительных предложения:

`[Мама] мыла раму?

В первом случае интонационное ударение делается на слове мама. При этом мы подчеркиваем интонацией, что нас интересует, кто мыл раму — мама или кто-то еще.

Мама `[мыла] раму?

Осциллограмма первого предложения наглядно демонстрирует увеличение амплитуды при произнесении слова мама.

Во втором вопросе выясняется, мыла мама раму, или нет. Важное слово мыла при этом подчеркивается изменением интонации. Мы видим увеличение амплитуды фрагмента сигнала, соответствующего второму слову.

 

Мама мыла `[раму]?

Осциллограмма третьего вопросительного предложения, в котором выясняется, мыла мама раму или она мыла что-то еще, показывает увеличение амплитуды сигнала приходящегося на последнее слово.

 

При проектировании синтезаторов речи необходимо учитывать наличие интонационных ударений. Если расставить такие ударения неправильно, синтезированная речь будет звучать неестественно.

 

 

Спектральный анализ в программе GoldWave

Спектральные исследования речи позволяют проследить изменение содержания в звуках речи тех или иных частотных компонентов.

В результате этих исследований было обнаружен факт наличия формантных частот, несущих в себе основную речевую информацию.

Отслеживание изменений этих частот, а также изменений амплитуды звукового сигнала позволяет выделять из сигнала лексические элементы — фонемы и аллофоны.

В главном окне программы GoldWave имеется окно Device Controls, при помощи которого можно:

  • управлять записью, перемоткой и проигрыванием звуковых файлов,

  • просматривать формы и спектра сигнала.

В нижней части окна Device Controls имеется два окна просмотра. Первое из них используется для отображения информации о первом канале стереофонического звука, а второе — о втором канале. Если исследуем монофонические звуки речи - вся информация будет отображаться только в левом окне.

Если щелкнуть правой клавишей мыши в этом окне, на экране появится контекстное меню, задающее режимы просмотра: Amplitude; Spectrum; Log bar spectrum; Colour Spectrum; · Spectrogram; · Fire Spectrum; · X-Y mode...

Строка Amplitude переключает окно в режим просмотра амплитуды исходного сигнала.

Отображение происходит во время проигрывания сигнала. Можно щелкнуть левой клавишей мыши внутри окна редактирования звукового файла и, не отпуская эту клавишу, перемещать курсор мыши вправо и влево, рассматривая в окне Device Controls осциллограмму сигнала как под увеличительным стеклом.

Если выбрать из контекстного меню строку Spectrum, во время воспроизведения звука в окне будет отображаться текущий спектр звукового сигнала в виде графика.

К сожалению, этот график (как, впрочем, и все другие спектральные графики, создаваемые программой GoldWave) позволяет получить только качественную, а не количественную характеристику спектра. Получить с ее помощью какие-либо числовые параметры спектра текущая версия программы GoldWave не позволяет.

Режим Log bar spectrum позволяет просматривать спектр в виде диаграммы. Чем больше высота прямоугольника на диаграмме, тем больше содержание соответствующей частоты. Опять же, здесь мы можем только оценить спектр, но не получить его точное распределение в виде чисел.

В режиме Colour Spectrum отображается цветная диаграмма.

Режим Spectrogram позволяет получить спектрограмму звукового сигнала, на которой видно, как спектр изменяется со временем. По горизонтальной оси откладывается время, а по вертикальной — частота сигнала. Интенсивность обозначается цветом. Частота, имеющая малую интенсивность, отображается черным цветом, затем следуют цвета пурпурный, голубой, циан, зеленый, желтый и красный. Красный цвет соответствует максимальной интенсивности.

На этой спектрограмме четко видны отдельные фонемы и аллофоны. Используя нейронные сети, можно выделить эти лексические элементы из речи.

 

 

 17.10.2013

kmp