Нефть и песок О стали Компрессор - подбор и ошибки Из истории стандартизации резьб Соперник ксерокса - гектограф Новые технологии производства стали Экспорт проволоки из России Прогрессивная технологическая оснастка Цитадель сварки с полувековой историей Упрочнение пружин Способы обогрева Назначение, структура, характеристики анализаторов Промышленные пылесосы Штампованные гайки из пружинной стали Консервация САУ Стандарты и качество Технология производства Водород Выбор материала для крепежных деталей Токарный резец в миниатюре Производство проволоки Адгезия резины к металлокорду Электролитическое фосфатирование проволоки Восстановление корпусных деталей двигателей Новая бескислотная технология производства проката Синие кристаллы Автоклав Нормирование шумов связи Газосварочный аппарат для тугоплавких припоев
Главная страница / Архитектура отрасли

Системы распознавания речи, Interactive Voice Response (IVR), системы голосовых меню



Услуги систем интерактивных голосовых меню (IVR – Interactive Voice Response), используемые, в том числе в сетях IP-телефонии, прочно вошли в повседневную жизнь миллионов людей. Системы интерактивного голосового взаимодействия нашли свое применение в телекоммуникационной отрасли, офисах крупных корпораций, торговых и сервисных сетях. IVR может произвести обработку телефонного вызова на основе информации, поступающей от пользователя, в том числе осуществить маршрутизацию телефонного соединения в соответствии с пожеланиями пользователя или предоставить доступ к определенной информации.

До недавнего времени предлагаемые на отечественном рынке системы автоматического информирования обладали одним очень существенным недостатком – они работали только с вводом данных в тональном наборе. Как известно, в нашей стране большая часть телефонных аппаратов – дисковые, они вообще не приспособлены к такому режиму работы. Обладатели кнопочных аппаратов зачастую не пользуются тональным набором из-за того, что он кажется им слишком сложным. К тому же, выслушивая весь перечень предлагаемых вариантов, иногда можно просто «заблудиться» и забыть, какую цифру надо набирать. А если далее следует еще «вложенное» меню, то добраться до цели совсем непросто.

«Работать» с клавишами телефона достаточно сложно, особенно в радиотелефонах, когда человек во время разговора вынужден еще и нажимать кнопки на аппарате.

Таким образом, есть смысл поговорить о современной технологии обработки речи, которая существенно расширяет возможности пользователей, обращающихся за услугами автоматизированных служб по телефону.

Технология распознавания речи позволяет строить приложения телефонных услуг, в которых абонент осуществляет выбор в меню не тональным набором, а произношением отдельных слов или фраз. Данная технология может с успехом использоваться как в системах интерактивного речевого взаимодействия, так и для построения речевых порталов. С помощью этих систем пользователи избавляются от необходимости подолгу оставаться на линии, ожидая ответа оператора. Система распознавания речи позволяет создавать такие решения, которые практически невозможно реализовать, имея в качестве интерфейса только тональный набор. Например, ввод запроса по названию города. А что уж говорить об использовании биометрическуих технологий, позволяющих установить личность человека по характиристикам его голоса. Таким образом, системы распознавания речи в телефонных сетях открывают принципиально новые возможности для бизнес-приложений на основе IVR-решений.

Естественно, что приложения, распознающие живую речь, по сравнению с приложениями, использующими тональный набор, намного сложнее в разработке и внедрении. Именно поэтому разработчик IVR, распознающих живую речь, должен иметь междисциплинарные знания, быть сведущим и в компьютерных технологиях, и в лингвистике, и в психологии. Кроме того, чрезвычайно важны сбор и а вариантах взаимодействия с пользователями.

Еще один существенный момент – точность распознавания речи гораздо ниже (по сравнению с распознаванием тонального набора). Здесь приходится учитывать и дополнительные фоновые шумы, и тот факт, что пользователь практически ничем не ограничен при выборе речевых форм. В свою очередь, это повышает степень сложности и увеличение объема программирования, обеспечивающего компенсацию ошибок (низкую точность распознавания, двусмысленность выражений, словарь без грамматики и т. п.).

Для реализации телефонного приложения с функциями распознавания речи необходимы: платы компьютерной телефонии со специализированными CSP-ресурсами (Continue Speech Processing), способными выполнять функции непрерывной обработки речи, и программное обеспечение для распознавания произносимых абонентом фраз.

Программное обеспечение распознавания речи – это инструментарий для реализации функций распознавания речи в телефонных приложениях с использованием оборудования компьютерной телефонии. Обычно эта платформа основана на таких технологиях, как распознавание речи с большим объемом словарных единиц (Large Vocabulary Recognition), понимание естественного языка (Natural Language Understanding), преобразование текста в речь (Next-to-Speech), а также идентификация говорящего по голосу (Speaker Verification).

Основными характеристиками данного ПО являются:

• возможность дикторонезависимого распознавания;

• отсутствие необходимости настройки на голос (однако режим работы с настройкой на голос не исключается);

• распознавание непрерывной речи;

• распознавание сложных предложений, чисел, отдельных фраз и команд;

• поддержка нескольких языков;

• произвольный словарь распознаваемых слов, составляемый разработчиком приложения;

• возможность «перебивать» систему, произнося команды, не дожидаясь окончания проигрывания приветствий и/или меню.

К основным компонентам систем распознавания речи относятся:

• графическая среда для разработки, компиляции и оптимизации грамматических и лексических блоков распознавания, проверки и редактирования лексиконов;

• система для протоколирования диалогов из работающего приложения в удобном для оценки качества распознавания и подстройки системы виде;

• инструмент оценки качества работы системы (проверка соответствия слова, сказанного абонентом, используемой грамматике);

• система, позволяющая создавать «тренируемые» языковые модели, что повышает производительность и ускоряет сам процесс распознавания;

• система, предназначенная для распределения множества параллельных запросов различных типов для прозрачной интеграции различных речевых модулей в сети.

Распознавание речи значительно упрощает логику общения клиента с системой IVR. Однако перед внедрением системы с распознаванием речи необходимо определить, будет ли приложение: использовать речь в полном объеме или частично; аварийно переходить на тональный набор. Кроме тот систему до того, как она закончила, например, подтверждение того, что она поняла).

Хорошая практика – обеспечение аварийного тонового набора как меры предосторожности, например, по соображениям безопасности (при вводе номера кредитной карты, пароля и т. п.), либо если клиент затрудняется в формулировании своих мыслей в виде речи или просто консервативен и боится отказаться от привычного тонального набора.

Одно из важных преимуществ речевых приложений – уменьшение глубины голосового меню, т. е. сокращение количества шагов, которые должен сделать абонент для достижения своей цели. Например, не совершая многоходовых комбинаций, можно проникнуть на нижний уровень меню при помощи одной ключевой фразы. И даже если абонент имеет опыт общения с кнопочным меню, заранее зная, какие кнопки нажимать, все равно доступ к нужной позиции при помощи ключевой фразы значительно экономит время абонента.

Существуют несколько рекомендаций, позволяющих повысить эффективность технологии распознавания речи. Прежде всего, направляющий диалог должен включать вопросы, на которые можно дать однозначный ответ: «да» или «нет». Приветствие необходимо дополнять подсказкой о получении помощи. Абонент должен иметь достаточно времени для передачи запрошенной информации. Следует предусмотреть аварийные ситуации. Если фоновый шум или какие-либо помехи не позволяют программе распознавания речи понять абонента, применимо, к примеру, сообщение: «Извините, я вас совсем не понимаю» или «Мне жаль, но я не расслышала, пожалуйста, говорите громче». В этом случае пользователь получает больше информации от системы, у него не возникает сомнения, что система работает, и он не бросает трубку.

Таким образом, грамотное использование технологии распознания речи позволяет создать IVR-систему, имитирующую общение с живым человеком.

В настоящее время существует довольно широкий выбор программ преобразования текста в речь. Эти программы преобразуют написанный текст в натурально звучащую речь и могут применяться для автоматической генерации ответов на запросы клиента, касающиеся динамически изменяющейся информации (например, техническое состояние каких-либо систем; географические координаты объектов; курсы валют, прогноз погоды, расписание поездов и т. д.).

Программы для преобразования текста в речь используют промпты, или речевые апплеты – аудиофайлы, которые проигрываются пользователю. Они позволяют применять стандартные модули распознавания речи для получения от звонящего конкретной информации или побуждения к действиям и ориентируют пользователя при взаимодействии с системой IVR.

Существует два способа генерации голосовых сообщений из текстовых файлов:

• при помощи проигрывания определенного набора звуковых файлов, содержащих фрагменты сообщения, различные цифры и системные фразы. Это идеально подходит для систем, в которых поступление новой информации минимально, и, следовательно, можно обойтись набором записанных звуковых файлов;

• озвучивание напески изменяемую информацию.

Использование технологии преобразования текста в речь особенно эффективно, когда речевая информация, которую должен слышать звонящий, состоит из большого количества элементов или поступает из нескольких регулярно меняющихся источников. Данная технология применяется при работе с большими базами данных, когда предварительная запись сообщений нецелесообразна или невозможна, и является идеальным решением для организации, нуждающейся в уточнении адреса обратившегося к ней клиента, либо для голосовых порталов, через которые распространяется периодически обновляемая информация.

Грамматика приложения определяет, какие ответы допустимы для приложения, и содержит точный список слов и форм слов, которые возможны в ответах пользователя, а также порядок их употребления. Большинство программ распознавания речи имеют встроенную грамматику, однако в каждом конкретном случае грамматику необходимо налаживать путем многократных проверок и дополнительных настроек.

Для успешного внедрения системы распознавания речи требуется очень тщательный анализ речевого поведения. Настройка грамматики должна быть выполнена таким образом, чтобы покрывались все гипотетические варианты высказываний клиентов, однозначно определялись ключевые слова и т. д.

При создании системы необходимо также определить порог понимания. Если система не понимает слово или высказывание, т. е. результат ниже порогового значения, она требует подтверждения значения. Если высказывание оценено выше порогового значения, оно считается понятным, и подтверждения не требуется.

Вследствие своей сложности и неоднозначности речевые приложения для систем IVR требуют всесторонней настройки и тестирования. Настройка – многократно повторяющийся процесс анализа качества работы системы. Для достижения удовлетворительного уровня настройка должна производится на основании реальных данных о поведении и репликах клиентов. Настройки требуют промпты, диалоги, грамматика и словарь, распознавание и пороги понимания.

Можно с уверенностью сказать, что современные технологии позволяют настроить систему IVR таким образом, что создается впечатление общения с живым оператором. Сценарий обработки звонка и звуковые файлы конфигурируются, в результате у абонента возникает чувство, что он общается с интеллектуальной машиной. Конечно, миграция приложений – проект сложный, включающий изменение дизайна приложения, построение словаря и грамматики, управление ошибками, и, самое важное, тщательную настройку.

Использование IVR-технологий в сочетании с системами распознавания речи позволяет существенно улучшить имидж компании и обеспечить высокую рентабельность инвестиций.



Главная страница / Архитектура отрасли