Нефть и песок О стали Компрессор - подбор и ошибки Из истории стандартизации резьб Соперник ксерокса - гектограф Новые технологии производства стали Экспорт проволоки из России Прогрессивная технологическая оснастка Цитадель сварки с полувековой историей Упрочнение пружин Способы обогрева Назначение, структура, характеристики анализаторов Промышленные пылесосы Штампованные гайки из пружинной стали Консервация САУ Стандарты и качество Технология производства Водород Выбор материала для крепежных деталей Токарный резец в миниатюре Производство проволоки Адгезия резины к металлокорду Электролитическое фосфатирование проволоки Восстановление корпусных деталей двигателей Новая бескислотная технология производства проката Синие кристаллы Автоклав Нормирование шумов связи Газосварочный аппарат для тугоплавких припоев
Главная страница / Архитектура отрасли

Распознавание речи в call-центрах

Еще в конце 90-х появились сенсационные сообщения о том, что в недалеком будущем ввод данных в персональные компьютеры будет осуществляться посредством голоса, обычные компьютерные клавиатуры отомрут и вообще мир значительно изменится с пришествием технологий распознавания речи. Прошло почти десятилетие, и некоторые из фантастических прогнозов начинают сбываться: голосовой набор номеров и управление меню в сотовых телефонах, «говорящая» аудио- и видеоаппаратура, сall-центры с функцией распознавания живой речи – за рубежом эти «изыски» уже стали привычной повседневностью. А что происходит на российском рынке?

Кто-кто на российском рынке живет?

В начале нового века практическим применением технологии распознавания устной речи в конечном продукте и представлении его на российском рынке заинтересовались поставщики call-центров. На тот момент в России существовали системы распознавания речи низшего уровня как в ценовом плане (они могли быть вообще бесплатными), так и по уровню качества. Они используют принцип распознавания речи определенного говорящего, на голос которого они «натренированы» (дикторозависимые системы). Подобные системы, предназначенные для работы с конкретным пользователем, не представляли интереса для применения в масштабных проектах. Впрочем, голосовые метки (voice tags) в мобильном телефоне – одно из ответвлений данного направления.

Среди промышленных систем распознавания речи на российском рынке представлены решения от крупных зарубежных производителей, таких как IBM, Nortel Networks, Avaya, Cisco Systems, Philips, Cayo Communications.

Из отечественных разработок – решение белорусской компании «Сакрамент», которая занимается как распознаванием речи, так и ее синтезом (технология text-to-speech). «Сакрамент» представляет систему распознавания русской речи Sakrament ASR Engine и систему синтеза Sakrament TTS Engine, предназначенную для мобильных устройств.

Несмотря на довольно небольшое предложение и еще не до конца вызревший спрос, системы распознавания речи привлекают внимание как интеграторов, так и потенциальных клиентов. Почему?

Способы приготовления

Системы распознавания русской речи, как, впрочем, и всех других языков, применяются для решения двух типов задач. Во-первых, для облегчения общения человека с автоматизированным call-центром. Российский рынок пока значительно отстает в применении подобных технологий, тогда как в развитых странах call-центр воспринимается не как место, где сидят люди, отвечающие на звонки, а как автоинформатор (IVR). Тем не менее, хотя у нас еще не очень принято общаться с таким «роботом», уже наметилась отчетливая тенденция к использованию как обычных IVR, так и голосового управления меню автоматизированного call-центра.

Как ни странно это прозвучит, но для нашей страны, где люди еще не привыкли к подобным системам, использование IVR с распознаванием речи может существенно упростить работу с клие состоит в том, что они ускоряют поиск нужной информации (голосом можно «перескакивать» сразу через несколько пунктов меню, чего нельзя совершить с помощью набора цифр с клавиатуры телефона). Второе важное преимущество – независимость от специфики линий связи. Обычные автоматические IVR рассчитаны только на работу в тоновом режиме, попытки «приучить» их воспринимать цифровой код, набранный с импульсного аппарата, не привели к желаемым результатам: распознавание цифр при таком наборе было на порядок ниже допустимого уровня. Управление голосом дает возможность получать автоматизированный сервис с любых телефонов, поэтому распознавание речи в таких случаях – вещь практически незаменимая, поскольку круг пользователей, обращающихся к вашему автоматизированному сервису, значительно расширяется.

Второе направление использования IVR с функцией распознавания речи – создание новых сервисов, которые возможны только с голосовым управлением. Если в первом случае неважно, что за компания располагает автоинформатором – телеком-оператор, банк или торговая сеть, то второй более подходит для операторов, предоставляющих услуги телефонии. Поставщики call-центров отмечают участившиеся случаи обращения операторов для наладки различных платных сервисов, потому что call-центр постепенно перестает быть средством обычного предоставления справок и превращается в средство зарабатывания денег. IVR дает возможность конструировать подобные сервисы. Прежде всего, это различные виды игр и другой развлекательный контент. Системы распознавания речи помогают либо видоизменить уже существующие, либо построить новые сервисы.

Примером такого варианта использования IVR с функцией распознавания голоса может служить проект «Открытых коммуникаций» для «Центрального Телеграфа» на основе речевой платформы Cayo Communications, который создает развлекательный портал, доступный пользователям карт оплаты «ЦенТел». В частности, разработаны сервисы на основе распознавания речи: игра «Угадай число», гороскоп и др. Практически все они пользуются большой популярностью у абонентов.

Подводные камни

При всех очевидных преимуществах использования IVR с функцией распознавания речи, существуют и проблемы, общие для всех систем. Одна из них заключается в том, что системы сложны в настройке, и это может помешать их правильной эксплуатации, поскольку задача IVR – удобство для пользователя. Однако эта проблема решаема с помощью обучения технического персонала конечного заказчика.

Вторая проблема более сложная – сама технология распознавания речи. Даже самые совершенные на данный момент системы пока не могут перешагнуть планку в 95–97% соответствия распознанных слов сказанным. Основная трудность состоит в том, что живая речь вариативна, и процент погрешности при распознавании может быть достаточно велик. Ни одна из подобных систем не сравнится с «восприимчивостью» человеческого уха, однако, в зависимости от настройки, они могут быть весьма чувствительны. В некоторых из ности для настройки распознавания слов по особенностям произношения: например, слово «компания» десять человек произнесут по-разному, система зафиксирует все десять вариантов. Причем настраивать их можно, не «тренируя» голосом, а путем ввода в текстовой форме транскрипции слова. Чем больше вариантов, тем лучше распознавание.

Кроме того, современные системы позволяют фиксировать ошибки распознавания, анализировать их и исправлять, они могут даже самообучаться, однако для того, чтобы грамотно реализовать такую функцию, нужно располагать достаточно большим статистическим материалам. Например, система SpeechPearl® (Philips) способна обучаться следующим образом: в контрольной точке она анализирует произнесенное клиентами компании ключевое слово, пытается соотнести его с тем понятием, которому оно должно соответствовать, например, «сервис», собирает всю статистику по обращению к блоку «сервис», обобщает ее и добавляет к базовому словарю полученный результат.

Надо отметить, что высокий результат (свыше 95–97%) достигается за счет оптимального подбора настроек и использования технологии пакетной передачи голоса – VoIP.

ПРОЕКТЫ, ГДЕ ПРИМЕНЯЕТСЯ ТЕХНОЛОГИЯ РАСПОЗНАВАНИЯ РЕЧИ

Дмитрий СТОЛЯР,

директор по продажам московского представительства компании Cayo Communications

При внедрении подобных технологий важно использовать надежную промышленную систему автоматической коммуникации со встроенной функцией распознавания речи, гарантирующую надежную и качественную работу с языком.

До настоящего времени существенным ограничением предлагаемых на отечественном рынке систем автоматического информирования (IVR) была работа только в режиме тонального донабора. Преобладающее распространение телефонных аппаратов с импульсным набором сдерживало распространение подобных систем и создавало сложности для неподготовленных пользователей. Сегодня возможности применения таких систем весьма широкие. С их помощью можно автоматизировать, скажем, голосовой набор телефонных номеров для внутренней коммуникации между сотрудниками компании, если у нее разветвленная структура и много сотрудников. Мы, например, создали приложение «Автосекретарь», позволяющее дозвониться до любого сотрудника компании с помощью произнесения его фамилии, имени и т. д. Сейчас такая система разрабатывается для крупной нефтяной компании. Не так давно нами реализован интересный проект по автоматизации заказа с помощью голоса в интернет-магазине. Но в основном распознавание речи используется сейчас в автоматизированных справочных системах (например, в ОАО «Уралсвязьинформ»), а в Калужском филиале ОАО «ЦентрТелеком» полностью автоматизирована адресная справка «09».



Главная страница / Архитектура отрасли