Методы распознавания речи и их классификация Текст научной статьи по специальности «Компьютерные и информационные науки»
Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Гаврилович Н.В., Сейтвелиева С.Н.
В статье рассмотрены принципы построения систем распознавания речи , приведена классификация методов распознавания речи .
i Надоели баннеры? Вы всегда можете отключить рекламу.
Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Гаврилович Н.В., Сейтвелиева С.Н.
Принципы и методы автоматического распознавания образов
Анализ методов автоматизации процессов распознавания объектов
К вопросу об использовании формальных грамматик при распознавании объектов в сложных сценах
Распознавание слитной речи с использованием рандомизированного алгоритма стохастической аппроксимации
Методы распознавания графических образов для решения задач автоматизированного проектирования
i Не можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.
Текст научной работы на тему «Методы распознавания речи и их классификация»
магистрант, н/п «Прикладная информатика»
Научный руководитель: Сейтвелиева С.Н.
МЕТОДЫ РАСПОЗНАВАНИЯ РЕЧИ И ИХ КЛАССИФИКАЦИЯ
В статье рассмотрены принципы построения систем распознавания речи, приведена классификация методов распознавания речи.
Ключевые слова: распознавание речи, голосовое управление, методы распознавания речи, классификация методов распознавания речи.
Методы распознавания речи
Основу создания систем распознавания речи составляют методы, которые разделяют и описывают классы образов. Образ в данном контексте — это описание элемента как представителя соответствующего класса образов. Если класс можно охарактеризовать списком входящих в него членов, то система распознавания может базироваться на принципе принадлежности к этому списку. Если класс описывается некими общими свойствами, свойственными всем его членам — система базируется на принципе общности свойств. И наконец если при анализе класса обнаруживается тенденция к формированию кластеров (конечную группу объектов, которые образуют компактную область в пространстве описания) в пространстве образов, система может основываться на принципе кластеризации [1].
1. Принцип перечисления членов класса. Перечисление членов класса, находящихся в его составе, предполагает выполнение автоматического распознавания речи на основе сопоставления с образцом. Множество образов, принадлежащих одному классу, помещается в память системы распознавания. При предоставлении системе новых образов, система поочередно сопоставляет их с образами, хранящимися в ее памяти. К примеру, в случае если в памяти системы распознавания звуки разных букв, тогда данный подход, основанный на перечислении членов класса, позволяет распознать соответствующие буквы, однако только в тех случаях, когда входные данные не искажены посторонним шумом, произношением и т.п. Это относительно несложный метод, но дает возможность синтезировать дешевые системы распознавания в отдельных прикладных сферах вполне справляющиеся со своими задачами. Метод перечисления членов класса работает приемлемо, если выборка образов близка к эталонной [2, 3].
2. Принцип общности свойств. Реализация процесса распознавания путем выделения схожих признаков подразумевает разделение образов по классам, общих для членов, входящих в его состав. Основным предположением в этом методе является то, что образы, обладающие рядом общих свойств или признаков, принадлежат тому же классу. Данные совместные свойства можно ввести в память системы. Если системе во входных данных предоставляется неклассифицированный образ, происходит выделение набора, описывающих признаки, а затем сравнение с признаками, находящимся в памяти системы. Далее система зачислит проверяемый образ в класс, который характеризуется системой признаков, подобных признаков этого образа. Таким образом при использовании описанного метода главная задача стоит в выделении общих признаков по выборке образов, принадлежность которых к искомому классу известна. Таким образом описанная концепция распознавания превосходит распознавание по памяти, по сравнению с хранением объектов,
входящих в класс. Поскольку свойства, описывающие класс в целом, являются константами, принцип сопоставления свойств разрешает различие свойств отдельных образов. Метод основанный на сравнении с эталоном, с другой стороны, не позволяет существенных вариаций характеристик отдельных образов. Как упоминалось ранее, очень трудно найти полный набор признаков, различий для класса. Следовательно, использование данного принципа распознавания, тесно связано с развитием методов выборки оптимальных свойств [2; 4].
3. Принцип кластеризации. Класс образов можно рассматривать как кластер и выделять свойства класса в пространстве образов кластера можно тогда, когда образы класса представляют собой векторы, компоненты которого являются действительными числами. Системы распознавания, основанные на принципе кластеризации, определяется взаимным пространственным расположением отдельных кластеров. Если расположении кластеров друг от друга достаточно далеко, можно использовать более простыми методами распознавания. Если же кластеры перекрываются, необходимо использовать более сложные методы разбиения пространства образов. Описанные перекрытия кластеров — результат неполноценности информации и искажений результатов измерения [2; 4].
Классификация методов распознавания образов
Разные авторы (Барабаш Ю. Л., Васильев В. И., Горелик А. Л., Скрипкин В.А., Дуда Р., Харт П., Кузин Л. Т. и др.) описывают разную классификацию методов распознавания речи [2-6]. Часть авторов разделяют методы на параметрические, непараметрические и эвристические, другие используют выделение методов исходя из исторически появившихся школ и направлений в данной области. К примеру, работа Темникова Ф. Е. [8], предоставляет прекрасный обзор методов распознавания, используется следующая типология методов распознавание образов:
• методы, основанные на принципе разделения;
• методы, построенные на основе «потенциальных функций»;
• методы вычисления оценок (голосования);
• методы, основанные на исчислении высказываний, в частности на аппарате алгебры логики.
Д. А. Поспелов определяет два способа представления знаний [9]:
1. Интенсиональное представление (схема связей между атрибутами, признаками).
2. Екстенциональное представления (конкретные факты, объекты, примеры).
Интенсиональное представление закрепляет закономерности и связи, которыми
объясняется структура данных. Применительно к диагностическим задачам такая фиксация заключается в определении операций над атрибутами (признаками) объектов, что приводят к необходимому диагностическому результату. Интенсиональные представления реализуются посредством операций над значениями атрибутов и не предполагают выполнение операций над конкретными информационными фактами (объектами).
В свою очередь, екстенциональное представление знаний связаны с описанием и фиксацией конкретных объектов из предметной области и реализуются в операциях, элементами которых служат объекты как целостные системы.
Описанные выше два основных способа представления знаний дают возможность предложить следующую классификацию методов распознавания образов:
1. Интенсиональные методы распознавания образов — методы, основанные на операциях с признаками.
2. Екстенциональные методы распознавания образов — методы, основанные на операциях с объектами.
К первой группе методов относятся такие методы, как:
• методы, основанные на оценках плотностей распределения значений признаков (или сходства и различия объектов);
• методы, основанные на предположениях о классе решающих функций;
• структурные (лингвистические) методы.
Ко второй группе можно отнести следующие:
• метод сравнения с прототипом;
• метод к-ближайших соседей;
• алгоритмы вычисления оценок (голосования);
• коллективы решающих правил.
Другая классификация базируется на реализации рассмотренных выше основных принципов построения автоматических систем распознавания образов. Существуют три основных типа методологии:
Нередко системы распознавания создаются на основе комбинации этих методов.
Основой эвристического подхода является интуиция и полученный опыт; в нем используются основы перечисления членов класса и общности свойств. Безусловно системы, построенные такими методами, содержат набор своеобразных процедур, созданных согласно конкретных задач распознавания. Пример подобного подхода в связан с задачей распознавания букв, слогов, в которой классификация образа (буква, слога) проводилась на основе выделения отдельных признаков, в частности таких, как количество, последовательность и расположение специфических пиков аудио потока. Хотя эвристический подход играет большую роль в построении систем распознавания образов, не много может быть сказано относительно общих принципов синтеза, потому что развязка каждой конкретной задачи требует использования специфических приемов разработки системы. Это означает, следовательно, что структура и качество эвристической системы в значительной степени определяются одаренностью и опытом разработчиков.
В основу математического подхода положены правила классификации, которые формулируются и выводятся в рамках определенного математического формализма с помощью принципов общности свойств и кластеризации. Этим данный подход отличается от эвристического, в котором развязки определяются с помощью правил, тесно связанных с характером решаемой задачи.
Математические методы построения систем распознавания можно разделить на два класса: детерминистские и статистические.
Детерминистский подход основывается на математическом аппарате, который не применяет в явном виде статистические свойства исследуемых классов образов.
Статистический подход базируется на математических правилах классификации, которые формулируются и выводятся в терминах математической статистики. Построение статистического классификатора в общем случае предполагает применение байесовского классификационного правила и его разновидностей. Это правило обеспечивает получение оптимального классификатора в тех случаях, когда известны плотности распределения для всех совокупностей образов и вероятности появления образов каждого класса.
Для работ данного направления характерным является следующее. Предполагается, что задано некоторое множество образов, каждый из которых принадлежит одному из классов w. Способ разделения на классы достоверно неизвестен, но заданные конечные выборки образов, для которых заранее известна принадлежность некоторого класса. Задача
заключается в том, чтобы классифицировать любой новый образ. Для этого выбирают решение правило. Основой для такого выбора является теория статистических решений Истинные вероятности характеристик классов обычно неизвестную. Поэтому практически используются оценки, полученные по известным примерам классов. Эту обычную в статистике процедуру оценки по выборке вероятностных характеристик генеральной совокупности интерпретируют как здесь обучения [10].
Решающие правила фактически не зависят от специфики объектов, распознаются, поскольку они имеют дело не с самими объектами, а с некоторыми числовыми характеристиками. Вследствие этого эти правила имеют известную всеобщность.
Методы статистических решений ведут к решающих процедур, оптимально удовлетворяя наперед заданному критерию и наилучшим образом используют известные параметры. Критерием оптимальности является требование, чтобы общая вероятность неправильного распознавания, была минимальной. Этот критерий равносилен критерию Байеса, если апостериорные вероятности классов равны между собой, цены ошибочных классификаций равные между собой, а результирующая граница решений является контуром, на котором функции плотности для пары классов имеют одно и то же значение.
Как уже говорилось, в качестве одного из возможных критериев статистической проверки гипотез может быть принят критерий Байеса. Именно он был избранный Е. И. Соколовым в его вероятностной модели восприятия [10], которая была представленная на докладе на Первом съезде Общества психологов в Москве в 1959 году.
Среди возможных оптимальных решающих функций наиболее подробно рассмотрены ее линейные приближения, то есть линейные решающие функции. Линейность здесь означает, что пары обобщенных образов дихотомически разделяется в пространстве образов одной и только одной гиперплоскостью вида
где, Хг — координаты пространства образов. К преимуществам таких решающих функций следует отнести то, что их можно эмпирически конструировать, не делая никаких предположений относительно измерений, проведенных при восприятии образа, что ориентируется, и априорных вероятностей появления классов образов при условии, что есть в наличии источник образов. Кроме того, как уже говорилось выше, реализация линейных решающих функций очень проста, и для технического исполнения системы, которая распознает, не нужно больших затрат [11].
Использование линейных решающих функций хорошо зарекомендовало себя при решении ряда задач распознавания. Здесь алгоритм распознавания строится как метод последовательного многоальтернативного анализа. За основу процесса распознавания образов принято перераспределение исходных вероятностей =р1,р2,рз,^,рк взаимоисключающих, и таких что представляют полную группу классов к
которым может быть отнесен распознаваемый образ, то есть
(рО^ е 5^)> = рСя.е^ХрСя,е 52). р0гх е 5^.), (1.3) для которых выполняется условие нормирования
Принадлежность Sx к одному из классов устанавливается при условии, что множество вероятностей принадлежности Sx к классам удовлетворяет требованиям,
которые вызваны необходимой достоверностью ответов и заключаются, например, в том, что
для некоторого значения / выполняется все неравенства
где Лу — некоторое положительное число.
Иначе говоря, подразумевается, что за основу процесса распознавания берут процесс перераспределения выходных вероятностей с помощью анализа совокупности полученных реализаций случайного процесса, представляет собой образ, что распознается, и получение за счет этого необходимой информации [11].
Необходимо специально отметить, что все опубликованные статистические модели распознавания образов, использующих фактически разные статистики (отношение подобия, дискриминантные функции и другие), дают очень хорошие результаты распознавания в различных задачах.
Структурные (лингвистические) методы
Данные методы базируются на использовании специальных грамматик производящих языков, с помощью которых можно описывать совокупность свойств объектов, которые распознаются [12]. Для разных классов объектов выделяются непроизводные (атомарные) элементы (подобразы, признаки) и вероятные отношения между ними. Грамматика производящего языка — это правила построения объектов из этих непроизводных элементов. В таком случае, любой объект является совокупностью непроизводных элементов «объединенных» между собой теми или иными способами или, другими словами «предложением» некоторого «языка». При этом важна информация, описывающая структуру каждого объекта, а от процедуры распознавания требуется, чтобы она давала возможность не только отнести объект к определенному классу, но и описать те свойства объекта, которые делают невозможным отнесение его к другому классу. Типичным примером является распознавания речи. Объекты, рассматриваемые в данном классе задач есть сложными и число необходимых признаков, является большим. Это приводит к тому, чтобы использовать описание сложного объекта в виде иерархической структуры более простых подобразов. Например, изображение на рисунке 1 может быть описано с помощью иерархических структур, показанных на рисунке 2.
слово А слово В
Рисунок 1 — Фраза F
Рисунок 2 — Иерархичное описание фразы F
Процесс распознавания выполняется уже после идентификации в объекте непроизводных элементов и составлении описания объекта. Распознавание состоит из синтаксического анализа, или грамматического разбора, «предложения», что описывает данный объект. Данная процедура определяет, является ли это предложение синтаксически правильным по отношению к заданной грамматики. Параллельно синтаксический анализ дает некоторое структурное описание предложения (обычно в виде древовидной структуры)
Различные отношения, определенные между подобразами, или операции композиции, конечно могут быть выражены логическими и (или) математическими операциями. Примером подобного отношения может быть операция конкатенации.
Предложение может быть представлено с помощью древовидной структуры или графа отношений.
На рисунке 3 изображен граф отношений для фразы F (см. рисунок 1).
Рисунок 3 — Граф отношений фразы F
Применение графа связей дает возможность увеличить класс допустимых отношений и включить в состав класса любое отношение, которое удобно формируется из образа. Но применение древовидных структур дает возможность непосредственно применить методы теории формальных языков к задаче компактного представления и анализа образов, которые имеют структурный смысл. Система синтаксического распознавания образов в основном состоит из трех основных частей, а именно: из блока предварительной обработки, блока описания или представления объекта и блока синтаксического анализа. Блок предварительной обработки выполняет, во-первых, функции кодирования и аппроксимации и, во-вторых, функции фильтрации, восстановления и улучшения объекта. Каждый подвергнут предварительной обработке объект в дальнейшем представляют в виде
структуры языкового блока. Этот процесс представления объекта состоит, во-первых, с сегментации и, во-вторых, из выделения непроизводных элементов (признаков). Для того чтобы получить грамматику, которая описывает структурную информацию класса образов, необходимое устройство вывода грамматики, что позволяет восстановить ее по заданной множестве объектов в виде, подобном языковом. Функции этого устройства аналогичны процессу «обучения» в дискриминантных системах распознавания образов. В результате обучения на примерах объектов рассматриваемого класса формируется структурное описание этого класса. Затем полученное в виде грамматики описание используется для описания образов и синтаксического анализа.
Очевидно, для нахождения наилучшего множества непроизводных элементов и соответствующего структурного описания класса рассматриваемых образов необходимое обучение более общего вида.
Вывод: таким образом, на современном этапе развития информационных технологий, системы автоматического распознавания речи остаются основными элементами голосового интерфейса, создание которых начинается, прежде всего, с выбора алгоритма для автоматического распознавания речи. На основании проведенного исследования методов и алгоритмов обработки речевых сигналов становится возможным выбор наиболее эффективного метода для автоматического распознавания речи, который послужит основой для разработки голосового интерфейса.
1. Гонсалес Р., Дж. Ту Принципы распознавания образов. — М.: Мир, 1978. — 411 с.
2. Барабаш Ю. Л., Зиновьев Б. В Вопросы статической теории распознавания. — М.: Сов. радио, 1967. — 400 с.
3. Васильев В. И. Распознающие системы. Справочник. — К.: Наукова думка, 1983.
4. Горелик О. Л., Скрипкин В. А. Методы распознавания. — 2 изд. — М.: Высшая школа, 1986. — 208 с.
5. Дуда Р., Харт П. Распознавание образов и анализ сцен. — М.: Мир, 1976. — 521 с.
6. Кузин Л. Т. Основы кибернетики: В 2-х томах. — М: Энергия, 1979. — 576 с.
7. Перегудов Ф. И., Тарасенко Ф. П. Введение в системный анализ. — М: Высшая школа, 1989. — 367 с.
8. Темников Ф. Е., Афонин В. А., Дмитриев В. И. Теоретические основы информационной техники. — М: Энергия, 1971. — 424 с.
9. Захаров В. Н., Поспелов Д. А., Хазацкий В. Е. Системы управления. Задания. Проектирование. Реализация. — М.: Энергия, 1977. — 422 с.
10. Соколов Е. И. Вероятностная модель восприятия. Вопросы психологии. — 2 изд.
11. Линейное предсказание речи: Пер. с англ. / Маркел Дж. Д., Грэй А. X. — Под ред. Ю. Н. Прохорова и В. С. Звездина. — М.: Радио и связь, 1980. — 308 с.
i Не можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
12. Фу К., Гонсалес Р., Ли К. Робототехника. — Пер. с англ. изд. — М.: Мир, 1989. —
13. Ципкин Я. З. Основы теории обучающихся систем. — М.: Наука, 1977. — 560 с.
РАСПОЗНАВАНИЕ И СИНТЕЗ РЕЧИ Текст научной статьи по специальности «Компьютерные и информационные науки»
Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Гранкин А.М., Пальмов С.В.
С каждым годом, человечество всё ближе подходит к созданию компьютера, который сможет общаться с человеком на разных языках. Можно предвидеть приложения-переводчики, которые позволят переводить с одного языка на другой в режиме реального времени. В данной статье рассматривается распознавание и синтез речи, основные алгоритмы распознавания звука и значение распознавания речи в жизни человека.
i Надоели баннеры? Вы всегда можете отключить рекламу.
Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Гранкин А.М., Пальмов С.В.
Сравнительный анализ синтезаторов речи для подсистемы оповещения интеллектуального зала совещаний
Технология синтеза речи: история и методология исследований
Двуязычная многомодальная система для аудиовизуального синтеза речи и жестового языка по тексту
Изучение применения автоматического распознавания речи
Исследование сервиса компании Google inc.. По распознаванию русской речи
i Не можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.
RECOGNITION AND SYNTHESIS OF SPEECH
Every year, mankind comes closer to creating a computer that can communicate with a person in different languages. You can anticipate translation applications that will translate from one language to another in real time. This article deals with recognition and synthesis of speech, the main algorithms of sound recognition and the meaning of speech recognition in human life.
Текст научной работы на тему «РАСПОЗНАВАНИЕ И СИНТЕЗ РЕЧИ»
правовые аспекты создания и развития в России системы «Антиплагиат» // Власть закона. — № 4 (32). — 2017. — С. 162-169.
5. Градинар Э.В., Картавченко В.В. Совершение преступлений лицами с диссоциативным расстройством личности // Аллея науки. — №4(20). — 2018. — С. 704-706.
Гранкин А.М. студент 3 курса
факультет «Информационные системы и технологии»
кафедра «Информационные системы и технологии»
ФГБОУ ВО ПГУТИ Россия, г. Самара РАСПОЗНАВАНИЕ И СИНТЕЗ РЕЧИ
Аннотация: С каждым годом, человечество всё ближе подходит к созданию компьютера, который сможет общаться с человеком на разных языках. Можно предвидеть приложения-переводчики, которые позволят переводить с одного языка на другой в режиме реального времени. В данной статье рассматривается распознавание и синтез речи, основные алгоритмы распознавания звука и значение распознавания речи в жизни человека.
Ключевые слова: искусственный интеллект, распознавание речи, синтез речи
Grankin A.M. 3rd year student
Faculty of «Information systems and technologies» Volga State University of Telecommunications and Informatics
Russia, Samara Palmov S.V.
Ph.D. of Engineering Sciences associate professor of the department «Information systems and technologies» Volga State University of Telecommunications and Informatics
Russia, Samara RECOGNITION AND SYNTHESIS OF SPEECH
Annotation: Every year, mankind comes closer to creating a computer that can communicate with a person in different languages. You can anticipate translation applications that will translate from one language to another in real time. This article deals with recognition and synthesis of speech, the main algorithms of sound recognition and the meaning of speech recognition in human life.
Keywords: artificial intelligence, speech recognition, speech synthesis
Распознавание речи позволяет создавать более простые интерфейсы для пользователей. Синтез речи обеспечивает выход из ситуации, когда человек не может читать, например, при вождении автомобиля, тем самым облегчая деятельность пользователя.
Речевые интерфейсы обычно добавляют в графические интерфейсы пользователя, например, в качестве дополнительной функции для людей с нарушением зрения. Но они также используются в сочетании с другими новыми способами взаимодействия, к примеру, жестикуляция в средах VR, чтобы создать естественные условия.
Распознавание речи — это процесс преобразования речевого сигнала в цифровую информацию. Человек в обычном разговоре произносит от 10 до 15 звуков в секунду. И именно из-за этого, попытки создания компьютерных систем распознавания оказались трудными. Но, несмотря на это, существует множество систем, которые достигли определённого успеха в некоторых аспектах распознавания речи. Несмотря на ограниченность возможностей и, как правило, отсутствие «естественного» языка и жаргона, эти системы теперь являются неотъемлемой частью человеческой жизни.
Синтез текста в речь — это превращение строк текста в речь, который воспроизводится через динамики. Конечным результатом является то, что компьютер разговаривает с пользователем. Распознавание речи — это возможность компьютера принимать речь человека и интерпретировать её, что делает возможным пользователю управлять компьютером голосом, а не использовать мышь и клавиатуру, например, просто диктовать текст документа.
Распознавание гласных звуков достигается путём идентификации первых двух или трёх формантов. Форманты — это области усиления энергии в спектре звука. Но при некоторых условиях гласные могут быть распознаны из самых высоких формант, когда две низкие отсутствуют. Формантная структура каждого человека отличается друг от друга, у каждого человека свой тембр, скорость речи и высота голоса. Например, речь ребёнка по звуковому ряду значительно отличается от речи взрослого мужчины, но всё же, мы понимаем, что говорит нам ребёнок.
Распознавание согласных звуков осуществляется идентификацией всплесков высокочастотного шума в паре с гласным звуком, например, «т». А более низкая частота всплеска в паре с гласным звуком будет распознаваться как буквы «п» и «к». В обычном разговоре, мы говорим с использованием разных частотных переходов, от 1800 Гц до 300 Гц, и именно эти переходы позволяют распознать какую букву мы произносим. Например, буква «ш» имеет частоту звука в диапазоне 2000-3000 Гц, а буква «с» — более 4000 Гц.
На качество распознавания также влияет зашумленность, невнятная речь, пропуск букв и «проглатывание» окончаний. Такие факторы снижают
значение данного показателя от 1800 Гц (понятная речь) до наиболее узкополосной отфильтрованной речи — ниже 800 Гц [2]. Фильтрация шума в подобной ситуации не сто процентов не помогает — он всё равно останется, и не позволит точно определить, что сказал человек. Однако лингвистические и семантические сигналы всё же позволяют разобрать предложения.
Большинство, если не все современные синтезаторы речи, используют библиотеки речевых звуков, которые затем объединяются вместе для формирования слов. Это требует хранения огромных баз данных различных звуков и переходов. Синтезатор, основанный на физической модели голосовой трактовки, самым лучшим образом обеспечит наиболее гибкую систему синтеза речи.
Распознавание речи в настоящее время считается необходимым элементом для обеспечения взаимодействия с современными технологиями, и особенно это важно для слепых людей и людей со слабым зрением. Это обеспечивает или расширяет доступ к печатной или электронной информации, ежедневной или социальной деятельности, а также к частным или общественным объектам.
Одна из первых компаний, которые начало изучение и внедрение речевых технологий — Microsoft. Она занимается развитием своих систем уже много лет, и у них есть своя область. Речевая технология Speech может быть добавлена к синтезу текста в речь и в распознавание речи. И уже в 1995 году компания представила данную технологию как одну из частей служб WindowsOpenServicesArchitecture. Это предназначалось для упрощения и удобной работы с продуктом компании. И уже сейчас группа исследователей компании разработала систему распознавания речи, которая совершает равное или меньшее количество ошибок, чем специалист по распознаванию речи. По данным исследований, частота ошибочных слов составляет 5,9%, что примерно равно количеству ошибок, совершаемых при написании под диктовку людьми того же фрагмента текста. Данный прорыв в этой сфере не означает, что компьютер научился распознавать человеческую речь идеально, а лишь приблизил его к такому же количеству совершаемых ошибок при помощи новейших технологий с применением нейронных моделей языка. Для обучения системы были использованы тренировочные наборы больших данных, а также собственную систему для обучения, с открытым кодом [3].
Несмотря на достижения в сфере распознавания речи, учёные сейчас работают над точностью распознавания речи в реальных условиях, с фоновым шумом, разнообразием голосов, с другими разговорами на фоне и акцентами. В дальнейшем исследования также будут заключаться не в простом распознавании речи, а в понимании речи компьютером.
Искусственный интеллект и распознавание речи: основы, принципы работы и применение
В данной статье мы рассмотрим основные принципы и алгоритмы распознавания речи с использованием искусственного интеллекта, а также рассмотрим его применение, преимущества и ограничения.
Искусственный интеллект и распознавание речи: основы, принципы работы и применение обновлено: 20 ноября, 2023 автором: Научные Статьи.Ру
Помощь в написании работы
Введение
Добро пожаловать на лекцию по распознаванию речи! В современном мире, где технологии играют все более важную роль, распознавание речи становится все более популярным и востребованным. Эта технология позволяет компьютерам и устройствам “понимать” и интерпретировать голосовые команды и разговоры людей. В этой лекции мы рассмотрим определение и принципы работы систем распознавания речи, а также рассмотрим их применение и преимущества в контексте искусственного интеллекта. Давайте начнем!
Нужна помощь в написании работы?
Мы — биржа профессиональных авторов (преподавателей и доцентов вузов). Наша система гарантирует сдачу работы к сроку без плагиата. Правки вносим бесплатно.
Определение распознавания речи
Распознавание речи – это процесс преобразования аудио-сигнала, содержащего речь, в текстовую форму. Оно основано на использовании алгоритмов и моделей машинного обучения, которые позволяют компьютеру “понимать” и интерпретировать произнесенные слова и фразы.
Распознавание речи является одной из ключевых технологий искусственного интеллекта, которая находит широкое применение в различных областях, таких как автоматическое письмо текстовых документов, управление голосовыми интерфейсами, транскрипция аудио-записей, медицинская диагностика и многое другое.
Основная цель распознавания речи – обеспечить компьютерам возможность взаимодействия с людьми на естественном языке, что делает его более удобным и доступным для пользователей. Это позволяет создавать голосовые помощники, системы управления, автоматические переводчики и другие инновационные приложения.
История развития распознавания речи
Распознавание речи – это область искусственного интеллекта, которая имеет долгую историю развития. С самого начала исследования в этой области, ученые сталкивались с множеством технических и теоретических проблем, которые постепенно преодолевались благодаря прогрессу в компьютерных технологиях и алгоритмах.
-е годы
В 1950-х годах исследователи начали экспериментировать с использованием компьютеров для распознавания речи. Однако, технологии того времени были ограничены, и результаты были далеки от идеальных. Основной проблемой было отсутствие вычислительной мощности и недостаточная точность алгоритмов.
-е годы
В 1960-х годах исследователи начали применять статистические методы для распознавания речи. Они использовали моделирование звуков и вероятностные алгоритмы для определения наиболее вероятных слов и фраз. Это позволило улучшить точность распознавания, но все еще было далеко от идеального.
-е годы
В 1970-х годах исследователи начали использовать скрытые марковские модели (СММ) для распознавания речи. СММ – это статистическая модель, которая представляет собой последовательность состояний, связанных с определенными наблюдениями. Это позволило улучшить точность распознавания и сделало его более применимым в реальных условиях.
-е годы
В 1980-х годах исследователи начали применять нейронные сети для распознавания речи. Нейронные сети – это математическая модель, которая имитирует работу нервной системы человека. Они позволили улучшить точность распознавания и сделали его более надежным и эффективным.
-е годы и дальше
В 1990-х годах и последующие годы исследователи продолжали улучшать алгоритмы распознавания речи, используя комбинацию статистических методов, нейронных сетей и других техник машинного обучения. С развитием компьютерных технологий и увеличением вычислительной мощности, точность распознавания речи значительно улучшилась.
Сегодня распознавание речи является важной и широко применяемой технологией, которая находит применение в различных областях, таких как голосовые помощники, системы управления, автоматические переводчики и многое другое.
Принципы работы систем распознавания речи
Системы распознавания речи основаны на анализе и интерпретации звуковых сигналов, которые представляют собой речь. Они используют различные алгоритмы и методы для преобразования акустических сигналов в текстовую форму.
Захват и предобработка аудиосигнала
Первым шагом в системе распознавания речи является захват аудиосигнала. Это может быть выполнено с помощью микрофона или другого устройства записи звука. Затем аудиосигнал проходит через предварительную обработку, которая включает фильтрацию шума, усиление и нормализацию громкости.
Извлечение характеристик
После предобработки аудиосигнала происходит извлечение характеристик. Это включает в себя разделение сигнала на короткие временные интервалы, называемые кадрами, и вычисление спектральных характеристик каждого кадра. Эти характеристики могут включать спектральные коэффициенты, частотные характеристики и другие параметры, которые описывают звуковой сигнал.
Моделирование языка и речевых моделей
Для распознавания речи необходимо иметь модели языка и речи. Модель языка определяет вероятность последовательности слов в языке, а речевая модель определяет вероятность последовательности звуковых единиц, называемых фонемами. Эти модели обучаются на больших наборах данных, содержащих текстовые и аудиозаписи.
Сопоставление и распознавание
На этом этапе система сопоставляет извлеченные характеристики с моделями языка и речи. Она вычисляет вероятность соответствия каждого кадра звукового сигнала определенной фонеме и последовательности фонем. Затем система выбирает наиболее вероятную последовательность фонем и преобразует ее в текстовую форму.
Постобработка и исправление ошибок
После распознавания речи система может применять постобработку для исправления ошибок и улучшения точности распознавания. Это может включать использование статистических методов, контекстной информации и других техник для уточнения распознанного текста.
Таким образом, системы распознавания речи работают на основе анализа аудиосигналов, извлечения характеристик, моделирования языка и речи, сопоставления и распознавания, а также постобработки для улучшения результатов.
Техники и алгоритмы распознавания речи
Распознавание речи – это сложная задача, которая требует применения различных техник и алгоритмов. Вот некоторые из них:
Преобразование речи в аудиосигнал
Первым шагом в распознавании речи является преобразование аудиозаписи или речевого сигнала в цифровую форму. Это может быть выполнено с помощью аналогово-цифрового преобразования (АЦП), которое преобразует аналоговый сигнал в цифровой формат.
Извлечение характеристик речи
После преобразования в цифровую форму, речевой сигнал проходит через процесс извлечения характеристик. Это включает в себя выделение особенностей речи, таких как частота, длительность, амплитуда и т. д. Эти характеристики используются для дальнейшего анализа и распознавания.
Моделирование языка и речи
Для распознавания речи необходимо иметь модели языка и речи. Модель языка определяет вероятность последовательности слов в языке, а модель речи определяет вероятность последовательности звуков в речи. Эти модели используются для сопоставления и распознавания речи.
Сопоставление и распознавание
Сопоставление и распознавание речи основаны на сравнении характеристик речи с моделями языка и речи. Это может быть выполнено с использованием различных алгоритмов, таких как скрытые марковские модели (HMM), нейронные сети и др. Алгоритмы анализируют характеристики речи и сравнивают их с моделями, чтобы определить наиболее вероятное распознанное слово или фразу.
Постобработка и исправление ошибок
После распознавания речи система может применять постобработку для исправления ошибок и улучшения точности распознавания. Это может включать использование статистических методов, контекстной информации и других техник для уточнения распознанного текста.
Таким образом, системы распознавания речи работают на основе анализа аудиосигналов, извлечения характеристик, моделирования языка и речи, сопоставления и распознавания, а также постобработки для улучшения результатов.
Применение и преимущества распознавания речи с использованием искусственного интеллекта
Распознавание речи с использованием искусственного интеллекта имеет широкий спектр применений и предлагает множество преимуществ. Вот некоторые из них:
Автоматизация и улучшение процессов
Распознавание речи позволяет автоматизировать и улучшить множество процессов, связанных с обработкой и анализом больших объемов аудио- и видеоданных. Например, системы распознавания речи могут использоваться для автоматического транскрибирования аудиозаписей, что значительно упрощает и ускоряет работу с большими объемами информации.
Улучшение пользовательского опыта
Распознавание речи может быть использовано для создания удобных и интуитивно понятных пользовательских интерфейсов. Например, голосовые помощники, такие как Siri, Alexa и Google Assistant, позволяют пользователям взаимодействовать с устройствами и приложениями с помощью голосовых команд. Это упрощает и ускоряет выполнение задач и повышает удобство использования.
Распознавание и анализ больших объемов данных
Распознавание речи позволяет анализировать и извлекать информацию из больших объемов аудио- и видеоданных. Например, системы распознавания речи могут использоваться для мониторинга и анализа телефонных разговоров в целях контроля качества обслуживания или для извлечения информации из видеозаписей, таких как лекции или презентации.
Улучшение доступности
Распознавание речи может быть использовано для улучшения доступности информации для людей с ограниченными возможностями. Например, системы распознавания речи могут быть использованы для создания субтитров или транскрипций для людей с проблемами слуха или для перевода речи на другие языки для людей с проблемами общения.
Автоматический анализ и классификация
Распознавание речи позволяет автоматически анализировать и классифицировать речевые данные. Например, системы распознавания речи могут использоваться для автоматического определения эмоционального состояния говорящего или для автоматической идентификации говорящего по голосу.
В целом, распознавание речи с использованием искусственного интеллекта предлагает множество преимуществ и открывает новые возможности в различных областях, таких как коммуникация, образование, медицина, бизнес и многое другое.
Ограничения и вызовы в распознавании речи
Разнообразие языков и акцентов
Одним из основных ограничений в распознавании речи является разнообразие языков и акцентов. Каждый язык имеет свои уникальные особенности и звуковые комбинации, что делает задачу распознавания речи сложной. Кроме того, различные акценты и диалекты могут вносить дополнительные сложности в процесс распознавания.
Шум и фоновые звуки
Распознавание речи может быть затруднено наличием шума и фоновых звуков. Шум может искажать речевые сигналы и делать их менее понятными для системы распознавания. Фоновые звуки, такие как музыка, разговоры или шумы уличной среды, могут также влиять на точность распознавания речи.
Различные голоса и интонации
Каждый человек имеет уникальный голос и интонацию, что может создавать сложности в распознавании речи. Различные голоса, возрастные группы и интонации могут вносить вариации в речевые сигналы, что требует от систем распознавания гибкости и способности адаптироваться к различным голосам и интонациям.
Речь с неправильной произносительной формой
Некоторые люди могут иметь неправильную произносительную форму или речевые особенности, которые могут затруднять распознавание речи. Например, люди с речевыми нарушениями или акцентами могут иметь трудности в распознавании их речи.
Ограниченная доступность обучающих данных
Для эффективного обучения систем распознавания речи требуются большие объемы обучающих данных. Однако, доступность таких данных может быть ограничена, особенно для редких языков или специфических акцентов. Это может затруднять разработку и обучение точных и надежных систем распознавания речи.
Контекст и семантика
Распознавание речи может быть сложным из-за необходимости учитывать контекст и семантику высказывания. Некоторые слова или фразы могут иметь несколько значений в зависимости от контекста, и системы распознавания речи должны быть способны учитывать этот контекст для правильного распознавания.
Все эти ограничения и вызовы требуют от разработчиков систем распознавания речи постоянного совершенствования алгоритмов и методов, а также использования новых технологий, чтобы достичь более точного и надежного распознавания речи.
Таблица по теме “Распознавание речи”
- Используется для автоматического распознавания и интерпретации речи
- Позволяет управлять компьютером голосом и командами
- Имеет широкий спектр применений, включая голосовые помощники, системы транскрипции и многое другое
- Начало в 1950-х годах с использованием статистических моделей
- Развитие нейронных сетей и глубокого обучения в 2010-х годах
- Постоянное совершенствование алгоритмов и техник распознавания речи
- Анализ и обработка акустических сигналов
- Использование языковых моделей для интерпретации речи
- Обучение моделей на больших объемах данных
- Скрытые марковские модели (HMM)
- Рекуррентные нейронные сети (RNN)
- Сверточные нейронные сети (CNN)
- Трансформеры
- Голосовые помощники (например, Siri, Alexa)
- Транскрипция и анализ речи в медицине и правоохранительных органах
- Улучшение доступности для людей с ограниченными возможностями
- Автоматизация и оптимизация бизнес-процессов
- Точность распознавания может быть ниже при наличии шума или акцента
- Необходимость больших объемов данных для обучения моделей
- Проблемы с конфиденциальностью и безопасностью данных
Заключение
Распознавание речи является важной областью искусственного интеллекта, которая позволяет компьютерам понимать и интерпретировать голосовые команды и сообщения. Системы распознавания речи имеют широкий спектр применений, от голосовых помощников до систем автоматического диктования. Они обеспечивают удобство и эффективность взаимодействия с компьютерами и устройствами. Однако, распознавание речи все еще имеет свои ограничения и вызовы, такие как шум, акценты и различные голосовые особенности. Несмотря на это, с развитием искусственного интеллекта, системы распознавания речи становятся все более точными и надежными.
Искусственный интеллект и распознавание речи: основы, принципы работы и применение обновлено: 20 ноября, 2023 автором: Научные Статьи.Ру
Искусственный интеллект в системах распознавания речи Текст научной статьи по специальности «Компьютерные и информационные науки»
Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Фролов В.В., Монастырная В.С.
Рассматривается взаимодействие человека с искусственным интеллектом в системах распознавания речи, его проблемы, пример его работы на примере Siri.
i Надоели баннеры? Вы всегда можете отключить рекламу.
Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Фролов В.В., Монастырная В.С.
Искусственный интеллект как технологическая основа развития банков
Интеллектуальный голосовой помощник Алиса на уроках русского языка как иностранного (уровень а1)
Основные тренды в инновационном развитии финансовых сервисов
Искусственный интеллект в банках сегодня: опыт и перспективы
«Виртуальные собеседники»: перспективы развития телевизионного промодискурса
i Не можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.
ARTIFICIAL INTELLIGENCE IN SPEECH RECOGNITION SYSTEMS
Тhe article examines the interaction of humans with artificial intelligence in speech recognition systems, its problems, how it works on the example of Siri.
Текст научной работы на тему «Искусственный интеллект в системах распознавания речи»
Секция «Информационно-экономические системы»
ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ В СИСТЕМАХ РАСПОЗНАВАНИЯ РЕЧИ
В. В. Фролов, В. С. Монастырная Научный руководитель — Д. В. Тихоненко
Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева
Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31
Рассматривается взаимодействие человека с искусственным интеллектом в системах распознавания речи, его проблемы, пример его работы на примере Siri.
Ключевые слова: искусственный интеллект, обработка естественной речи.
ARTIFICIAL INTELLIGENCE IN SPEECH RECOGNITION SYSTEMS
V. V. Frolov, V. S. Monastyrnaya Scientific Supervisor — D. V. Tkhonenko
Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: pricladnaya.i@yandex.ru
The article examines the interaction of humans with artificial intelligence in speech recognition systems , its problems, how it works on the example of Siri.
Keywords: artificial intelligence, natural speech processing.
Искусственный интеллект (ИИ) — это наука, которая изучает и занимается разработкой интеллектуальных машин, которые, реагируя на поступающую внешнюю информацию, выполняют функции человека.
Каждый человек, который, так или иначе, встречался с системой распознавания речи, задавался вопросом: Как «это» понимает меня и дает мне нужную информацию? Когда мы обращаемся к компьютеру (приложению) данного типа, он выполняет огромную работу, которую можно разделить на следующие пункты:
1. Компьютер улавливает колебания воздуха. Речь человека вызывает звук, а звук вызывает изменение движения воздуха, которые компьютер и должен уловить. Когда колеблющийся воздух попадает на чувствительный элемент — барабанную перепонку или микрофон, — он генерирует электрический сигнал благодаря особому устройству этих элементов.
2. Вычисляет из общего шума полезный сигнал (отделяет помехи от голоса). До этого этапа компьютер не может различить помехи и речь — для него они идентичны — набор электрических импульсов. Однако человеческий голос имеет своеобразные характеристики — частоту, высоту, повторение звуков. Применяя математический анализ к имеющимся звуковым данным, можно разделить шум и речь. Но так как помехи часто имеют те же характеристики, что и голос, задача разделения оказывается очень сложной и не всегда успешной. 3. Компьютер анализирует цифровой сигнал и строит осмысленную фразу за счет распознания каждого звука и перевода его в понятную для компьютера цифровую форму. 4. Компьютер начинает «играть» с полученными цифровыми звуками, как с кубиком Рубика, пытаясь построить осмысленную фразу, за счет своих доступных алгоритмов: Из имеющихся звуков он старается построить несколько фраз и из них выбирает наиболее подходящую по смыслу. 5. Компьютер выстроил осмысленную фразу и начинает выполнять команду [1-3].
Например, компьютер получает информацию в виде фраз: «Какая завтра будет погода?» и «Какая завтра будет погода» для него эти фразы будут абсолютно идентичны, но вторая не пройдет 4 и 5 пунктов анализа.
Актуальные проблемы авиации и космонавтики — 2016. Том 2
Одной и самой серьезной проблемой является сложность в понимании. Качества понимания зависит от самого языка и качества речи человека. Помимо проблемы, описанной выше, существуют следующие:
1. Сложность с пониманием того, что имеется ввиду при использованием конкретно местоимений. Например: фразы «Я отдал бананы обезьянам, потому что они были голодные» и «Я отдал бананы обезьянам, потому что они были испорченные « похожи по синтаксической структуре. Понимание этих фраз зависит от знаний компьютера в области обезьян и бананов. 2. Свободный порядок слов, который вызывает дополнительные проблемы в распознавании речи. Например: «Бытие определяет сознание» — что? (грубо говоря, такая реакция возникает у компьютера).
Каждый обладатель продукции Apple встречался с этой программой. Siri — это самая последняя и совершенная разработка искусственного интеллекта в мире. — так о Siri пишет Apple. Данное приложение использует обработку естественной речи(которая была описана выше), чтобы отвечать на вопросы и давать рекомендации. Siri приспосабливается к каждому пользователю индивидуально, изучая его предпочтения в течение долгого времени. Основные возможности:
— управление смартфоном (Установить будильник и т. п.);
— рекомендация ресторанов, фильмов , а также их бронирование;
— писать в twitter. Facebook;
— указание и построение маршрута и др.;
— ответы на любые вопросы;
— Siri — собеседник, советчик [2-5].
Задав вопрос, он отравляется на сервера Apple, где обрабатывается и направляется к соответствующему сервису. Такому как Google и Bing и не только. Например, для деловых вопросов используются Open Table, Yahoo Local, ReserveTravel и Localeze. Для поиска информации о мероприятиях Siri обращается к Eventful и LiveKick. Если спрашивать Siri о фильмах, то она отвечает, используя информацию с MovieTickets.com и The New York Times. Таким образом, голосовой ассистент от Apple справится с большинством повседневных вопросов, но ключевой особенностью является то, что Siri работает с WolframAlpha.WolframAlpha позволяет Siri давать ответы на самые трудные вопросы, так как это не поисковая система. WolframAlpha позиционирует себя, как: база знаний и набор вычислительных алгоритмов [5].
Благодаря всему вышеперечисленному, Siri удается понимать речь человека и его вопросы, которые он задает в достаточно свободной форме, а не конкретные команды. На презентации в пример приводили вопрос: «Стоит ли мне сегодня взять зонтик». Siri анализирует вопрос и понимает, что ей нужно ответить — какая погода ожидается в этой местности.
Человеку предстоит проделать еще очень долгий и тяжелый путь для усовершенствования Искусственного интеллекта во всех сферах и в сфере распознавания речи в том числе. Система распознавания речи внедряется в нашу жизнь все больше и больше: компьютеры, смартфоны, автомобили, системы безопасности — это лишь малая часть применения ИИ в данной сфере. За этим стоит будущее, изменение и упрощение жизни человека, нужно лишь не переставать направлять все это в нужное русло.
1. Стюарт Рассел/ Питер Норвиг. Artificial Intelligence: A Modern Approach (Искусственный интеллект: современный подход). 2015. 1408 с.
2. Новый век [Электронный ресурс]. URL: http://yvek.ru/ (дата обращения: 06.04.2016).
3. Журнал «Достижения науки, техники и культуры» [Электронный ресурс]. URL: http://scorcher.ru/journal/art/art1449.php (дата обращения: 06.04.2016).
4. Apple [Электронный ресурс]. URL: http://www.apple.com/ru/ios/whats-new/ (дата обращения: 06.04.2016).
© Фролов В. В., Монастырная В. С., 2016