Как сделать голосового помощника на python

Python: как создать простейшего голосового помощника?

Для создания голосового помощника не нужно обладать большими знаниями в программировании, главное понимать каким функционалом он должен владеть. Многие компании создают их на первой линии связи с клиентом для удобства, оптимизации рабочих процессов и наилучшей классификации звонков.

В данной статье представлена программа, которая может стать основой для Вашего собственного чат-бота, а если точнее – голосового помощника для распознавания голоса и последующего выполнения команд. С ее помощью мы сможем понять принцип работы наиболее часто встречаемых голосовых помощников.

Для начала объявим необходимые нам библиотеки:

#Необходимые библиотеки import speech_recognition as sr import os import sys import webbrowser import pyttsx3 as p from datetime import datetime import time import datetime import random

Также не забудем вести лог файл, который понадобится нам, если же мы все-таки решим улучшить бота для работы с нейронной сетью. Многие компании использую нейронную сеть в своих голосовых помощниках для понимания эмоций клиента и соответствующего реагирования на них. Также стоит не забывать, что с помощью анализа логов, мы сможем понять слабые места алгоритма бота и улучшить взаимодействие с клиентами.

#Создаем лог chat_log = [[‘SESSION_ID’, ‘DATE’, ‘AUTHOR’, ‘TEXT’, ‘AUDIO_NUM’]] #Узнаем номер сессии i = 1 exit = 0 while exit == 0: session_id = str(i) if session_id not in os.listdir(): os.mkdir(session_id) exit = 1 else: i = i + 1 #Первое сообщение пишет bot author = ‘Bot’ text = ‘Привет! Чем я могу вам помочь?’

В лог файл мы записываем время сообщения, автора (бот или пользователь) и собственно сам сказанный текст.

#Добавляем данные к логу с помощью этой процедуры def log_me(author, text, audio): now = datetime.datetime.now() i = 1 exit = 0 while exit == 0: audio_num = str(i)+’.wav’ if audio_num not in os.listdir(session_id): exit = 1 else: i = i + 1 os.chdir(session_id) with open(audio_num , «wb») as file: file.write(audio.get_wav_data()) chat_log.append([now.strftime(«%Y-%m-%d %H:%M:%S»), author, text, audio_num])

Выводим первое сообщение за авторством бота: Привет! Чем я могу вам помочь?

# Выводим первое сообщение на экран и записываем в лог print(«Bot: «+ text) log_me(author, text, audio)

А с помощью такой процедуры в Jupyter Notebook мы можем озвучить через устройство воспроизведения, настроенное по умолчанию, сказанные слова:

#Произношение words def talk(words): engine.say(words) engine.runAndWait()

Как озвучивать текст мы рассмотрели выше, но как же мы свой голос сможем превратить в текст? Тут нам поможет распознавание речи от Google и некоторые манипуляции с микрофоном.

#Настройка микрофона def command(): rec = sr.Recognizer() with sr.Microphone() as source: #Бот ожидает нашего голоса print(‘Bot: . ‘) #Небольшая задержка в записи rec.pause_threshold = 1 #Удаление фонового шума с записи rec.adjust_for_ambient_noise(source, duration=1) audio = rec.listen(source) try: #Распознание теста с помощью сервиса GOOGLE text = rec.recognize_google(audio, language=»ru-RU»).lower() #Вывод сказанного текста на экран print(‘Вы: ‘ + text[0].upper() + text[1:]) log_me(‘User’, text, audio) #Если не распознался тест из аудио except sr.UnknownValueError: text = ‘Не понимаю. Повторите.’ print(‘Bot: ‘ + text) talk(text) #Начинаем заново слушать text = command() log_me(‘Bot’, text, , Null) return text

Что может сделать наш помощник кроме того, чтобы нас слушать? Все ограничено нашей фантазией! Рассмотрим несколько интересный примеров.

Начнем с простого, пусть при команде открыть сайт – он откроет сайт (не ожидали?).

#Тут расписаны действия, которые будут выполнятся при наличии некоторых словосочетаний def makeSomething(text): if ‘открой сайт’ in text: print(‘Bot: Открываю сайт NewTechAudit.’) talk(‘Открываю сайт NewTechAudit.’) log_me(‘Bot’,’Открываю сайт NewTechAudit.’, Null) webbrowser.open(‘https://newtechaudit.ru/’)

Иногда полезно послушать свои слова, да чужими устами. Пусть бот еще умеет и повторять за нами:

#Повторение фразы пользователя elif ‘произнеси’ in text or ‘скажи’ in text or ‘повтори’ in text: print(‘Bot: ‘ + text[10].upper() + text[11:]) talk(text[10:]) log_me(‘Bot’, text[10].upper() + text[11:] , Null)

Пусть еще и собеседником будет, но начнем мы пока только со знакомства:

#Ответ на вопрос elif ‘своё имя’ in text or ‘как тебя зовут’ in text or ‘назови себя’ in text: print(‘Bot: Меня зовут Bot.’) talk(‘Меня зовут Bot’) log_me(‘Bot’, ‘Меня зовут Bot’, Null)

Мы также можем попросить голосового помощника назвать случайное число в выбранных нами пределах в формате: Назови случайное число от (1ое число) до (2ое число).

#Определение случайного числа elif ‘случайное число’ in text: ot=text.find(‘от’) do=text.find(‘до’) f_num=int(text[ot+3:do-1]) l_num=int(text[do+3:]) r=str(random.randint(f_num, l_num)) print(‘Bot: ‘ + r) talk(r) log_me(‘Bot’, r, Null)

Для того, чтобы завершить программу, достаточно только попрощаться с ботом:

#Завершение программы elif ‘пока’ in text or ‘до свидания’ in text: print(‘Bot: До свидания!’) talk(‘До свидания’) log_me(‘Bot’, ‘Конец сессии’, Null) os.chdir(session_id) log_file = open( session_id + «.txt», «w») for row in chat_log: np.savetxt(log_file, row) log_file.close() sys.exit()

А чтобы все это работало беспрерывно, мы создаем бесконечный цикл.

#Бесконечный цикл для работы while True: makeSomething(command())

Проведем тестовый диалог:

Пишем голосового ассистента на Python

Технологии в области машинного обучения за последний год развиваются с потрясающей скоростью. Всё больше компаний делятся своими наработками, тем самым открывая новые возможности для создания умных цифровых помощников.

В рамках данной статьи я хочу поделиться своим опытом реализации голосового ассистента и предложить вам несколько идей для того, чтобы сделать его ещё умнее и полезнее.

Что умеет мой голосовой ассистент?

Описание умения	Работа в offline-режиме	Требуемые зависимости
Распознавать и синтезировать речь	Поддерживается	pip install PyAudio (использование микрофона)

pip install pyttsx3 (синтез речи)

Для распознавания речи можно выбрать одну или взять обе:

pip install SpeechRecognition (высокое качество online-распознавания, множество языков)
pip install vosk (высокое качество offline-распознавания, меньше языков)

Шаг 1. Обработка голосового ввода

Начнём с того, что научимся обрабатывать голосовой ввод. Нам потребуется микрофон и пара установленных библиотек: PyAudio и SpeechRecognition.

Подготовим основные инструменты для распознавания речи:

import speech_recognition if __name__ == "__main__": # инициализация инструментов распознавания и ввода речи recognizer = speech_recognition.Recognizer() microphone = speech_recognition.Microphone() while True: # старт записи речи с последующим выводом распознанной речи voice_input = record_and_recognize_audio() print(voice_input)

Теперь создадим функцию для записи и распознавания речи. Для онлайн-распознавания нам потребуется Google, поскольку он имеет высокое качество распознавания на большом количестве языков.

def record_and_recognize_audio(*args: tuple): """ Запись и распознавание аудио """ with microphone: recognized_data = "" # регулирование уровня окружающего шума recognizer.adjust_for_ambient_noise(microphone, duration=2) try: print("Listening. ") audio = recognizer.listen(microphone, 5, 5) except speech_recognition.WaitTimeoutError: print("Can you check if your microphone is on, please?") return # использование online-распознавания через Google try: print("Started recognition. ") recognized_data = recognizer.recognize_google(audio, language="ru").lower() except speech_recognition.UnknownValueError: pass # в случае проблем с доступом в Интернет происходит выброс ошибки except speech_recognition.RequestError: print("Check your Internet Connection, please") return recognized_data

А что делать, если нет доступа в Интернет? Можно воспользоваться решениями для offline-распознавания. Мне лично безумно понравился проект Vosk.

На самом деле, необязательно внедрять offline-вариант, если он вам не нужен. Мне просто хотелось показать оба способа в рамках статьи, а вы уже выбирайте, исходя из своих требований к системе (например, по количеству доступных языков распознавания бесспорно лидирует Google).

Теперь, внедрив offline-решение и добавив в проект нужные языковые модели, при отсутствии доступа к сети у нас автоматически будет выполняться переключение на offline-распознавание.

Замечу, что для того, чтобы не нужно было два раза повторять одну и ту же фразу, я решила записывать аудио с микрофона во временный wav-файл, который будет удаляться после каждого распознавания.

Таким образом, полученный код выглядит следующим образом:

Полный код для работы распознавания речи

from vosk import Model, KaldiRecognizer # оффлайн-распознавание от Vosk import speech_recognition # распознавание пользовательской речи (Speech-To-Text) import wave # создание и чтение аудиофайлов формата wav import json # работа с json-файлами и json-строками import os # работа с файловой системой def record_and_recognize_audio(*args: tuple): """ Запись и распознавание аудио """ with microphone: recognized_data = "" # регулирование уровня окружающего шума recognizer.adjust_for_ambient_noise(microphone, duration=2) try: print("Listening. ") audio = recognizer.listen(microphone, 5, 5) with open("microphone-results.wav", "wb") as file: file.write(audio.get_wav_data()) except speech_recognition.WaitTimeoutError: print("Can you check if your microphone is on, please?") return # использование online-распознавания через Google try: print("Started recognition. ") recognized_data = recognizer.recognize_google(audio, language="ru").lower() except speech_recognition.UnknownValueError: pass # в случае проблем с доступом в Интернет происходит попытка # использовать offline-распознавание через Vosk except speech_recognition.RequestError: print("Trying to use offline recognition. ") recognized_data = use_offline_recognition() return recognized_data def use_offline_recognition(): """ Переключение на оффлайн-распознавание речи :return: распознанная фраза """ recognized_data = "" try: # проверка наличия модели на нужном языке в каталоге приложения if not os.path.exists("models/vosk-model-small-ru-0.4"): print("Please download the model from:\n" "https://alphacephei.com/vosk/models and unpack as 'model' in the current folder.") exit(1) # анализ записанного в микрофон аудио (чтобы избежать повторов фразы) wave_audio_file = wave.open("microphone-results.wav", "rb") model = Model("models/vosk-model-small-ru-0.4") offline_recognizer = KaldiRecognizer(model, wave_audio_file.getframerate()) data = wave_audio_file.readframes(wave_audio_file.getnframes()) if len(data) > 0: if offline_recognizer.AcceptWaveform(data): recognized_data = offline_recognizer.Result() # получение данных распознанного текста из JSON-строки # (чтобы можно было выдать по ней ответ) recognized_data = json.loads(recognized_data) recognized_data = recognized_data["text"] except: print("Sorry, speech service is unavailable. Try again later") return recognized_data if __name__ == "__main__": # инициализация инструментов распознавания и ввода речи recognizer = speech_recognition.Recognizer() microphone = speech_recognition.Microphone() while True: # старт записи речи с последующим выводом распознанной речи # и удалением записанного в микрофон аудио voice_input = record_and_recognize_audio() os.remove("microphone-results.wav") print(voice_input)

Возможно, вы спросите «А зачем поддерживать offline-возможности?»

Я считаю, что всегда стоит учитывать, что пользователь может быть отрезан от сети. В таком случае, голосовой ассистент всё еще может быть полезным, если использовать его как разговорного бота или для решения ряда простых задач, например, посчитать что-то, порекомендовать фильм, помочь сделать выбор кухни, сыграть в игру и т.д.

Шаг 2. Конфигурация голосового ассистента

Поскольку наш голосовой ассистент может иметь пол, язык речи, ну и по классике, имя, то давайте выделим под эти данные отдельный класс, с которым будем работать в дальнейшем.

Для того, чтобы задать нашему ассистенту голос, мы воспользуемся библиотекой для offline-синтеза речи pyttsx3. Она автоматически найдет голоса, доступные для синтеза на нашем компьютере в зависимости от настроек операционной системы (поэтому, возможно, что у вас могут быть доступны другие голоса и вам нужны будут другие индексы).

Также добавим в в main-функцию инициализацию синтеза речи и отдельную функцию для её проигрывания. Чтобы убедиться, что всё работает, сделаем небольшую проверку на то, что пользователь с нами поздоровался, и выдадим ему обратное приветствие от ассистента:

Полный код основы голосового ассистента (синтез и распознавание речи)

from vosk import Model, KaldiRecognizer # оффлайн-распознавание от Vosk import speech_recognition # распознавание пользовательской речи (Speech-To-Text) import pyttsx3 # синтез речи (Text-To-Speech) import wave # создание и чтение аудиофайлов формата wav import json # работа с json-файлами и json-строками import os # работа с файловой системой class VoiceAssistant: """ Настройки голосового ассистента, включающие имя, пол, язык речи """ name = "" sex = "" speech_language = "" recognition_language = "" def setup_assistant_voice(): """ Установка голоса по умолчанию (индекс может меняться в зависимости от настроек операционной системы) """ voices = ttsEngine.getProperty("voices") if assistant.speech_language == "en": assistant.recognition_language = "en-US" if assistant.sex == "female": # Microsoft Zira Desktop - English (United States) ttsEngine.setProperty("voice", voices[1].id) else: # Microsoft David Desktop - English (United States) ttsEngine.setProperty("voice", voices[2].id) else: assistant.recognition_language = "ru-RU" # Microsoft Irina Desktop - Russian ttsEngine.setProperty("voice", voices[0].id) def play_voice_assistant_speech(text_to_speech): """ Проигрывание речи ответов голосового ассистента (без сохранения аудио) :param text_to_speech: текст, который нужно преобразовать в речь """ ttsEngine.say(str(text_to_speech)) ttsEngine.runAndWait() def record_and_recognize_audio(*args: tuple): """ Запись и распознавание аудио """ with microphone: recognized_data = "" # регулирование уровня окружающего шума recognizer.adjust_for_ambient_noise(microphone, duration=2) try: print("Listening. ") audio = recognizer.listen(microphone, 5, 5) with open("microphone-results.wav", "wb") as file: file.write(audio.get_wav_data()) except speech_recognition.WaitTimeoutError: print("Can you check if your microphone is on, please?") return # использование online-распознавания через Google # (высокое качество распознавания) try: print("Started recognition. ") recognized_data = recognizer.recognize_google(audio, language="ru").lower() except speech_recognition.UnknownValueError: pass # в случае проблем с доступом в Интернет происходит # попытка использовать offline-распознавание через Vosk except speech_recognition.RequestError: print("Trying to use offline recognition. ") recognized_data = use_offline_recognition() return recognized_data def use_offline_recognition(): """ Переключение на оффлайн-распознавание речи :return: распознанная фраза """ recognized_data = "" try: # проверка наличия модели на нужном языке в каталоге приложения if not os.path.exists("models/vosk-model-small-ru-0.4"): print("Please download the model from:\n" "https://alphacephei.com/vosk/models and unpack as 'model' in the current folder.") exit(1) # анализ записанного в микрофон аудио (чтобы избежать повторов фразы) wave_audio_file = wave.open("microphone-results.wav", "rb") model = Model("models/vosk-model-small-ru-0.4") offline_recognizer = KaldiRecognizer(model, wave_audio_file.getframerate()) data = wave_audio_file.readframes(wave_audio_file.getnframes()) if len(data) > 0: if offline_recognizer.AcceptWaveform(data): recognized_data = offline_recognizer.Result() # получение данных распознанного текста из JSON-строки # (чтобы можно было выдать по ней ответ) recognized_data = json.loads(recognized_data) recognized_data = recognized_data["text"] except: print("Sorry, speech service is unavailable. Try again later") return recognized_data if __name__ == "__main__": # инициализация инструментов распознавания и ввода речи recognizer = speech_recognition.Recognizer() microphone = speech_recognition.Microphone() # инициализация инструмента синтеза речи ttsEngine = pyttsx3.init() # настройка данных голосового помощника assistant = VoiceAssistant() assistant.name = "Alice" assistant.sex = "female" assistant.speech_language = "ru" # установка голоса по умолчанию setup_assistant_voice() while True: # старт записи речи с последующим выводом распознанной речи # и удалением записанного в микрофон аудио voice_input = record_and_recognize_audio() os.remove("microphone-results.wav") print(voice_input) # отделение комманд от дополнительной информации (аргументов) voice_input = voice_input.split(" ") command = voice_input[0] if command == "привет": play_voice_assistant_speech("Здравствуй")

На самом деле, здесь бы хотелось самостоятельно научиться писать синтезатор речи, однако моих знаний здесь не будет достаточно. Если вы можете подсказать хорошую литературу, курс или интересное документированное решение, которое поможет разобраться в этой теме глубоко — пожалуйста, напишите в комментариях.

Шаг 3. Обработка команд

Теперь, когда мы «научились» распознавать и синтезировать речь с помощью просто божественных разработок наших коллег, можно начать изобретать свой велосипед для обработки речевых команд пользователя 😀

В моём случае я использую мультиязычные варианты хранения команд, поскольку у меня в демонстрационном проекте не так много событий, и меня устраивает точность определения той или иной команды. Однако, для больших проектов я рекомендую разделить конфигурации по языкам.

Для хранения команд я могу предложить два способа.

1 способ

Можно использовать прекрасный JSON-подобный объект, в котором хранить намерения, сценарии развития, ответы при неудавшихся попытках (такие часто используются для чат-ботов). Выглядит это примерно вот так:

config = < "intents": < "greeting": < "examples": ["привет", "здравствуй", "добрый день", "hello", "good morning"], "responses": play_greetings >, "farewell": < "examples": ["пока", "до свидания", "увидимся", "до встречи", "goodbye", "bye", "see you soon"], "responses": play_farewell_and_quit >, "google_search": < "examples": ["найди в гугл", "search on google", "google", "find on google"], "responses": search_for_term_on_google >, >, "failure_phrases": play_failure_phrase >

Такой вариант подойдёт тем, кто хочет натренировать ассистента на то, чтобы он отвечал на сложные фразы. Более того, здесь можно применить NLU-подход и создать возможность предугадывать намерение пользователя, сверяя их с теми, что уже есть в конфигурации.

Подробно этот способ мы его рассмотрим на 5 шаге данной статьи. А пока обращу ваше внимание на более простой вариант

2 способ

Можно взять упрощенный словарь, у которого в качестве ключей будет hashable-тип tuple (поскольку словари используют хэши для быстрого хранения и извлечения элементов), а в виде значений будут названия функций, которые будут выполняться. Для коротких команд подойдёт вот такой вариант:

commands =

Для его обработки нам потребуется дополнить код следующим образом:

def execute_command_with_name(command_name: str, *args: list): """ Выполнение заданной пользователем команды с дополнительными аргументами :param command_name: название команды :param args: аргументы, которые будут переданы в функцию :return: """ for key in commands.keys(): if command_name in key: commands[key](*args) else: pass # print("Command not found") if __name__ == "__main__": # инициализация инструментов распознавания и ввода речи recognizer = speech_recognition.Recognizer() microphone = speech_recognition.Microphone() while True: # старт записи речи с последующим выводом распознанной речи # и удалением записанного в микрофон аудио voice_input = record_and_recognize_audio() os.remove("microphone-results.wav") print(voice_input) # отделение комманд от дополнительной информации (аргументов) voice_input = voice_input.split(" ") command = voice_input[0] command_options = [str(input_part) for input_part in voice_input[1:len(voice_input)]] execute_command_with_name(command, command_options)

В функции будут передаваться дополнительные аргументы, сказанные после командного слова. То есть, если сказать фразу «видео милые котики«, команда «видео» вызовет функцию search_for_video_on_youtube() с аргументом «милые котики» и выдаст вот такой результат:

Пример такой функции с обработкой входящих аргументов:

def search_for_video_on_youtube(*args: tuple): """ Поиск видео на YouTube с автоматическим открытием ссылки на список результатов :param args: фраза поискового запроса """ if not args[0]: return search_term = " ".join(args[0]) url = "https://www.youtube.com/results?search_query=" + search_term webbrowser.get().open(url) # для мультиязычных голосовых ассистентов лучше создать # отдельный класс, который будет брать перевод из JSON-файла play_voice_assistant_speech("Here is what I found for " + search_term + "on youtube")

Ну вот и всё! Основной функционал бота готов. Далее вы можете до бесконечности улучшать его различными способами. Моя реализация с подробными комментариями доступна на моём GitHub.

Ниже мы рассмотрим ряд улучшений, чтобы сделать нашего ассистента ещё умнее.

Шаг 4. Добавление мультиязычности

Чтобы научить нашего ассистента работать с несколькими языковыми моделями, будет удобнее всего организовать небольшой JSON-файл с простой структурой:

< "Can you check if your microphone is on, please?": < "ru": "Пожалуйста, проверь, что микрофон включен", "en": "Can you check if your microphone is on, please?" >, "What did you say again?": < "ru": "Пожалуйста, повтори", "en": "What did you say again?" >, >

В моём случае я использую переключение между русским и английским языком, поскольку мне для этого доступны модели для распознавания речи и голоса для синтеза речи. Язык будет выбран в зависимости от языка речи самого голосового ассистента.

Для того, чтобы получать перевод мы можем создать отдельный класс с методом, который будет возвращать нам строку с переводом:

class Translation: """ Получение вшитого в приложение перевода строк для создания мультиязычного ассистента """ with open("translations.json", "r", encoding="UTF-8") as file: translations = json.load(file) def get(self, text: str): """ Получение перевода строки из файла на нужный язык (по его коду) :param text: текст, который требуется перевести :return: вшитый в приложение перевод текста """ if text in self.translations: return self.translations[text][assistant.speech_language] else: # в случае отсутствия перевода происходит вывод сообщения # об этом в логах и возврат исходного текста print(colored("Not translated phrase: <>".format(text), "red")) return text

В main-функции до цикла объявим наш переводчик таким образом: translator = Translation()

Теперь при проигрывании речи ассистента мы сможем получить перевод следующим образом:

play_voice_assistant_speech(translator.get( "Here is what I found for <> on Wikipedia").format(search_term))

Как видно из примера выше, это работает даже для тех строк, которые требуют вставки дополнительных аргументов. Таким образом можно переводить «стандартные» наборы фраз для ваших ассистентов.

Шаг 5. Немного машинного обучения

А теперь вернёмся к характерному для большинства чат-ботов варианту с JSON-объектом для хранения команд из нескольких слов, о котором я упоминала в пункте 3. Он подойдёт для тех, кто не хочет использовать строгие команды и планирует расширить понимание намерений пользователя, используя NLU-методы.

Грубо говоря, в таком случае фразы «добрый день«, «добрый вечер» и «доброе утро» будут считаться равнозначными. Ассистент будет понимать, что во всех трёх случаях намерением пользователя было поприветствовать своего голосового помощника.

С помощью данного способа вы также сможете создать разговорного бота для чатов либо разговорный режим для вашего голосового ассистента (на случаи, когда вам нужен будет собеседник).

Для реализации такой возможности нам нужно будет добавить пару функций:

def prepare_corpus(): """ Подготовка модели для угадывания намерения пользователя """ corpus = [] target_vector = [] for intent_name, intent_data in config["intents"].items(): for example in intent_data["examples"]: corpus.append(example) target_vector.append(intent_name) training_vector = vectorizer.fit_transform(corpus) classifier_probability.fit(training_vector, target_vector) classifier.fit(training_vector, target_vector) def get_intent(request): """ Получение наиболее вероятного намерения в зависимости от запроса пользователя :param request: запрос пользователя :return: наиболее вероятное намерение """ best_intent = classifier.predict(vectorizer.transform([request]))[0] index_of_best_intent = list(classifier_probability.classes_).index(best_intent) probabilities = classifier_probability.predict_proba(vectorizer.transform([request]))[0] best_intent_probability = probabilities[index_of_best_intent] # при добавлении новых намерений стоит уменьшать этот показатель if best_intent_probability > 0.57: return best_intent

А также немного модифицировать main-функцию, добавив инициализацию переменных для подготовки модели и изменив цикл на версию, соответствующую новой конфигурации:

# подготовка корпуса для распознавания запросов пользователя с некоторой вероятностью # (поиск похожих) vectorizer = TfidfVectorizer(analyzer="char", ngram_range=(2, 3)) classifier_probability = LogisticRegression() classifier = LinearSVC() prepare_corpus() while True: # старт записи речи с последующим выводом распознанной речи # и удалением записанного в микрофон аудио voice_input = record_and_recognize_audio() if os.path.exists("microphone-results.wav"): os.remove("microphone-results.wav") print(colored(voice_input, "blue")) # отделение команд от дополнительной информации (аргументов) if voice_input: voice_input_parts = voice_input.split(" ") # если было сказано одно слово - выполняем команду сразу # без дополнительных аргументов if len(voice_input_parts) == 1: intent = get_intent(voice_input) if intent: config["intents"][intent]["responses"]() else: config["failure_phrases"]() # в случае длинной фразы - выполняется поиск ключевой фразы # и аргументов через каждое слово, # пока не будет найдено совпадение if len(voice_input_parts) > 1: for guess in range(len(voice_input_parts)): intent = get_intent((" ".join(voice_input_parts[0:guess])).strip()) if intent: command_options = [voice_input_parts[guess:len(voice_input_parts)]] config["intents"][intent]["responses"](*command_options) break if not intent and guess == len(voice_input_parts)-1: config["failure_phrases"]()

Однако, такой способ сложнее контролировать: он требует постоянной проверки того, что та или иная фраза всё ещё верно определяется системой как часть того или иного намерения. Поэтому данным способом стоит пользоваться с аккуратностью (либо экспериментировать с самой моделью).

Заключение

На этом мой небольшой туториал подошёл к концу.

Мне будет приятно, если вы поделитесь со мной в комментариях известными вам open-source решениями, которые можно внедрить в данный проект, а также вашими идеями касательно того, какие ещё online и offline-функции можно реализовать.

Документированные исходники моего голосового ассистента в двух вариантах можно найти здесь.

P.S: решение работает на Windows, Linux и MacOS с незначительными различиями при установке библиотек PyAudio и Google.

Кстати, тех, кто планирует строить карьеру в IT, я буду рада видеть на своём YouTube-канале IT DIVA. Там вы сможете найти видео по тому, как оформлять GitHub, проходить собеседования, получать повышение, справляться с профессиональным выгоранием, управлять разработкой и т.д.

голосовой ассистент
python
offline
мультиязычный
natural language understanding

Python
Машинное обучение
Разработка под Windows
Голосовые интерфейсы

Как создать голосового ассистента

В данной статье я расскажу, как можно сделать простого голосового ассистента. Все это мы будем делать в Python при помощи некоторых библиотек, которые я приведу позже.

С чего начать?

Начнем с подбора нужных нам библиотек. Ниже я покажу и расскажу для чего они необходимы.

Распознавание речи

Нам понадобится speech_recognition. Данная библиотека используется для распознавания речи говорящего.

import speech_recognition sr = speech_recognition.Recognizer() sr.pause_threshold=0.5 # создаем паузу, после которой ассистент примет нашу команду def listen_comand(): try: with speech_recognition.Microphone() as mic: sr.adjust_for_ambient_noise(source=mic, duration=0.5) audio = sr.listen(source=mic) query = sr.recognize_google(audio_data=audio, language='ru-RU').lower() print(query) except speech_recognition.UnknownValueError: return 'Я не понял что ты сказал' def main(): query = listen_comand() if __name__=='__main__': main()

Данный код позволяет проверить, понимает ли нас программа или нет. Итогом работы данного кода будет выведение слов, которые вы сказали. После поверки нам необходимо будет заменить «print» на «return», чтобы добавить работу с командами.

Команды для ассистента

Нам необходимо сделать список слов(команд), на которые будет реагировать наш помощник.

Сделаем мы это так

commands_dict = < 'commands':< 'search_for_information_on_google': ['искать', 'гугл', 'найди' ,'найти'] >>

позже мы будем его дополнять. Но нужно не забыть про изменения в коде. В функцию «main» добавим пару строчек, которые позволят взаимодействовать с командами.

 def main(): query = listen_comand() for k, v in commands_dict['commands'].items(): if query in v: print(globals()[k]())

Поиск в Google

Я решил сразу показать вам , как сделать так, чтобы голосовой ассистент мог искать в браузере то,что вам необходимо. Для начала нам нужно будет импортировать модуль — webbrowser. Он поможет нам для работы с браузером. Создаем новую функцию, которую назовем «search_for_information_on_google».

def search_for_information_on_google(): print('что надо найти?') try: with speech_recognition.Microphone() as mic: sr.adjust_for_ambient_noise(source=mic, duration=0.5) audio = sr.listen(source=mic) search_term = sr.recognize_google(audio_data=audio, language='ru-RU').lower() except speech_recognition.UnknownValueError: return 'Я не понял что ты сказал' url = f"https://www.google.com/search?q=" browser.open(url) return 'Открываю'

Если на вашем компьютере много браузеров, то у вас может открываться браузер, которым вы не пользуетесь. Для исправления данной проблемы нужно написать всего одну строчку кода. Вы можете выбрать любой браузер, просто надо указать путь до него.

browser = webbrowser.get('C:/Program Files/Mozilla Firefox/firefox.exe %s')

Поиск видео в YouTube

Делается это все как и с поиском в гугле, просто нужно заменить пару строк. Во-первых, заменить название функции ,например «search_for_video_on_youtube()». Заменить url.

url = f"https://www.youtube.com/results?search_query="

А в список команд добавить новые слова.

commands_dict = < 'commands':< 'search_for_information_on_google': ['искать', 'гугл', 'найди' ,'найти'], 'search_for_video_on_youtube': ["video", "youtube", "watch", "видео" ,'ютуб'] >>

Вот наш ассистент уже умеет искать то,что нам надо.

Что можно добавить еще?

Добавить вы можете что хотите. Я вам покажу как добавить время, погоду и открытые программ с компьютера.

Чтобы наш помощник мог говорить нам погоду, время необходимо добавить библиотеку pyowm и модуль datetime.

from pyowm import OWM

Далее сделаем так, чтобы он выдавал нам погоду и время из нашего города.

def weather(): owm = OWM('78fc9cb466b4aa6945d253a266eec9b5') manager = owm.weather_manager() place = manager.weather_at_place("Moscow ,RU") res = place.weather value = int(res.temperature('celsius')['temp']) return f'In Moscow ' def clock(): time_checker = datetime.datetime.now().strftime("%H:%M") return f'Now '

Если вы хотите добавить в своего ассистента возможность открывать программы на вашем компьютере ,то нам необходимо добавить модуль os.

import os

Покажу вам пример открытия Paint. Не забываем добавиь в список команд слова, которые будут отправлять нас к функции.

def open_paint(): os.startfile(r'C:\Windows\System32\mspaint.exe') return 'open paint'

Доработка

Наш голосовой помощник почти готов. Хотелось бы еще добавить озвучку, бесконечный цикл и возможность прекращения его работы командой .

Для озвучки вам нужно добавить библиотеку «pyttsx3»

import pyttsx3 engine = pyttsx3.init() engine.say('любой текст') engine.runAndWait()

Если хотите, вы можете настроить скорость, пол диктора и язык.

Для бесконечного цикла изменим «main».

def main(): while True: query = listen_comand() for k, v in commands_dict['commands'].items(): if query in v: print(globals()[k]())

Чтобы мы могли его отключить командой в команды добавим нужные слова и создадим функцию.

def bye_albertich(): engine.say('bye, see yoa soon') print('bye, see you soon') engine.runAndWait() engine.stop() quit()

Финал

Ну вот и все, я показал вам ,как можно сделать простейшего голосового ассистента на Python. Надеюсь данная статья будет кому-то полезна. Если хотите, можете писать в комментариях, как улучшить данный код.

голосовой помощник
голосовой ассистент
голосовое управление

Есть ли какая нибудь библиотека для создание голосового помощника на python?

Есть ли какая-нибудь библиотека для создания голосового помощника на python? Только я хочу, чтобы эта библиотека работала с наушниками, а не с микрофоном. Т.е. хочу сделать так, чтобы можно было командовать с наушника, а не по микро.

Отслеживать
задан 12 фев 2023 в 6:22
83 11 11 бронзовых знаков
speech_recognition вроде так.
12 фев 2023 в 7:19

2 ответа 2

Сортировка: Сброс на вариант по умолчанию

О том, как обрабатывать речь на Python, рассказывается в этой статье. В принципе документации и статей в интернете по работе с модулем SpeechRecognition очень много, в этом случае уже ваш простор фантазии — документация вам расскажет куда больше, чем я.

Касательно выбора микрофона, с которого модуль будет слушать вас — это настраивается при инициализации speech_recognition.Microphone(device_index=N) . Здесь N — индекс девайса, который можно получить, просмотрев полный список подключенных микрофонов в speech_recognition.Microphone.list_microphone_names() .