Przetwarzanie mowy na tekst za pomocą Web Speech API


26 października 2020 / Michał Kortas


Zaciekawiły mnie możliwości, jakie daje Web Speech API. Ostatnio napisałem o przetwarzaniu mowy na tekst, więc naturalnym kierunkiem będzie sprawdzenie odwrotności tego procesu – przetwarzanie tekstu na mowę. Niestety, jeśli chodzi o kompatybilność, realnie działa to jedynie na stacjonarnym i mobilnym Google Chrome, oraz jeszcze na kilku innych, egzotycznych przeglądarkach. Być może niedługo interfejs będzie wspierany również w Microsoftowym Edgu. Jednak na razie pozostaje nam uzbroić się w cierpliwość i czekać na ruchy pozostałych dostawców.

Jak Google Chrome przetwarza mowę na tekst?

Google Chrome wysyła żądanie przetworzenia mowy na tekst na własne serwery. Z tego powodu konieczne jest aktywne połączenie z Internetem, aby cały proces zadziałał.

Jak przetwarzanie mowy na tekst działa w praktyce?

Przygotowałem niewielki przykład w formie notatnika głosowego. Google Chrome może poprosić Cię o dostęp do mikrofonu. Kliknij Start i zacznij mówić do mikrofonu. Z listy języków w przykładzie dostępne są jedynie polski, angielski i niemiecki, jednak dostępna lista jest długa i nie trzeba się tak ograniczać.

Przetwarzanie mowy na tekst

Przetwarzanie mowy na tekst

Kod JavaScript dla przetwarzania mowy na tekst

Cały kod dla powyższego przykładu dostępny jest na moim GitHubie. W skrócie omówię, jak rozpocząć zabawę z przetwarzaniem mowy.

Sprawdzamy, czy stosowny interfejs jest dostępny.

Co ciekawe, w Edge interfejs webkitSpeechRecognition jest dostępny i konsola nie wyrzuci tutaj błędu. Niestety jednak samo przetwarzanie mowy dostępne już nie jest.

Inicjalizujemy interfejs przetwarzania mowy

  • Parametr .continuous decyduje o tym, czy dla każdego procesu rozpoznawania mowy zwracane są ciągłe wyniki, czy tylko jeden.
  • Parametr .interimResult decyduje o tym, czy mają być zwracane wyniki pośrednie dla każdego przetwarzania, czy jedynie wynik finalny.
Uruchamiamy przetwarzanie mowy

Odbieramy wynik przetwarzania mowy na tekst

Kończymy rozpoznawanie mowy, kiedy przeglądarka wykryje zakończony proces mówienia

W konsoli pojawią się wyniki przetwarzania naszej mowy na tekst.

Podsumowanie

Więcej na temat przetwarzania mowy na tekst można znaleźć w tym opisie

Zachęcam do eksperymentowania. Może warto pomyśleć o nawigowaniu stroną internetową lub aplikacją za pomocą mowy? To mogłoby podnieść poziom dostępności takiej witryny, przynajmniej jeśli chodzi o Google Chrome.


Tagi:


Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *