Przekształć mowę w tekst za pomocą Google AI

6 mies. temu 114

Przekształć mowę w tekst za pomocą Google AI


Speech-to-Text ma trzy główne metody rozpoznawania mowy: synchroniczne, asynchroniczne i streamingowe. 

Każda metoda zwraca wyniki tekstowe na podstawie tego, czy transkrypcja jest potrzebna w przetwarzaniu, okresowo lub w czasie rzeczywistym. Mówiąc najprościej, wprowadzisz dane audio, a następnie otrzymasz odpowiedź tekstową.

Zobacz dokumentację

Add speech-to-text to app

Dowiedz się, jak dodać Speech-to-Text do swoich aplikacji



Przekształć mowę w tekst za pomocą Google AI


Konwertuj audio w transkrypcje tekstowe i integruj rozpoznawanie mowy w aplikacjach za pomocą łatwych w obsłudze interfejsów API.


Nowi klienci otrzymują 300 USD w darmowych kredytach i 60 minut za transkrypcje i analizę dźwięku za darmo miesięcznie, nie obciążając się Twoimi kredytami.

Zacznij transkrybowanie

Kontakt sprzedaż


Dotyczy to tylko przetwarzania dźwięku za pomocą API Speech-to-Text V1.

Podkreślenia produktów


Z łatwością dodaj Speech-to-Text do aplikacji


Transcribe pliki audio lub audio w czasie rzeczywistym


Obsługuje ponad 125 języków


    Użyj AI do napisu wideo


    Speech-to-text product UI


    Jak stosować Speech-to-Text


    02:26 min


Funkcje

Zaawansowana mowa AI


Speech-to-Text może wykorzystać Chirp, podstawowy model Google Cloud do przeszkolenia mowy na temat milionów godzin danych audio i miliardów zdań tekstowych. Kontrastuje to z tradycyjnymi technikami rozpoznawania mowy, które koncentrują się na dużych ilościach nadzorowanych danych specyficznych dla języka. Techniki te dają użytkownikom ulepszone rozpoznawanie i transkrypcję dla bardziej używanych języków i akcentów.

Obsługa 125 języków i wariantów


Zbuduj dla globalnej bazy użytkowników z szerokim wsparciem językowym. Transcribe krótkie, długie, a nawet przesyłanie strumieniowe danych audio. Speech-to-Text oferuje również użytkownikom dokładniejsze i szersze tłumaczenie i uznanie dzięki Chirp, nowej generacji uniwersalnych modeli mowy. Chirp został zbudowany przy użyciu samonadzorowanego szkolenia na temat milionów godzin dźwięku i 28 miliardów zdań tekstu obejmującego ponad 100 języków.

Transcribe short, long, lub streaming audio

Przewodnik z widokiem

Modele pretrained lub konfigurowalne do transkrypcji


Wybierz spośród wybranych modeli do sterowania głosowego, połączenia telefonicznego i transkrypcji wideo zoptymalizowanych pod kątem specyficznych dla jakości dla danej domeny. Z łatwością dostosuj, eksperymentuj, twórz i zarządzaj niestandardowymi zasobami za pomocą interfejsu Speech-to-Text.

Zgodność z przepisami i bezpieczeństwa poza dotkszymi


API v2 zapewnia klientom korporacyjnym i biznesowym dodatkowe wymagania bezpieczeństwa i regulacyjne po wyjęciu z pudełka. Rezydencja danych umożliwia wywołanie modeli transkrypcyjnych poprzez w pełni zregionalizowaną usługę, która wykorzystuje regiony Google Cloud, takie jak Singapur i Belgia. Recognizer zaradność eliminuje potrzebę dedykowanych kont usług do uwierzytelniania i autoryzacji. Logi generowania i transkrypcji zasobów są łatwo dostępne w konsoli Google Cloud. A interfejs API v2 oferuje szyfrowanie klasy korporacyjnej z zarządzanymi przez klienta kluczami szyfrującymi do wszystkich zasobów, a także transkrypcją wsadową.



Rozpoznawanie i transkrypcja mowy oparte na sztucznej inteligencji


Speech-to-Text wykorzystuje adaptację modelu, aby poprawić dokładność często używanych słówek, rozszerzyć słownictwo dostępne do transkrypcji i poprawić transkrypcję z hałaśliwego dźwięku. Adaptacja modelowa pozwala użytkownikom dostosowywać Speech-to-Text do rozpoznawania określonych słów lub fraz częściej niż inne opcje, które w przeciwnym razie mogłyby być sugerowane. Na przykład, możesz stronić przemówienie-to-tekst do transkrypcji "pogody" nad "czy to".


Czytaj więcej
Radio Game On-line