Przekształć mowę w tekst za pomocą Google AI
Speech-to-Text ma trzy główne metody rozpoznawania mowy: synchroniczne, asynchroniczne i streamingowe.
Każda metoda zwraca wyniki tekstowe na podstawie tego, czy transkrypcja jest potrzebna w przetwarzaniu, okresowo lub w czasie rzeczywistym. Mówiąc najprościej, wprowadzisz dane audio, a następnie otrzymasz odpowiedź tekstową.
Zobacz dokumentację
Add speech-to-text to app
Dowiedz się, jak dodać Speech-to-Text do swoich aplikacji
Przekształć mowę w tekst za pomocą Google AI
Konwertuj audio w transkrypcje tekstowe i integruj rozpoznawanie mowy w aplikacjach za pomocą łatwych w obsłudze interfejsów API.
Nowi klienci otrzymują 300 USD w darmowych kredytach i 60 minut za transkrypcje i analizę dźwięku za darmo miesięcznie, nie obciążając się Twoimi kredytami.
Zacznij transkrybowanie
Kontakt sprzedaż
Dotyczy to tylko przetwarzania dźwięku za pomocą API Speech-to-Text V1.
Podkreślenia produktów
Z łatwością dodaj Speech-to-Text do aplikacji
Transcribe pliki audio lub audio w czasie rzeczywistym
Obsługuje ponad 125 języków
Użyj AI do napisu wideo
Speech-to-text product UI
Jak stosować Speech-to-Text
02:26 min
Funkcje
Zaawansowana mowa AI
Speech-to-Text może wykorzystać Chirp, podstawowy model Google Cloud do przeszkolenia mowy na temat milionów godzin danych audio i miliardów zdań tekstowych. Kontrastuje to z tradycyjnymi technikami rozpoznawania mowy, które koncentrują się na dużych ilościach nadzorowanych danych specyficznych dla języka. Techniki te dają użytkownikom ulepszone rozpoznawanie i transkrypcję dla bardziej używanych języków i akcentów.
Obsługa 125 języków i wariantów
Zbuduj dla globalnej bazy użytkowników z szerokim wsparciem językowym. Transcribe krótkie, długie, a nawet przesyłanie strumieniowe danych audio. Speech-to-Text oferuje również użytkownikom dokładniejsze i szersze tłumaczenie i uznanie dzięki Chirp, nowej generacji uniwersalnych modeli mowy. Chirp został zbudowany przy użyciu samonadzorowanego szkolenia na temat milionów godzin dźwięku i 28 miliardów zdań tekstu obejmującego ponad 100 języków.
Transcribe short, long, lub streaming audio
Przewodnik z widokiem
Modele pretrained lub konfigurowalne do transkrypcji
Wybierz spośród wybranych modeli do sterowania głosowego, połączenia telefonicznego i transkrypcji wideo zoptymalizowanych pod kątem specyficznych dla jakości dla danej domeny. Z łatwością dostosuj, eksperymentuj, twórz i zarządzaj niestandardowymi zasobami za pomocą interfejsu Speech-to-Text.
Zgodność z przepisami i bezpieczeństwa poza dotkszymi
API v2 zapewnia klientom korporacyjnym i biznesowym dodatkowe wymagania bezpieczeństwa i regulacyjne po wyjęciu z pudełka. Rezydencja danych umożliwia wywołanie modeli transkrypcyjnych poprzez w pełni zregionalizowaną usługę, która wykorzystuje regiony Google Cloud, takie jak Singapur i Belgia. Recognizer zaradność eliminuje potrzebę dedykowanych kont usług do uwierzytelniania i autoryzacji. Logi generowania i transkrypcji zasobów są łatwo dostępne w konsoli Google Cloud. A interfejs API v2 oferuje szyfrowanie klasy korporacyjnej z zarządzanymi przez klienta kluczami szyfrującymi do wszystkich zasobów, a także transkrypcją wsadową.
Rozpoznawanie i transkrypcja mowy oparte na sztucznej inteligencji
Speech-to-Text wykorzystuje adaptację modelu, aby poprawić dokładność często używanych słówek, rozszerzyć słownictwo dostępne do transkrypcji i poprawić transkrypcję z hałaśliwego dźwięku. Adaptacja modelowa pozwala użytkownikom dostosowywać Speech-to-Text do rozpoznawania określonych słów lub fraz częściej niż inne opcje, które w przeciwnym razie mogłyby być sugerowane. Na przykład, możesz stronić przemówienie-to-tekst do transkrypcji "pogody" nad "czy to".