Przekształć mowę w tekst za pomocą Google AI

10 mies. temu 146

Speech-to-Text ma trzy główne metody rozpoznawania mowy: synchroniczne, asynchroniczne i streamingowe.

Każda metoda zwraca wyniki tekstowe na podstawie tego, czy transkrypcja jest potrzebna w przetwarzaniu, okresowo lub w czasie rzeczywistym. Mówiąc najprościej, wprowadzisz dane audio, a następnie otrzymasz odpowiedź tekstową.

Zobacz dokumentację

Add speech-to-text to app

Dowiedz się, jak dodać Speech-to-Text do swoich aplikacji

Przekształć mowę w tekst za pomocą Google AI

Konwertuj audio w transkrypcje tekstowe i integruj rozpoznawanie mowy w aplikacjach za pomocą łatwych w obsłudze interfejsów API.

Nowi klienci otrzymują 300 USD w darmowych kredytach i 60 minut za transkrypcje i analizę dźwięku za darmo miesięcznie, nie obciążając się Twoimi kredytami.

Zacznij transkrybowanie

Kontakt sprzedaż

Dotyczy to tylko przetwarzania dźwięku za pomocą API Speech-to-Text V1.

Podkreślenia produktów

Z łatwością dodaj Speech-to-Text do aplikacji

Transcribe pliki audio lub audio w czasie rzeczywistym

Obsługuje ponad 125 języków

Użyj AI do napisu wideo

Speech-to-text product UI

Jak stosować Speech-to-Text

02:26 min

Funkcje

Zaawansowana mowa AI

Speech-to-Text może wykorzystać Chirp, podstawowy model Google Cloud do przeszkolenia mowy na temat milionów godzin danych audio i miliardów zdań tekstowych. Kontrastuje to z tradycyjnymi technikami rozpoznawania mowy, które koncentrują się na dużych ilościach nadzorowanych danych specyficznych dla języka. Techniki te dają użytkownikom ulepszone rozpoznawanie i transkrypcję dla bardziej używanych języków i akcentów.

Obsługa 125 języków i wariantów

Zbuduj dla globalnej bazy użytkowników z szerokim wsparciem językowym. Transcribe krótkie, długie, a nawet przesyłanie strumieniowe danych audio. Speech-to-Text oferuje również użytkownikom dokładniejsze i szersze tłumaczenie i uznanie dzięki Chirp, nowej generacji uniwersalnych modeli mowy. Chirp został zbudowany przy użyciu samonadzorowanego szkolenia na temat milionów godzin dźwięku i 28 miliardów zdań tekstu obejmującego ponad 100 języków.

Transcribe short, long, lub streaming audio

Przewodnik z widokiem

Modele pretrained lub konfigurowalne do transkrypcji

Wybierz spośród wybranych modeli do sterowania głosowego, połączenia telefonicznego i transkrypcji wideo zoptymalizowanych pod kątem specyficznych dla jakości dla danej domeny. Z łatwością dostosuj, eksperymentuj, twórz i zarządzaj niestandardowymi zasobami za pomocą interfejsu Speech-to-Text.

Zgodność z przepisami i bezpieczeństwa poza dotkszymi

API v2 zapewnia klientom korporacyjnym i biznesowym dodatkowe wymagania bezpieczeństwa i regulacyjne po wyjęciu z pudełka. Rezydencja danych umożliwia wywołanie modeli transkrypcyjnych poprzez w pełni zregionalizowaną usługę, która wykorzystuje regiony Google Cloud, takie jak Singapur i Belgia. Recognizer zaradność eliminuje potrzebę dedykowanych kont usług do uwierzytelniania i autoryzacji. Logi generowania i transkrypcji zasobów są łatwo dostępne w konsoli Google Cloud. A interfejs API v2 oferuje szyfrowanie klasy korporacyjnej z zarządzanymi przez klienta kluczami szyfrującymi do wszystkich zasobów, a także transkrypcją wsadową.

Rozpoznawanie i transkrypcja mowy oparte na sztucznej inteligencji

Speech-to-Text wykorzystuje adaptację modelu, aby poprawić dokładność często używanych słówek, rozszerzyć słownictwo dostępne do transkrypcji i poprawić transkrypcję z hałaśliwego dźwięku. Adaptacja modelowa pozwala użytkownikom dostosowywać Speech-to-Text do rozpoznawania określonych słów lub fraz częściej niż inne opcje, które w przeciwnym razie mogłyby być sugerowane. Na przykład, możesz stronić przemówienie-to-tekst do transkrypcji "pogody" nad "czy to".

Czytaj więcej