Logo

Машины нас слышат, но когда это началось?

26 сентября 2025 г.

Машины нас слышат, но когда это началось?
Мы в ScribeX ежедневно работаем над транскрибацией — делаем API, который превращает речь в текст. И мы не могли обойти стороной тему её зарождения. Ведь у любой технологии есть своя история: всё с чего-то начиналось, и без знания прошлого трудно строить будущее. Поэтому сегодня я хочу поделиться историей транскрибации, которую изучал и в которой жил последние три года

Основная терминология

Для полного понимания темы, я бы хотел обозначить несколько определений:

  • Транскрибация — процесс преобразования речи в текст
  • ASR (Automatic Speech Recognition) — общее название технологий автоматического распознавания речи
  • Диаризация — определение, кто именно говорит, и разделение текста по спикерам
  • WER (Word Error Rate) — это метрика ошибок в транскрибации, показывающая процент неверно распознанных слов

Появление машинной транскрипции

Первый шаг: Audrey

История началась в 1952 году, когда в Bell Laboratories была создана система Audrey. Она умела распознавать всего 9 слов — цифры от 1 до 9. Несмотря на примитивность, это стало первым доказательством того, что компьютер способен слышать

Вклад IBM: Shoebox

В 1962 году IBM представила устройство Shoebox, которое понимало 16 слов и даже выполняло арифметические операции («два плюс два» → «четыре»). Это был шаг вперёд в сторону более прикладного использования распознавания речи

Запрос Министерства обороны США: Harpy

В 1971 году DARPA запустила программу SUR (Speech Understanding Research). В рамках этого проекта в Carnegie Mellon University была создана система Harpy, которая умела работать с 1000 слов и уже достигала точности около 90%

Harpy стала первой системой, которая показала реальную применимость транскрибации. Её алгоритмы легли в основу будущих решений

Попытки встраивания систем

В 1980-е технологии начали просачиваться в массовый рынок. Появились первые игрушки с голосовым управлением, печатные машинки и специализированные устройства, например, "Speak & Spell" или модуль голосового управления Nintendo. Они были дорогими и несовершенными, но доказали: голос может стать интерфейсом для техники

Новый этап

Dragon Systems выпустила Dragon Dictate, позже — NaturallySpeaking. Пользователь впервые мог диктовать текст компьютеру. Не долго думая, Microsoft добавил Speech Recognition в Windows 98. Голосовой ввод превратился в реальный рабочий инструмент для бизнеса, писателей и обычных пользователей

Рост точности и сферы применения

Системы достигли точности около 80%, но стоили дорого (корпоративные решения могли обходиться в десятки тысяч долларов). Их начали активно внедрять в медицину, контакт-центры и корпоративные бизнес-системы

Нейросетевой переворот

Развитие глубокого обучения дало огромное количество развития транскрибации. Так, в 2012 году Google показал радикальное повышение точности распознавания речи. Крупные компании стали активно развивать эту сферу, Amazon, Google и Microsoft запустили свои Speech-to-Text Api. А в России появляется Яндекс SpeechKit, который стал основой для голосового помощника Алиса

На данном этапе точность систем была 90%, и голосовые помощники уже не казались чем-то необычным

"Слышите Шепот?"

В 2022 году OpenAI выпустила в открытый доступ модель Whisper. Она умела не только транскрибировать, но и переводить речь на другие языки

Главное достижение Whisper — доступность. Любой разработчик получил возможность подключить качественную транскрибацию без миллионов инвестиций. Это стало настоящим переворотом рынка

Новые горизонты

Последние два года показали, что транскрибация перестала быть просто «текстом из аудио». Технологии стали намного ближе к живому разговору

В 2024-м OpenAI выкатили Realtime API — это полноценная мультимодальная модель, способная слышать, понимать и отвечать. Причём всё это работает почти без задержек. Фактически, это уже не просто транскрибация, а основа для настоящих голосовых ассистентов, с которыми можно общаться как с человеком

Также появились новые модели, которые стали лучше справляться с шумом, акцентами и сложными условиями записи. Ошибок стало ощутимо меньше, а значит — пользоваться можно в реальных, а не только «идеальных» сценариях

В 2025-м Microsoft показали свой Azure Voice Live API, где упор сделали на мультиязычность и «живость» голоса: система умеет подстраиваться под эмоции и даже переводить речь в видео на лету. В это же время крупные компании начали собирать огромные базы речи для «малых языков», чтобы технологии стали доступны для всех

Отдельно стоит отметить появление нишевых решений. Например, платформа Amplify сделала ASR для образования: сервис помогает студентам и преподавателям разбирать произношение, тренировать речь и даже выдаёт рекомендации

В итоге за пару лет транскрибация эволюционировала в полноценный голосовой интерфейс будущего: быстрый, эмоциональный и максимально близкий к живому общению

Здесь и сейчас

Когда смотришь на путь от первых экспериментов до сегодняшних нейросетей, понимаешь: транскрибация перестала быть «дополнительной функцией» и превратилась в фундаментальный интерфейс. Мы в ScribeX верим, что в ближайшие годы голос станет главным способом взаимодействия с компьютерами. Именно поэтому мы создаём API, который помогает разработчикам внедрять эти технологии здесь и сейчас