Как транскрибировать аудио в текст
Как превратить голос в текст: тестируем 5 сервисов для расшифровки
Я работаю с текстом и мечтаю о программе, которая сможет превратить голос в напечатанные слова.
Например, расшифрует за меня интервью длиной в несколько часов. Или позволит наговорить идеи, а в ответ пришлет заметку. Наконец, «напишет» за меня смс: поймет несколько обрывистых фраз и отправит адресату текст — потому что голосовые сообщения любят не все.
Я протестировал 5 таких сервисов: наговорил один и тот же текст, а потом сравнил результаты. Я использовал два способа: сначала давал программе послушать и расшифровать живой голос, а потом — в записи.
Текст для теста
Вот текст для теста: «Привет. Это тестовая запись для статьи об инструментах, которые умеют превращать голос в текст. Как думаете, этот сервис справится? Распознает интонацию вопроса и, например, числа — один, два, три? Вот что получилось».
Google Keep
Где работает: Android, iOS
Сколько стоит: бесплатно
Что умеет. Это приложение для создания и хранения заметок можно использовать как расшифровщик. Если на главном экране нажать на иконку микрофона и начать говорить, то сервис будет переводить звук в текст — это называется транскрибацией. Загрузить и расшифровать аудиофайл не получится.
У сервиса есть еще один минус: запись останавливается, если молчать две-три секунды, поэтому расшифровывать длинные интервью не получится. Разве что делать это небольшими кусками. Наговорить несколько идей и получить их в блокноте получится отлично.
Результат. Я проверил два способа: наговорил текст самостоятельно и включил запись того же текста через колонку — никакой разницы нет. Вышло хорошо: сервис не распознал только знаки препинания и напечатал числа без пробелов.
Сообщения «Вконтакте»
Где работает: Android, iOS
Сколько стоит: бесплатно
Что умеет. В мобильном приложении соцсеть умеет расшифровывать входящие голосовые сообщения. Это можно использовать и в наших целях: отправлять сообщения самому себе.
Для этого зайдите в раздел с диалогами и в поисковом окне вбейте свое имя. Дальше зажмите значок микрофона и наговорите сообщение. Когда оно появится в диалоговом окне, нажмите на «Аа» справа от записи.
Результат. «Вконтакте» расшифровал живой голос с ошибками в склонениях и перепутал несколько слов: например, «сервис» услышал как «серый». Но справился с числами. Записанный и пропущенный через колонку голос сервис расшифровал намного хуже — получился набор слов, который нужно буквально переписывать.
10 лучших сервисов для расшифровки аудио в текст
Транскрибация (расшифровка) – это метод перевода информации из аудио или видео в текстовый формат. Такой подход актуален для слабослышащих, при расшифровке интервью и создании субтитров (для тех, кому нужно посмотреть видеоролик или прослушать аудио без звука). Цель транскрибации – перевести речь в текстовый формат, который будет понятен любому человеку.
Для расшифровки аудио в текст сегодня используется профессиональный софт. О лучших программах для расшифровки аудио мы и поговорим в данной статье.
Google Docs
Google Docs – онлайн-сервис для работы с текстом и данными. Внутри платформы можно включить микрофон, который поможет перевести речь в письменный формат. Для его активации следует воспользоваться комбинацией клавиш Ctrl+Shift+S, затем выбрать язык и нажать на значок микрофона.
Увы, но сервис очень плохо справляется с тихой и шумной диктофонной записью, но отлично с диктовкой в микрофон. Главный недостаток – работает только в активном окне Google Docs, то есть наговорить что-то с другой вкладки или включить запись на компьютере не получится.
Плюсы:
Минусы:
Операционная система: Web
Ссылка на сервис: Google Docs
Google Keep
Google Keep – это мобильное приложение для заметок, с помощью которого можно также переводить голосовые записи в текст. Для этого нужно нажать на значок микрофона на панели инструментов. Разговор в аудиоформате будет сохранен вместе с расшифрованным текстом.
Для длительных записей Google Keep, к сожалению, не подойдет, потому что останавливает запись после коротких пауз в диалоге. Но его можно использовать, чтобы расшифровывать уже готовые записи по кускам.
По какой‑то причине распознавание голоса в Keep работает лучше, чем в Гугл-документах: приложение даже угадывает начало новой фразы и помечает его заглавной буквой.
Плюсы:
Минусы:
Операционная система: Android, iOS, Web
Ссылка на скачивание: Google Keep
Speechpad
Speechpad – бесплатный онлайн-инструмент, с помощью которого можно расшифровать голосовую запись. Работает исключительно со звуком из микрофона, поэтому следует позаботиться о качестве оборудования.
Поддерживается Google Chrome, но есть приложения для iOS и Android. Также возможна интеграция в Windows, Mac и Linux, чтобы обеспечить голосовой ввод в любом текстовом поле. Четкий звук понимает достаточно хорошо, плохой – крайне посредственно.
Плюсы:
Минусы:
Операционная система: Web
Ссылка на сервис: Speechpad
RealSpeaker
RealSpeaker – платный сервис для перевода аудиофайлов в текстовый контент. Работает исключительно с готовыми файлами, поэтому использовать микрофон, как в предыдущих случаях, не получится.
Перевод аудио в текст бесплатен только в том случае, если запись длится не более 1.5 минут. Далее – 8 руб. за минуту, максимальная продолжительность аудио – 180 мин. Поддерживается более 40 языков, включая русский.
Для работы с сервисом достаточно выбрать язык озвучки, загрузить файл, рассчитать время расшифровки и оплатить услугу.
Плюсы:
Минусы:
Операционная система: Web
Ссылка на сервис: RealSpeaker
Dictation
Dictation – бесплатный онлайн-сервис, позволяющий распознавать запись с микрофона. Понимает не только русские слова, но и десятки команд: тире, новую строку и так далее.
Из особенностей – это встроенный редактор, позволяющий форматировать текст, оформлять списки и делать много всего другого. Готовый текст можно отправить на почту, в социальные сети или просто сохранить на компьютере.
Из недостатков – распознает только качественную речь. Если запись была сделана на слабенький микрофон, то получить хороший результат не получится.
Плюсы:
Минусы:
Операционная система: Web
Ссылка на сервис: Dictation
oTranscribe
Бесплатный веб-сервис для ручной транскрибации текста. Работает как с аудио, так и видео, в том числе с YouTube-роликами. Открывает множество форматов: WAV, MP3, MPEG, WEBM и другие. Можно назначить горячие клавиши для управления воспроизведением. Есть автосохранение, простой текстовый редактор, интерактивные метки, упрощающие навигацию.
Плюсы:
Минусы:
Операционная система: Web
Ссылка на сервис: oTranscribe
Transcribe
Transcribe – это универсальный сервис, в котором можно расшифровать файл или самостоятельно надиктовать текст. Подписка стоит 20 долларов в год. Есть тестовый период на 7 дней, в течение которого можно безлимитно использовать ручную расшифровку и 30 минут пользоваться автоматической транскрибацией.
В редакторе готового текста можно расставить временные метки, а также прослушать интервью на замедленной скорости и исправить неправильно распознанные сервисом места.
Из особенностей можно отметить поддержку множества форматов – 3GP, AAC, AIF, AIFF, AMR, CAF, DSS, FLAC, M4A, MOV, MP3, MP4, OGG, WAV, WEBM, WMA, WMV. Максимальный размер файла – 6 Гб или 420 минут.
Плюсы:
Минусы:
Операционная система: Web
Ссылка на сервис: Transcribe
Dragon Dictation
Плюсы:
Минусы:
Операционная система: iOS
Ссылка на скачивание: Dragon Dictation
Speechnotes
Плюсы:
Минусы:
Операционная система: Web, Android
Ссылка на сервис: Speechnotes, на Android: Speechnotes
Otter
Последний в нашем списке инструмент для расшифровки аудио в текст – это Otter. Работает только с английским языком, но у сервиса есть отличительная особенность: он может запоминать голос диктора – такая возможность позволяет разделять реплики в записях с несколькими собеседниками.
Также можно загрузить аудио или видео с английской речью, в результате чего сервис выведет текст. Некоторые спорные моменты из-за произношения могут расшифровываться неправильно.
Программа будет полезна, если вы работаете с англоязычными источниками.
Плюсы:
Минусы:
Операционная система: Web, iOS
Ссылка на сервис: Otter
Заключение
Сегодня мы поговорили о лучших сервисах для расшифровки аудио. Каждый из них позволяет буквально в несколько кликов получить желаемый результат, но только в том случае, если исходный файл был в хорошем качестве. Если же запись была записана нечетко, то не все инструменты могут с этим хорошо справиться, особенно те, что доступны бесплатно.
Программы для транскрибации, которые помогут расшифровать речь в текст
10 минут на чтение
Если вы работаете с видео или аудио, то наверняка находитесь в поисках удобных программ для расшифровки речи в текст. Например, для субтитров или написания статей. В этом материале мы собрали сервисы и программы для транскрибации голоса в письменный формат.
Что такое транскрибация и зачем нужна расшифровка
Транскрибация — это расшифровка информации из аудио или видео в текстовую форму. Это может быть актуально для слабослышащих пользователей или для тех, кто предпочитает потреблять контент в беззвучном режиме, получая информацию из письменной речи.
Цель транскрибации — качественно перевести речь в текстовый формат, который человек будет хорошо понимать при прочтении.
Задачи расшифровки:
Расшифровка используется в субтитрах к видео, в статьях и постах, а также для анализа и исследований.
Ниже представлена таблица, в которой мы указали, где используют расшифровку.
Вид транскрибации | Особенности |
Надиктовка | Автор читает подготовленный текст — медленно, с выражением и расстановкой знаков препинания. Текст может использоваться для статей, постов, ведения блога или написания материала в журнал |
Лекция | Студенты записывают речь преподавателя на диктофон для дальнейшей расшифровки лекций, в тексте которых встречаются сложные термины и незнакомые имена. Используется, когда лектор быстро говорит — и записать материал в такой ситуации очень сложно |
Подкаст | Формат радио, в котором редко встречаются проблемы с речью. Подкаст может быть монологом или диалогом. При расшифровке нужно учитывать, кто говорит — обязательно укажите имя человека. Расшифровка нужна для субтитров |
Интервью | Формат, в котором участвует двое и более человек. Расшифровка нужна для субтитров в видео, написания статьи или поста. Жесткая дословность не требуется, в приоритете — передать эмоции и главную мысль интервьюируемого |
Синхрон | Похож на интервью. В кадре эксперт дает комментарий по какой-то теме, камера записывает не только голос, но и звуковой фон, который сопровождает запись |
Вебинар | Речь одного или нескольких экспертов вебинара. Расшифровка похожа на формат подкаста — нужно указать имя говорящего. Транскрибацию используют для субтитров, написания статьи или книги |
Фокус-группа | Фокус-группа используется в маркетинговых исследованиях и социологических опросах. Сложный формат для расшифровки. Изначально все люди могут говорить спокойно, но под конец многие начинают перебивать друг друга. Чтобы этого избежать — задавайте вопросы каждому участнику по очереди. Расшифровка нужна для отчетов, анализа и исследований |
Конференция | В конференции есть ведущий (он же — модератор) и спикеры. Здесь также важно указать имя говорящего. Расшифровка используется для субтитров, написания статей и постов |
Телефонные разговоры | Расшифровка используется для анализа клиентов, сбора данных о них — интересы, потребности, боли и проблемы. Также это помогает улучшить качество работы менеджеров. Транскрибация звонков используется не только для бизнеса, но и для решения более специфических задач — например, силовики могут прослушивать разговоры потенциальных преступников |
Субтитры | Используются в видео. Текст должен точно повторять речь говорящего. А чтобы разбить ее на подтемы — используйте тайм-коды |
Монтажный лист | Применяется в кино и клипах. Это таблица, в которой указаны кадры с репликами героев и техническими комментариями. Здесь нужно не только расписать речь персонажа, но и зафиксировать все, что в данный момент находится в кадре |
Далее мы рассмотрим не только программы для автоматической транскрибации, но и сервисы для ручной расшифровки.
Автоматизация email рассылок
Отправляйте цепочки триггерных сообщений приветствия, брошенной корзины, реактивации, совмещая внутри одной цепочки email, SMS и web push.
Сервисы, которые облегчат ручную расшифровку
В этом разделе мы собрали подборку популярных сервисов для расшифровки аудио и видео в текст.
Google Docs
Google Docs — онлайн-сервис для работы с текстом и данными. Внутри платформы можно включить микрофон, который поможет перевести речь в письменный формат.
Чтобы активировать данную функцию, выберите «Создать документ». Далее в верхнем меню найдите раздел «Инструменты» и выберите «Голосовой набор». Либо зажмите кнопки «Ctrl+Shift+S» для вызова команды.
Пример, как работает расшифровка в Google Docs
Особенности:
Плюсы:
Минусы:
Speechpad
Speechpad — голосовой блокнот. Можно использовать на ПК и в смартфоне — есть приложения для Android и iOS. Также для браузера есть возможность подключить расширение «Голосовой ввод текста».
Вы можете наговорить текст в микрофон:
Пример работы голосового блокнота
Либо загрузить файл или URL в панель транскрибации для расшифровки:
Панель транскрибации файлов
Особенности:
Плюсы:
Минусы:
Dictation.io
Dictation.io — простой сервис расшифровки речи на английском языке.
Пример работы сервиса Dictation.io
Особенности:
Плюсы:
Минусы:
RealSpeaker
RealSpeaker — платный сервис транскрибации аудио- или видеофайлов. Первые полторы минуты расшифровываются бесплатно, далее за каждую минуту нужно платить 8 рублей. Максимальная длительность дорожки — 180 минут.
Для работы с сервисом достаточно выбрать язык озвучки, загрузить файл, рассчитать время расшифровки и оплатить услугу.
Сервис RealSpeaker
Особенности:
Плюсы:
Минусы:
oTranscribe
oTranscribe — бесплатный сервис для самостоятельной расшифровки речи в текст.
Работа в сервисе oTranscribe
Особенности:
Плюсы:
Минусы:
Transcribe by Wreally
Transcribe by Wreally — универсальный сервис, в котором вы можете расшифровать файл или самостоятельно продиктовать текст. Подписка стоит 20 долларов в год. Есть тестовый период 7 дней, в котором вы можете безлимитно использовать самостоятельную расшифровку и 30 минут для автоматической транскрибации.
Пример, как работает сервис Transcribe by Wreally
Особенности:
Плюсы:
Минусы:
Алгоритм YouTube — встроенные субтитры
Субтитры YouTube — это возможность не только автоматически создать текст, но и самостоятельно расшифровать речь из видео.
Ниже показан пример, как работают автоматические субтитры: текст воспринимается нечетко. Если прозвучало иностранное слово, оно будет переделано под выбранный язык, а не переведено. Также если человек запнулся, алгоритм подберет свой вариант слова.
Пример работы автоматических субтитров в YouTube
Чтобы самостоятельно расшифровать речь в YouTube, зайдите в «Творческую студию», перейдите в настройки видео и найдите раздел «Субтитры». В открывшемся окне выберите «Синхронизировать автоматически».
Творческая студия в YouTube
Особенности:
Плюсы:
Минусы:
Dragon Dictation
Dragon Dictation — платное приложение для iOS. Есть тестовый период на неделю, далее необходимо оформить подписку — 14,99 долларов в месяц.
Интерфейс приложения. Источник
Особенности:
Плюсы:
Минусы:
Speechnotes
Speechnotes — онлайн-сервис для браузеров и приложение для Android. В онлайн-версии только расшифровка файлов платная — 0,1 доллар за минуту. А в приложении есть бесплатный тестовый период, далее нужно приобрести подписку за 69 рублей в месяц.
Скриншот того, как выглядит онлайн-версия, где можно надиктовать текст.
Интерфейс онлайн-версии
Пример работы приложения:
Особенности:
Плюсы:
Минусы:
Zapisano.org
Zapisano.org — платформа, где профессиональные расшифровщики подготовят для вас текст или субтитры. Цена каждой расшифровки индивидуальна — все зависит от сложности работы. Стоимость одной минуты начинается с 19 рублей.
Главная страница сайта
Чтобы отправить видео или аудио на расшифровку — загрузите файл или вставьте ссылку на облако, рассчитайте стоимость с помощью калькулятора, зарегистрируйтесь и оплатите услугу. Максимальное время расшифровки — до 6 дней. Можно заказать срочное выполнение работы — текст будет готов на следующий день.
Как оформить заказ на платформе
Особенности:
Плюсы:
Минусы:
Переводчик Google
Переводчик Google — сервис для перевода с одного языка на другой. Здесь вы можете надиктовать материал, трансформировать записанную речь в текст — и перевести его на другой язык. Либо включить видео или аудио на ПК или в соседней вкладке и дать сервису записать речь.
Интерфейс сервиса Google Translate
Особенности:
Плюсы:
Минусы:
Переводчик от «Яндекса»
Переводчик от «Яндекс» — сервис работает по принципу Google Переводчика.
Обзор интерфейса Yandex Translate
Особенности:
Плюсы:
Минусы:
Rev — платный сервис с искусственным интеллектом. Транскрибация и создание видео стоят от 1,25 долларов.
Главная страница сервиса Rev
Важно! Подобные сервисы с такими же функциями, но стоимость услуг у них выше: Transcription Panda и GoTranscript.
Особенности:
Плюсы:
Минусы:
Temi — еще один быстрый сервис от создателей Rev. Точность транскрибации — 90-95%. Бесплатно можно расшифровать 45 минут, далее требуется оплата — 0,25 долларов за минуту.
Главная страница сервиса Temi
Особенности:
Плюсы:
Минусы:
Программы для транскрибации текста
А здесь мы собрали варианты программ для профессиональной работы с расшифровкой речи в текст.
Voco — программа для расшифровки речи в текст на Windows. Есть тестовый период на 14 дней. Платная базовая версия стоит 1867 рублей.
Программа для транскрибации текста — Voco
Особенности:
Плюсы:
Минусы:
Express Scribe
Express Scribe — программа от Windows, которая поддерживает редактор текста Word. В бесплатной версии можно работать только с аудиофайлами. Расширенная версия стоит 59,99 долларов.
Программа для транскрибации видео — Express Scribe
Особенности:
Плюсы:
Минусы:
Lossplay
Lossplay — бесплатная программа для Windows, которая предназначена для ручной расшифровки. Выглядит как плеер и напоминает Winamp.
После установки программы вам необходимо будет загрузить кодеки из пакета K-Lite Codec Pack и QuickTime для возможности проигрывания всех поддерживаемых медиа-форматов.
Обзор сервиса Lossplay
Особенности:
Плюсы:
Минусы:
Transcriber Pro
Transcriber Pro — платная программа для профессиональной ручной расшифровки речи. Стоит 799 рублей в год.
Обзор программы Transcriber Pro
Особенности:
Плюсы:
Минусы:
Расширение для браузера
Ниже представлен список расширений для браузера, которые помогут вам работать с транскрибацией в любое время.
VoiceIn Voice Typing
VoiceIn Voice Typing — расширение создано на основе распознавания речи от Google. Оно позволяет использовать расшифровку на любом сайте и при этом работать в любом редакторе. Есть пробная версия с минимальными возможностями. Подписка стоит 25 долларов в год.
После установки расширения разработчик рекомендует закрыть браузер и загрузить его снова, чтобы распознавание речи сработало.
Скриншот настроек и блокнота, куда записывается голос
Важно! Ряд похожих расширений для браузера — Speech Recognition Anywhere и Voice to Text.
Особенности:
Плюсы:
Минусы:
Заключение
В этой статье мы рассмотрели программы для транскрибации — узнали их особенности, плюсы и минусы. Вы можете использовать не только готовые сервисы, в которых люди или ИИ будут расшифровывать файлы, но и самостоятельно заняться транскрибацией аудио и видео.
Рекомендации по работе с расшифровкой:
А чтобы отслеживать потребности клиентов и поддерживать с ними связь в любое время суток — регистрируйтесь в сервисе SendPulse и подключайте наши инструменты: используйте CRM и конструктор лендингов, отправляйте email, Viber и SMS рассылки, а также подключайте чат-боты в таких мессенджерах, как ВКонтакте, Facebook Messenger, Telegram и WhatsApp!
Журналист без диплома, копирайтер без сертификатов, тексты без воды, трафик без проблем