Компания Meta* выпустила языковую модель, которая понимает устную речь. Она распознает более 4000 языков и может разговаривать на 1107 из них. Meta считает, что модель поможет сохранить языковое разнообразие в мире. Статья опубликована на сайте компании, код модели доступен на гитхабе. Обычно модели распознавания речи обучаются на больших объемах данных: им требуются тысячи часов аудиозаписей. При этом каждой записи должен соответствовать текст, чтобы модель научилась сопоставлять звучащую и письменную речь. Такие большие датасеты можно собрать только для популярных языков, на которых говорит много людей. Всего в мире существует около 7000 языков, но современные системы распознавания речи поддерживают не более 200 из них. Команда инженеров из компании Meta под руководством Майкла Аули (Michael Auli) обучила большую модель для распознавания речи Massively Multilingual Speech (MMS), которая может общаться на 1107 языках и распознавать 4017. Нейросеть обучалась на религиозных записях. Исследователи собрали два датасета: один с аудиозаписями и соответствующими текстами и второй только с аудиозаписями. Первый датасет состоит из 55 тысяч аудиозаписей, на которых люди зачитывают вслух тексты из Нового Завета. Всего в Новом Завете 27 книг и 260 глав. Данные собирали из трех источников: Faith Comes By Hearing, GoTo.Bible и YouVersion. Во второй датасет попали 7,7 тысяч часов аудиозаписей с сайта Global Recordings Network: это религиозные песни, записи отрывков из Библии и других религиозных текстов. Для обучения использовали нейросеть архитектуры wav2vec 2.0. Сначала ее предобучили, чтобы она могла превращать аудиозаписи в векторные представления. Дело в том, что нейросети работают не с сырыми записями, а с векторами — наборами чисел. Поэтому нужен механизм для превращения аудиозаписей в вектора из чисел, причем похожие аудиозаписи должны быть представлены геометрически близкими векторами. Для получения векторных представлений можно использовать любые аудиозаписи, главное чтобы их было много. Поэтому ученые объединили второй религиозный датасет с другими большими аудиодатасетами, в том числе Multilingual Librispech, CommonVoice, VoxLingua-107, BABEL и VoxPopuli. Всего в выборку попала 491 тысяча часов аудиозаписей без текстов. После предобучения получилась готовая модель MMS. Затем авторы натренировали MMS превращать речь в текст, дообучив ее на первом религиозном датасете с аудиозаписями и текстами. В разных частях света распространены разные типы языков, поэтому авторы определили точность модели для языков с разных континентов. Она научилась распознавать речь на 1107 языках со средней точностью по континенту 97 процентов. Авторы также проверили качество распознавания речи на нерелигиозных аудиозаписях. MMS сравнили с лучшими моделями для распознавания речи Whisper от OpenAI и USM от Google на датасете FLEURS. MMS ошибалась в два раза меньше, чем Whisper и на 6 процентов меньше, чем USM. В задаче определения языка MMS оценивали на датасетах FLEURS, VoxLingua-107, BABEL и VoxPopuli, в которые входит до 107 языков. К предобученной модели приделали простой линейный слой-классификатор, который натренировали определять язык на аудиозаписи. Модель показала такое же качество, как и конкурентные модели. При увеличении числа распознаваемых языков до 4000 с помощью дообучения на религиозных датасетах, качество модели падает совсем немного, с 94 до 93 и с 84 до 80 процентов на разных датасетах. Также авторы оценили, насколько хорошо MMS генерирует речь на...
Читать полный текст на nplus1.ru
Опубликовано: 14:22, 25.05.2023
Новость из рубрики: Наука
Поделиться новостью:
Топ новости часа
- Starlink в Украине. Где купить и как пользоваться...
- Гран-при Австралии-2023. Расписание трансляций...
- Хозяин "Пятёрочки" рассказал, что россияне стали патриотами и разлюбили западные бренды...
- Де Хеа сделал 5-ю результативную ошибку со старта прошлого сезона – у него и Льориса их больше всего среди игроков АПЛ...
- Когда выйдут данные по инфляции в Великобритании и как они могут повлиять на GBP/USD?...
- ChatGPT «отправил» пользователя к психологам. Что он искал в сети?...
14:44, 21 Мар Яндекс обновил «Разговор» – приложение для пользователей с нарушениями слуха и речи Команда Яндекса объявила о выпуске большого обновления приложения «Яндекс Разговор», призванного помогать общаться с окружающими пользова...
10:00, 05 Май Варвара Субботина: «Менять гражданство не предлагали. Но об этом и не было бы речи – я бы отказалась» — Есть ли цель успеть восстановиться до Олимпиады-2024 в Париже, если допустят до нее? — Да, хочется туда поехать. Полноценно тренироваться мне можно...
13:22, 12 Май Meta представила новую модель искусственного интеллекта Компания Meta Platforms представила новую модель искусственного интеллекта с открытым кодом под названием ImageBind, сообщает издание Verge. Новая мо...
07:44, 21 Апр Meta меняет курс с метавселенных на иммерсивные игры Источники в компании Meta сообщают, что генеральный директор Марк Цукерберг теперь больше заинтересован в разработке игр виртуальной реальности. Это ...
13:22, 22 Май Meta летом этого года представит новую соцсеть — конкурента Twitter Компания Meta собирается выпустить новое текстовое приложение, которое будет конкурировать с Twitter. Сейчас у разработки нет отдельного названия, по...
16:22, 30 Мар Вундеркинд из кармана: нейросеть ChatGPT захватывает мир Мы долго мечтали о создании мудрого виртуального помощника, способного помогать нам в сложных ситуациях. Встречайте воплощение наших чаяний: революци...
20:33, 02 Июн Российская нейросеть предотвратит ошибки при передаче информации Созданная российскими специалистами нейросеть отбирает наиболее оптимальные и различимые сигналы при передаче данных. Исследователи из Санкт-Петербур...
02:55, 12 Апр Попались в нейросеть: обсудим на DataTalks 4.0, почему ChatGPT популярен 19 и 20 апреля 2023 года «Ростелеком» проведет масштабную конференцию по управлению данными DataTalks 4.0, где ведущие российские эксперты поделятся ...
13:33, 14 Апр Представлена нейросеть от Google, которая поможет поставить врачебный диагноз Фото: Google Нейросетевую модель назвали Med-PaLM 2. Она может анализировать медицинские данные, подробно отвечать на вопросы врачей и давать разверн...
22:11, 15 Апр Китайские учёные провели эксперимент с ИИ в космосе — нейросеть сутки управляла спутником Учёные из Уханьского университета провели весьма необычный эксперимент. Они на 24 часа предоставили искусственному интеллекту полный контроль над спу...
07:22, 13 Май Google представил нейросеть PaLM 2, которая может легко решать математические задачи На I/O 2023 компания Google объявила о запуске новой большой языковой модели PaLM 2, которая будет доступна в составе чат-бота Bard, а также станет б...
17:11, 17 Апр Нейросеть спела за The Weeknd и Drake. Никто не заметил подмену — трек стал суперхитом На YouTube-канале ghostwriter был выложен трек Heart on my Sleeve. В описании указано, что это ИИ-песня в стиле Дрейка и Уикэнда. Уикэнд поёт в этом ...
00:11, 20 Апр Нашел нейросеть, которая делает почти идеальные картинки и редактирует фотки лучше Фотошопа В последние месяцы все вокруг только и говорят о нейросетях: мол, они заменят нам и художников, и музыкантов, и писателей. Лично я отношусь к этому ф...
13:55, 31 Май Нейросеть устроила отборную кинодичь. Теперь в «Звездных войнах» есть свой Человек-Паук, Бэтмен и Губка Боб В какие только ситуации Midjourney не швыряла героев культовых фильмов. То Спайдермена отправит скитаться по эпохам, то Дарта Вейдера за покупками в ...