В НИЯУ МИФИ в Лаборатории цифровой лингвистики разрабатывается лингвистическая интеллектуальная среда «Рукописное наследие Древней Руси», которая будет способна распознавать церковно-славянские рукописи XI-XVIII веков и представлять их выборку под конкретный запрос. Для формирования корпуса изучаемых объектов специалисты лаборатории – сотрудники Института интеллектуальных кибернетических систем НИЯУ МИФИ и Института русского языка им. В.В. Виноградова РАН выбрали богослужебные книги – Минеи. Таких книг в библиотеках, архивах и хранилищах музеев сохранилось больше всего, и что немаловажно, сохранилось в хорошем состоянии. «В целом, когда мы работаем с дефицитом достоверной информации, лучше иметь побольше источников, которые как можно полнее могут рассказать о языке, а служебные рукописные книги были в большом ходу, имелись в каждой церкви, да и печатать их начали первыми, – говорит руководитель проекта, доцент кафедры кибернетики НИЯУ МИФИ Дмитрий Демидов. – Сейчас у нас уже есть в цифровом виде примерно 250 книг (по 500 страниц каждая), хранящихся в РГБ, Историческом музее, областных библиотеках. Работа, которой мы занимаемся на первом этапе, если говорить на понятном для широкой публики языке, обратна тому, чем раньше занимались наборщики книг в типографии: они из букв составляли строки, а из строк – страницы, мы же обучаем машину распознавать границы текста, «вырезать» строки, буквы, выносные знаки, буквицы и вязь. Это называется сегментация, за ней идет классификация, чтобы потом к одному тексту можно было бы подобрать целый ряд подобных и на основании выборки, например, датировать рукопись, проследить как менялся текст, слово или знак на протяжении времени». Лингвистическая интеллектуальная среда задумана как человеко-машинный интерфейс с элементами самообучения. То есть в нее можно будет постоянно добавлять новые рукописи, которые искусственный интеллект будет распознавать и при этом постоянно подстраивать свои алгоритмы распознавания. «Для машинного обучения важно, чтобы было достаточное количество образцов – тогда можно быть уверенным, что на «открытом поле», где ничего не размечено, нейронная сеть даст высокоточный результат. Если же материала будет недостаточно, то система сделает много ошибок. Каждая новая рукопись, которую мы обрабатываем, вносит свой вклад в донастройку моделей, «добавляет мозгов» программе и обучает весь программный комплекс. Чем больше мы обработаем рукописей на этом этапе, тем релевантнее будет ответ на запрос пользователя — будь то поиск по текстам или изображениям», – добавляет Дмитрий Демидов. Церковно-славянские тексты имеют свои особенности, которых нет в других языках – это титлы, то есть надстрочные знаки сокращения слов, и выносные буквы Словаря, который учитывал бы все виды слов и сокращений в церковно-славянском языке, не существует (поэтому параллельно в Лаборатории работают над созданием Морфологического словаря, где будут даны леммы со всеми словоформами и вариациями написания). Плюс – в рукописях масса нотированных страниц с «крюками» и «знаменами»: это безлинейное древнерусское нотное письмо с черточками, запятыми и точками, способ записывать движение голоса, ускорение или замедление темпа пения и звуковые акценты. Прибавьте к этому, что не все страницы рукописей одинаково хорошо сохранились, где-то есть пятна, грязь, пожелтения, утраты, потрёпанность, поэтому разница в яркости изображения не всегда может служить достаточным основанием для его сегментации. Нейросеть должна научиться распоз...
Читать полный текст на android-robot.com
Опубликовано: 17:00, 29.05.2024
Новость из рубрики: Интернет и Игры
Поделиться новостью:
Топ новости часа
- С 28 октября войти в «Госуслуги» с логином и паролем больше не получится...
- Starlink в Украине. Где купить и как пользоваться...
- Гран-при Австралии-2023. Расписание трансляций...
- Хозяин "Пятёрочки" рассказал, что россияне стали патриотами и разлюбили западные бренды...
- Де Хеа сделал 5-ю результативную ошибку со старта прошлого сезона – у него и Льориса их больше всего среди игроков АПЛ...
- Когда выйдут данные по инфляции в Великобритании и как они могут повлиять на GBP/USD?...
00:00, 12 Май OpenAI запустит собственный поисковик OpenAI, создатель ChatGPT, готовится анонсировать собственную поисковую систему, которая будет конкурировать с поисковиком Google и поисковым стартап...
18:44, 01 Апр Представлена модель для изучения динамики приземления самолетов Воздушное движение представляет собой серьезную и сложную проблему. В последнее время в заголовки новостей попали близкие к столкновениям пассажирски...
14:19, 13 Июл Тюринг-обвес для АУДИ — особенности Какой автомобиль относится к классу D и отличается повышенным комфортом? Это Audi А6 модели, которая отличается широкой линейкой двигателей. Для поку...
14:44, 12 Апр Российские студенты создали космический спутник для изучения солнечного излучения В пресс-службе Дальневосточного федерального университета (ДВФУ) сообщили, что студенты вуза совместно с компаниями «Орбитальные системы» и «Роскосмо...
18:29, 22 Апр Android-Robot: Новости технологий и науки О нашем портале Android-Robot — это ведущий ресурс, посвященный последним новостям в мире технологий и науки. Мы предлагаем тут самую актуальную ин...
01:33, 23 Май Ученые раскрыли тайны древних петроглифов из Красноярского края В Красноярском крае ученые из Кемеровского государственного университета (КемГУ) нашли более десятка камней с древними петроглифами, датируемых перио...
11:11, 07 Ноя У берегов Сардинии нашли десятки тысяч древних монет У побережья итальянского острова Сардиния водолаз обнаружил десятки тысяч древних бронзовых монет. Об этом сообщает AP со ссылкой на Министерство кул...
13:55, 22 Мар Курский студент, увлекающийся историей древних славян, воссоздает предметы быта предков Весь мир 25 марта будет отмечать День молодых талантов, а в России, уже с 20 марта проходит «Неделя юношеской книги». В рамках двух этих ...
00:11, 03 Фев Europa Clipper оснащена научным оборудованием и готова к путешествию для изучения потенциальной жизни на одном из спутников Юпитера В октябре текущего года NASA планирует отправить в путешествие к одному из 92 известных спутников Юпитера — Европе. Цель этого космического апп...
14:44, 21 Апр Разработан ловкий четвероногий робот Четвероногие роботы, также известные как четвероногие роботы, обладают преимуществами, в том числе способностью быстро передвигаться по сложной местн...
23:11, 21 Мар Разработан наносенсор, способный обнаруживать биомаркеры Исследовательская группа разрабатывает наносенсор, способный обнаруживать биомаркеры с точностью до одной молекулы. Хотя это популярное хобби для мно...
13:33, 18 Июн После катастрофы на Каховской ГЭС список украинских объектов культуры, пострадавших от войны, резко увеличился. Затоплены десятки музеев, памятников архитектуры и древних построек. Вот лишь шесть из них Моторная лодка возле церкви в городе Голая Пристань. 8 июня 2023 года Наводнение после разрушения Каховской ГЭС затронуло не только жилые дома и инфр...
18:55, 29 Ноя Разработан экологически чистый электрохимический холодильный компрессор Исследовательская группа успешно разработала экологически чистый компрессор хладагента, используя электрохимический метод вместо механического. Разра...
17:11, 10 Дек Разработан робот-мышь с гибким позвоночником и хвостом Команда робототехников из Мюнхенского технического университета в Германии, работающая с коллегой из Университета Сунь Ятсена в Китае, улучшила манев...
19:33, 04 Апр Разработан робот, помогающий общаться слепым детям Португальские ученые из Высшего технического института в Лиссабоне - UTL создали робота, который помогает общаться детям с нарушениями зрения. Его пр...
13:11, 30 Июн Разработан ударопрочный растягивающийся электронный компонент нового поколения Исследовательская группа профессора Кён Ин Чанга с кафедры робототехники и мехатроники DGIST преуспела в разработке высокостабильного растягивающегос...
02:55, 11 Июн Разработан фотокаталитический бетон для очистки воздуха в подземных тоннелях Качество воздуха в подземных автомобильных туннелях, как правило, хуже, чем в других дорожных условиях, из-за плохой циркуляции воздуха. Чтобы решить...
06:00, 23 Авг Разработан первый квантовый микропроцессорный чип для моделирования молекулярной спектроскопии Квантовое моделирование позволяет учёным изучать системы, которые сложны или даже невозможны с использованием классических компьютеров в различных об...
12:11, 20 Июн Разработан мягкий роботизированный захват, изготовленный из графена и жидких кристаллов Исследователи из Эйндховена разработали мягкую роботизированную «руку», сделанную из жидких кристаллов и графена, которую можно использовать для созд...
19:00, 10 Фев Разработан фреймворк машинного обучения, который кодирует изображения, как сетчатка Исследователи EPFL разработали подход машинного обучения для сжатия данных изображений с большей точностью, чем методы вычислений без обучения, с при...
20:44, 05 Янв Разработан «умный пинцет» для микробиома, или как достать иголку из стога сена Представьте себе, что вы выдергиваете одну иголку из стога сена, кишащего триллионами других. Именно этого и добились исследователи с помощью нового ...
03:22, 16 Июн Разработан органический электрохимический транзистор, который служит датчиком и процессором В последние годы инженеры-электронщики пытались разработать новое аппаратное обеспечение, основанное на мозге, которое могло бы более эффективно запу...
12:55, 10 Апр Разработан чип из двух органов, чтобы ответить на вопросы о ожирении печени Новый чип, который содержит различные типы клеток в крошечных взаимосвязанных камерах, может позволить ученым лучше понять физиологические и патологи...
21:00, 13 Окт Разработан алгоритм, который позволяет передавать навыки между роботами Учёные из Калифорнийского университета в Беркли разработали новую вычислительную структуру под названием RoVi-Aug, которая позволяет дополнять роботи...
00:00, 27 Ноя Разработан мягкий суперконденсатор, который можно использовать для питания имплантируемых устройств Команда биоинженеров из Университета Ланьчжоу, Даляньского технологического университета и Цинхайского педагогического университета, находящихся в Ки...