Разработан поисковик для изучения древних рукописей

В НИЯУ МИФИ в Лаборатории цифровой лингвистики разрабатывается лингвистическая интеллектуальная среда «Рукописное наследие Древней Руси», которая будет способна распознавать церковно-славянские рукописи XI-XVIII веков и представлять их выборку под конкретный запрос. Для формирования корпуса изучаемых объектов специалисты лаборатории – сотрудники Института интеллектуальных кибернетических систем НИЯУ МИФИ и Института русского языка им. В.В. Виноградова РАН выбрали богослужебные книги – Минеи. Таких книг в библиотеках, архивах и хранилищах музеев сохранилось больше всего, и что немаловажно, сохранилось в хорошем состоянии. «В целом, когда мы работаем с дефицитом достоверной информации, лучше иметь побольше источников, которые как можно полнее могут рассказать о языке, а служебные рукописные книги были в большом ходу, имелись в каждой церкви, да и печатать их начали первыми, – говорит руководитель проекта, доцент кафедры кибернетики НИЯУ МИФИ Дмитрий Демидов. – Сейчас у нас уже есть в цифровом виде примерно 250 книг (по 500 страниц каждая), хранящихся в РГБ, Историческом музее, областных библиотеках. Работа, которой мы занимаемся на первом этапе, если говорить на понятном для широкой публики языке, обратна тому, чем раньше занимались наборщики книг в типографии: они из букв составляли строки, а из строк – страницы, мы же обучаем машину распознавать границы текста, «вырезать» строки, буквы, выносные знаки, буквицы и вязь. Это называется сегментация, за ней идет классификация, чтобы потом к одному тексту можно было бы подобрать целый ряд подобных и на основании выборки, например, датировать рукопись, проследить как менялся текст, слово или знак на протяжении времени». Лингвистическая интеллектуальная среда задумана как человеко-машинный интерфейс с элементами самообучения. То есть в нее можно будет постоянно добавлять новые рукописи, которые искусственный интеллект будет распознавать и при этом постоянно подстраивать свои алгоритмы распознавания. «Для машинного обучения важно, чтобы было достаточное количество образцов – тогда можно быть уверенным, что на «открытом поле», где ничего не размечено, нейронная сеть даст высокоточный результат. Если же материала будет недостаточно, то система сделает много ошибок. Каждая новая рукопись, которую мы обрабатываем, вносит свой вклад в донастройку моделей, «добавляет мозгов» программе и обучает весь программный комплекс. Чем больше мы обработаем рукописей на этом этапе, тем релевантнее будет ответ на запрос пользователя — будь то поиск по текстам или изображениям», – добавляет Дмитрий Демидов. Церковно-славянские тексты имеют свои особенности, которых нет в других языках – это титлы, то есть надстрочные знаки сокращения слов, и выносные буквы Словаря, который учитывал бы все виды слов и сокращений в церковно-славянском языке, не существует (поэтому параллельно в Лаборатории работают над созданием Морфологического словаря, где будут даны леммы со всеми словоформами и вариациями написания). Плюс – в рукописях масса нотированных страниц с «крюками» и «знаменами»: это безлинейное древнерусское нотное письмо с черточками, запятыми и точками, способ записывать движение голоса, ускорение или замедление темпа пения и звуковые акценты. Прибавьте к этому, что не все страницы рукописей одинаково хорошо сохранились, где-то есть пятна, грязь, пожелтения, утраты, потрёпанность, поэтому разница в яркости изображения не всегда может служить достаточным основанием для его сегментации. Нейросеть должна научиться распоз...

Разработан поисковик для изучения древних рукописей

Читать полный текст на android-robot.com

 

Опубликовано: 17:00, 29.05.2024

 

Новость из рубрики: Интернет и Игры

 

Поделиться новостью: Поделиться новостью в Facebook Поделиться новостью в Twittere Поделиться новостью в VK Поделиться новостью в Pinterest Поделиться новостью в Reddit

 
 

OpenAI запустит собственный поисковик 00:00, 12 Май OpenAI запустит собственный поисковик OpenAI, создатель ChatGPT, готовится анонсировать собственную поисковую систему, которая будет конкурировать с поисковиком Google и поисковым стартап...

Представлена модель для изучения динамики приземления самолетов 18:44, 01 Апр Представлена модель для изучения динамики приземления самолетов Воздушное движение представляет собой серьезную и сложную проблему. В последнее время в заголовки новостей попали близкие к столкновениям пассажирски...

Тюринг-обвес для АУДИ  особенности 14:19, 13 Июл Тюринг-обвес для АУДИ — особенности Какой автомобиль относится к классу D и отличается повышенным комфортом? Это Audi А6 модели, которая отличается широкой линейкой двигателей. Для поку...

Российские студенты создали космический спутник для изучения солнечного излучения 14:44, 12 Апр Российские студенты создали космический спутник для изучения солнечного излучения В пресс-службе Дальневосточного федерального университета (ДВФУ) сообщили, что студенты вуза совместно с компаниями «Орбитальные системы» и «Роскосмо...

Android-Robot: Новости технологий и науки 18:29, 22 Апр Android-Robot: Новости технологий и науки О нашем портале Android-Robot — это ведущий ресурс, посвященный последним новостям в мире технологий и науки. Мы предлагаем тут самую актуальную ин...

Ученые раскрыли тайны древних петроглифов из Красноярского края 01:33, 23 Май Ученые раскрыли тайны древних петроглифов из Красноярского края В Красноярском крае ученые из Кемеровского государственного университета (КемГУ) нашли более десятка камней с древними петроглифами, датируемых перио...

У берегов Сардинии нашли десятки тысяч древних монет 11:11, 07 Ноя У берегов Сардинии нашли десятки тысяч древних монет У побережья итальянского острова Сардиния водолаз обнаружил десятки тысяч древних бронзовых монет. Об этом сообщает AP со ссылкой на Министерство кул...

Курский студент, увлекающийся историей древних славян, воссоздает предметы быта предков 13:55, 22 Мар Курский студент, увлекающийся историей древних славян, воссоздает предметы быта предков Весь мир 25 марта будет отмечать День молодых талантов, а в России, уже с 20 марта проходит «Неделя юношеской книги». В рамках двух этих ...

00:11, 03 Фев Europa Clipper оснащена научным оборудованием и готова к путешествию для изучения потенциальной жизни на одном из спутников Юпитера В октябре текущего года NASA планирует отправить в путешествие к одному из 92 известных спутников Юпитера — Европе. Цель этого космического апп...

14:44, 21 Апр Разработан ловкий четвероногий робот Четвероногие роботы, также известные как четвероногие роботы, обладают преимуществами, в том числе способностью быстро передвигаться по сложной местн...

23:11, 21 Мар Разработан наносенсор, способный обнаруживать биомаркеры Исследовательская группа разрабатывает наносенсор, способный обнаруживать биомаркеры с точностью до одной молекулы. Хотя это популярное хобби для мно...

18:55, 29 Ноя Разработан экологически чистый электрохимический холодильный компрессор Исследовательская группа успешно разработала экологически чистый компрессор хладагента, используя электрохимический метод вместо механического. Разра...

17:11, 10 Дек Разработан робот-мышь с гибким позвоночником и хвостом Команда робототехников из Мюнхенского технического университета в Германии, работающая с коллегой из Университета Сунь Ятсена в Китае, улучшила манев...

19:33, 04 Апр Разработан робот, помогающий общаться слепым детям Португальские ученые из Высшего технического института в Лиссабоне - UTL создали робота, который помогает общаться детям с нарушениями зрения. Его пр...

02:55, 11 Июн Разработан фотокаталитический бетон для очистки воздуха в подземных тоннелях Качество воздуха в подземных автомобильных туннелях, как правило, хуже, чем в других дорожных условиях, из-за плохой циркуляции воздуха. Чтобы решить...

12:55, 10 Апр Разработан чип из двух органов, чтобы ответить на вопросы о ожирении печени Новый чип, который содержит различные типы клеток в крошечных взаимосвязанных камерах, может позволить ученым лучше понять физиологические и патологи...

03:22, 16 Июн Разработан органический электрохимический транзистор, который служит датчиком и процессором В последние годы инженеры-электронщики пытались разработать новое аппаратное обеспечение, основанное на мозге, которое могло бы более эффективно запу...

19:00, 10 Фев Разработан фреймворк машинного обучения, который кодирует изображения, как сетчатка Исследователи EPFL разработали подход машинного обучения для сжатия данных изображений с большей точностью, чем методы вычислений без обучения, с при...

20:44, 05 Янв Разработан «умный пинцет» для микробиома, или как достать иголку из стога сена Представьте себе, что вы выдергиваете одну иголку из стога сена, кишащего триллионами других. Именно этого и добились исследователи с помощью нового ...

13:33, 18 Июн После катастрофы на Каховской ГЭС список украинских объектов культуры, пострадавших от войны, резко увеличился. Затоплены десятки музеев, памятников архитектуры и древних построек. Вот лишь шесть из них Моторная лодка возле церкви в городе Голая Пристань. 8 июня 2023 года Наводнение после разрушения Каховской ГЭС затронуло не только жилые дома и инфр...

00:00, 27 Ноя Разработан мягкий суперконденсатор, который можно использовать для питания имплантируемых устройств Команда биоинженеров из Университета Ланьчжоу, Даляньского технологического университета и Цинхайского педагогического университета, находящихся в Ки...