Програмний засіб для розпізнавання україномовних наукових статей

Автор(и)

  • Оксана Андрїївна Татаринова НТУ "ХПІ", Ukraine
  • Владислав Валерійович Овсяніков НТУ "ХПІ", Ukraine

DOI:

https://doi.org/10.20998/2078-9130.2021.2.249715

Анотація

Розглядається задача комп’ютерного розпізнавання, як окремо друкованих символів, так і цілих текстів, що можуть містити математичні формули, та подальшого збереження результуючого документа у форматі “Латекс”. В розробленому програмному забезпеченні реалізовано можливість розпізнавання друкованих символів латиниці, кирилиці, літер грецького алфавіту та спеціальних математичних знаків. Для цього застосовуються багатошарова згортальна нейронна мережа, побудована за допомогою бібліотеки машинного навчання “Керас”, та додаткові валідаційні евристики. Для підвищення якості розпізнавання нейронної мережі розроблено складний механізм преобробки зображень, що допомагає видалити шуми із зображення, виключити похибки пов’язані з нахилом символів, коректувати дефекти символів, пов’язані з якістю вхідного зображення. Також реалізовано механізми збирання окремих символів в слова або ж математичні формули, відтворення положення знаків індексів та ступенів, формування звичайних дробів та виразів під знаком кореня. Відбувається збереження результатів розпізнаного тексту до файлу з одночасною побудовою структури «latex» документу. Для демонстрації можливостей розробленого програмного забезпечення додано графічний інтерфейс користувача, за допомогою якого можна ще до початку розпізнавання обрати та оглянути вхідне зображення. Під час тестування програмного засобу, було проведено розпізнавання зображень різних типів: повністю текстуальні, математичні формули без тексту, математичні формули, які знаходяться між блоками тексту.

##submission.downloads##

Опубліковано

2021-12-31