Языки
Словарь для оптического распознавания старославянского языка
Специализированная публичная база данных Словарь для оптического распознавания старославянского языка была создана в рамках проекта ГОРАЗДЪ: Цифровой портал старославянского языка (проект финансово поддерживается программой Министерства культуры Чешской республики, DG16P02H024, для годов 2016-2020).
Целью базы данных является повышение успешности оптического распознавания (OCR) печатных старославянских кириллических текстов, напр. словарей и изданий. База данных была разработана в рамках оцифровки Словаря старославянского языка (ССЯ) с помощью метода OCR. База данных назначена для использования в приложении ABBYY FineReader 12 или выше.
База данных содержит более чем 130 000 уникальных старославянских лексических единиц, выписанных из ССЯ. Таким образом, база данных включает в себя как нормализованные леммы, так рукописные цитаты из памятников, представляющих канонический старославянский язык, а также позднейшие разновидности церковнославянского языка.
Доступ:
Словарь для оптического распознавания старославянского языка
Системные требования (для ABBYY FinerReader 12):
- Распакуйте содержимое пакета gorazd_ocr-1.zip.
- Запустите приложение ABBYY FineReader 12 и выберите в главном меню Nástroje а затем - Jazykový editor.
- Откройте диалог Nový… и выберите Vytvořit nový jazyk na základě existujícího jazyka. В меню выберите Ruština (Starý Pravopis).
- Выберите имя для языка, напр. Старославянский.
- В поле Abeceda нажмите … и отметьте символы, которые необходимо распознать в документе. Мы рекомендуем включать в алфавит только те символы, которые действительно присутствуют в тексте. Это повысит успешность распознавания.
- В меню Slovník выберите Uživatelský slovník и нажмите кнопку Upravit….
- Далее нажмите на кнопку Importovat… и выберите файл gorazd_ocr-1.txt. Загрузка файла может занять некоторое время.
- Как только загрузка завершится, вы можете закрыть диалоговые окна и выбрать язык (напр. старославянский) как Jazyk dokumentu..
- В меню Nástroje, диалоге Možnosti, на панели Číst отметьте функцию Číst s výukou и разрешите использование пользовательских моделей. Это необходимо для обучения распознаванию символов, не включенных в исходный язык.
Системные требования:
ABBYY FinerReader 12 или выше.
© 2020, Славянский институт Академии наук Чешской республики