Slovník pro OCR rozpoznávání staroslověnštiny

Specializovaná veřejné databáze Slovník pro OCR rozpoznávání staroslověnštiny byla vytvořena v rámci projektu GORAZD: Digitální portál staroslověnštiny (projekt je realizován v rámci programu NAKI II Ministerstva kultury ČR, DG16P02H024, 2016-2020).

Cílem databáze je navýšit úspěšnost optického rozpoznávání znaků (OCR) tištěných staroslověnských cyrilských textů, např. slovníků nebo edic. Databáze byla vyvinuta v rámci digitalizace Slovníku jazyka staroslověnského (SJS) pomocí metody OCR. Databáze je určena pro použití v aplikaci ABBYY FineReader 12 nebo novější.

Obsahem databáze je více než 130 000 unikátních staroslověnských lexikálních jednotek excerpovaných ze SJS. Databáze tak obsahuje jak normalizovaná lemmata, tak obsah rukopisných citací z památek zahrnujících jak kanonickou staroslověnštinu, tak pozdější redakce církevní slovanštiny.

Přístup:

Slovník pro OCR rozpoznávání staroslověnštiny

Návod k použití (pro ABBYY FinerReader 12):

  1. Rozbalte obsah balíčku gorazd_ocr-1.zip.
  2. Spusťte aplikaci ABBYY FinerReader 12 a v hlavní nabídce zvolte Nástroje a dále Jazykový editor.
  3. Otevřete dialog Nový… a zvolte Vytvořit nový jazyk na základě existujícího jazyka. V nabídce vyberte Ruština (Starý Pravopis).
  4. Jazyk pojmenujte, např. Staroslověnština.
  5. V poli Abeceda stiskněte tlačítko a označte ty znaky, které potřebujete v dokumentu rozeznávat. Doporučejme do abecedy zahrnout jen ty znaky, které se v textu skutečně vyskytují, tím se zvýší úspěšnost rozpoznávání.
  6. V nabídce Slovník zvolte Uživatelský slovník a stisknětě tlašítko Upravit….
  7. Dále stiskněte tlačítko Importovat… a vyberte soubor gorazd_ocr-1.txt. Načítání souboru může chvíli trvat.
  8. Po načtení souboru stiskněte můžete dialogová okna uzavřít a jako Jazyk dokumentu zvolit vámi nadefinovaný jazyk (např. Staroslověnština).
  9. V nabídce Nástroje, dialog Možnosti, panel Číst označte funkci Číst s výukou povolte užití uživatelských vzorů. To je nezbytné pro naučení rozpoznávání znaků, které zdrojový jazyk neobsahuje.

Systémové požadavky:

Aplikace ABBYY FinerReader 12 nebo novější.

© 2020, Slovanský ústav AV ČR, v. v. i.