Jazyky
Slovník pro OCR rozpoznávání staroslověnštiny
Specializovaná veřejné databáze Slovník pro OCR rozpoznávání staroslověnštiny byla vytvořena v rámci projektu GORAZD: Digitální portál staroslověnštiny (projekt je realizován v rámci programu NAKI II Ministerstva kultury ČR, DG16P02H024, 2016-2020).
Cílem databáze je navýšit úspěšnost optického rozpoznávání znaků (OCR) tištěných staroslověnských cyrilských textů, např. slovníků nebo edic. Databáze byla vyvinuta v rámci digitalizace Slovníku jazyka staroslověnského (SJS) pomocí metody OCR. Databáze je určena pro použití v aplikaci ABBYY FineReader 12 nebo novější.
Obsahem databáze je více než 130 000 unikátních staroslověnských lexikálních jednotek excerpovaných ze SJS. Databáze tak obsahuje jak normalizovaná lemmata, tak obsah rukopisných citací z památek zahrnujících jak kanonickou staroslověnštinu, tak pozdější redakce církevní slovanštiny.
Přístup:
Slovník pro OCR rozpoznávání staroslověnštiny
Návod k použití (pro ABBYY FinerReader 12):
- Rozbalte obsah balíčku gorazd_ocr-1.zip.
- Spusťte aplikaci ABBYY FinerReader 12 a v hlavní nabídce zvolte Nástroje a dále Jazykový editor.
- Otevřete dialog Nový… a zvolte Vytvořit nový jazyk na základě existujícího jazyka. V nabídce vyberte Ruština (Starý Pravopis).
- Jazyk pojmenujte, např. Staroslověnština.
- V poli Abeceda stiskněte tlačítko … a označte ty znaky, které potřebujete v dokumentu rozeznávat. Doporučejme do abecedy zahrnout jen ty znaky, které se v textu skutečně vyskytují, tím se zvýší úspěšnost rozpoznávání.
- V nabídce Slovník zvolte Uživatelský slovník a stisknětě tlašítko Upravit….
- Dále stiskněte tlačítko Importovat… a vyberte soubor gorazd_ocr-1.txt. Načítání souboru může chvíli trvat.
- Po načtení souboru stiskněte můžete dialogová okna uzavřít a jako Jazyk dokumentu zvolit vámi nadefinovaný jazyk (např. Staroslověnština).
- V nabídce Nástroje, dialog Možnosti, panel Číst označte funkci Číst s výukou povolte užití uživatelských vzorů. To je nezbytné pro naučení rozpoznávání znaků, které zdrojový jazyk neobsahuje.
Systémové požadavky:
Aplikace ABBYY FinerReader 12 nebo novější.
© 2020, Slovanský ústav AV ČR, v. v. i.