Распознавание текста на Fedora с gImageReader и Tesseract
Возникла необходимотсь распознать текста сразу на множестве изображений, нашёл достаточно удобный инстурмент для OCR распознавания текста - gImageReader.
gImageReader - это GTK интерфейс для tesseract-ocr.
Tesseract - одно из самых лучших решений для оптического распознаваня текста (OCR) способный распознать более 100 языков и 30 типов начертаний.
Интерфейс показался мне достаточно удобным, можно как автоматически распознать сразу несколько файлов и распознанный текст появится в боковой панели справа, так и вручную распознать текст с каждого изображения.
Удобно, что можно указать для распознания сразу несколько языков и указать тип содержимого: от сплошного упорядоченного текста до беспорядочно расположенных текстовых блоков. Это позволяет добиться очень хорошего результата с минимумом ошибок.
Для установки в Fedora достаточно ввести следующую команду
sudo dnf install gimagereader-gtk tesseract tesseract-langpack-rus
Также доступен вариант этого же интерфейса но на QT, им не пользовался но полагаю, что его функциональность должна быть очень близкой к GTK версии.