Какой должна быть сканированная книга

Какой должна быть сканированная книга
В свое время эти рекомендации были выложены на сайте химической библиотеки Руслана Кипера. Привожу их.
=================================



Какой должна быть сканированная книга


Здесь я решил собрать те показатели, которые отличают хорошую сканированную книгу от плохой и которым можно стремится при сканировании книг. Эта страница не является требованием к обязательному исполнению, но было бы значительно лучше, если бы выполнялись хотя бы какие-то из нижеприведенных пунктов.


Для электронной книги наилучшим форматом является doc-формат (Файлы Microsoft Word) с сохранением оформления и страниц оригинала, так как в тексте можно проводить полнотекстовый поиск и он меньше по размеру (формулы я бы рекомендовал рисовать программой ChemSketch от ACDLabs, которая интегрируется с Word'ом), но в связи с трудностью преобразования в этот формат из графики рекомендуется использовать djvu-формат как наиболее компактный. Как текстовый можно использовать и pdf-формат, но pdf составленный из графических файлов лучше преобразовать в djvu.



Дальнейшие рекомендации даются для djvu-книг.

Разрешение сканированной книги должно быть 300-600. Это связано с тем, что при меньшем разрешении книга плохо читается (особенно при дефектах текста), а при большем - размер книги сильно возрастает

Рекомендуется, где это возможно, преобразовывать книги из полноцветной графики в bitmap (двухцветный, черно-белый) вид, кроме случаев, когда на странице необходимо сохранить цветной рисунок. Это сильно уменьшает объем книги.

Рекомендуется удалять боковые и серединные черные полосы. За счет этих полос размер книги может возрости в 2-3 раза. Также желательно выровнять текст - это облегчает чтение и распознавание.

Рекомендуется разделять сдвоенные страницы и располагать их по порядку с сохранением соответсвия номера страницы в книге и DjvuPlugin'е. Это сильно облегчает поиск нужной страницы, хотя и несколько увеличивает книгу.

Рекомендуется сканировать страницу с названием или выходными данными книги. Не все записывают название книги со страниц сайта и очень помогает когда название есть внутри. Также очень полезно содержание книги, по нему хорошо искать необходимые страницы. В идеале хорошо было бы сделать содержание в виде гиперссылок на соответствующие страницы. Если желаете сохранить в файле оформление обложки книги, то рекомендуется помещать ее в конец, так как полноцветные страницы или темные открываются долго и человек может решить, что файл с книгой поврежден.

Рекомендуется сделать распознавание (OCR) в книге. Это значительно облегчает поиск страницы с необходимой страницей.
Была ли полезна информация?
Для создания электронных книг в формате DJVU требуется несложная программа и минимум усилий.

Но вот подготовка сканов-сырцов к оцифровке – занятие крайне утомительное и обременительное.
В настоящий момент имеется несколько программ по обработке т.н. «сырых сканов» - с их помощью можно значительно улучшить читабельность, убрать мусор, обрезать края, выровнять и т.д.

Одна из таких программ – знаменитый Скан Кромсатор.
Обсуждение этой неординарной программы читай:

http://forum.ru-board.com/topic.cgi?for ... art=480#11

Ниже привожу свой вариант рекомендаций по обработке сырых сканов. Мне кажется он проще, т.к. использует полностью ресурсы Файн Ридера. И если бы новую версию Файн Ридера «доукомплектовать» …. – ну в общем мечтать не вредно … :)
Пример – в приложенном файле.

============================================================­==========

Ниже мои соображения по поводу улучшений FR


=================================


Я сделал в такой способ уже много книжек. Опишу суть идеи.

В качестве иллюстрации своих мыслей прикладываю файл в djvu в котором 2 страницы последовательно обработаны разными способами.

Но сначала изложу свое видение проблеммы.


Для изготовления djvu книг задействуются программы графического редактирования типа Скан Кромсатор, BR и т.д. Основная функция этих программ – обрезать края, убрать грязь, выровнять и т.д. Короче - по возможности повысить читабельность книг.

Работать с этими программами сложно т.к. они оперируют исключительно графическим образом и в своей работе никоим образом не отталкиваются от смыслового контента. Такие программы нужно предварительно инструктировать в отношении чуть ли не каждого пиксела, что хлопотно, громоздко и требует специальных знаний. Мало того очень часто полностью правильно «проинструктировать» такие программы бывает просто невозможно. (Например точка в букве «i» - это мусор, или трогать нельзя? и т.д.)

Напрашивается вывод - использовать программы OSR типа Файн Ридера. Но нельзя добиться 100% распознавания – поэтому нужна длительная и кропотливая вычитка, особенно на технических текстах с обилием графики, формул, таблиц, при некачественном сканировании и т.д.

А нельзя ли как-то обойти невозможность 100% распознавания программами OSR при создании книг в форматах pdf или djvu ?
– Можно. И в FR до версии №8 (а сейчас вроде бы и в FR8 уже исправлено) есть такая опция для сохранения результатов в pdf – «Заменять неуверенно распознанные слова их изображениями».
В итоге получаем отменного качества djvu книги в которых только малая толика информации сравнительно «некачественная», но читабельность от этого не теряется, и глаз порой даже не замечает подмены.

Но и этот способ не лишен определенных сложностей, и хотелось бы чтобы разработчики FR как-то учли это. Но дальше будет проще на примере.

Итак имеем 2 стр. сырца в 300 dpi сканенных FR-6 – стр. 126-127 (В углу – «Исходник»)

(все сделано на FR-6, т.к. у имеющегося у меня FR-8 нет нужного прибамбаса)

------------------------------

Следующие 2 стр. (FR-6 сам все блоки расставил)
Поручаем всю работу FR-у – он сам определяет в автомате все блоки и сам все распознает. Сохраняем результат распознавания в pdf файл выбрав опцию «Заменять неуверенно распознанные слова их изображениями»
Видим, что с формулами беда да и рисунок потерялся. – Не годится.


------------------------------

Следующие 2 стр. (Вручную – все текст)
Беру все что есть на странице и тупо сам вручную обозначаю как блок «Текст». После распознавания – одна страница, где формулы – все нормально, на другой странице, где рисунок и таблица – не годится.


-------------------------

Следующие 2 стр. (Вручную выделены формулы, рисунок и таблица).
Сначала FR сам расставляет блоки как ему вздумается. А я потом вручную те места, которые предполагаю, что он не распознает правильно обконтуриваю как «Рисунок». Аналогично с теми местами (обычно – формулы) которые FR вообще никак не помечает.
В итоге получаются последние 2 стр. которые более чем хорошего качества.

------------
Небольшое пояснение. «Выгнав» изображение в формате pdf я потом тем же FR читаю этот pdf и сразу же без распознавания сохраняю полученные страницы в bmp. А потом беру эти bmp-шки Solo и делаю djvu.
В итоге для создания книги в формате djvu

- мне нужно всего 2 программы – FR и Solo
- для изготовления действительно качественных djvu книг подходит «любая обезьяна» умеющая кормить сканер и тягать мышкой блоки (в отношении же альтернативы - Скан Кромсатора – не усадишь, а усадишь – сплошной мат перемат потом).

================================

Теперь главное – чего хотелось бы в новой версии FR для полного счастья.

1. Хотелось бы полями уметь управлять при выгоне в pdf (возможно есть, но я не нашел)

2. На стр. 127 – чуть выше и левее рисунка – разнобой какой-то по высоте. Нехорошо-с. Это FR так криво отработал или я чегой-то не включил?

3. На стр.126 – 5 строка сверху. Было «0,05 Н» а FR упорно выдает «0,05 Я».
В этой связи было бы очень неплохо чтобы пользователь мог как-то управлять «степенью нераспознанности» - т.е. если FR не уверен на все 200% в правильности распознавания – пусть оставляет «как картинку» и не умничает сильно. Конечно процент распознавания значительно уменьшится, но в данном случае это не играет особой роли.

4. Хотелось бы чтобы FR все-все-все, чего не распознал, или не понял чего это (формулы, например) все равно обозначал как блок «Картинка» - тогда вообще никакой ручной работы не понадобится.

5. Хотелось бы (ну можно помечтать?) чтобы FR сам и djvu файлы умел создавать – тогда вообще всего одна программа понадобится.
Была ли полезна информация?
Есть несколько оцифрованных книг по производству цемента в формате DJVU. Как добавить их в библиотку? На какой адрес их можно выслать?
Была ли полезна информация?
Читают тему (гостей: 1)
Форма ответов
Текст сообщения*
Загрузить файлы
Отправить Отменить