Какой должна быть сканированная книга

Сергей Ружинский Профессиональный строитель Карма: 2282.2 Звание: Опытный Сообщений: 4411 Регистрация: 25.08.2003 Город: Харьков	#1 06.08.05 13:20 В свое время эти рекомендации были выложены на сайте химической библиотеки Руслана Кипера. Привожу их. ================================= Какой должна быть сканированная книга Здесь я решил собрать те показатели, которые отличают хорошую сканированную книгу от плохой и которым можно стремится при сканировании книг. Эта страница не является требованием к обязательному исполнению, но было бы значительно лучше, если бы выполнялись хотя бы какие-то из нижеприведенных пунктов. Для электронной книги наилучшим форматом является doc-формат (Файлы Microsoft Word) с сохранением оформления и страниц оригинала, так как в тексте можно проводить полнотекстовый поиск и он меньше по размеру (формулы я бы рекомендовал рисовать программой ChemSketch от ACDLabs, которая интегрируется с Word'ом), но в связи с трудностью преобразования в этот формат из графики рекомендуется использовать djvu-формат как наиболее компактный. Как текстовый можно использовать и pdf-формат, но pdf составленный из графических файлов лучше преобразовать в djvu. Дальнейшие рекомендации даются для djvu-книг. Разрешение сканированной книги должно быть 300-600. Это связано с тем, что при меньшем разрешении книга плохо читается (особенно при дефектах текста), а при большем - размер книги сильно возрастает Рекомендуется, где это возможно, преобразовывать книги из полноцветной графики в bitmap (двухцветный, черно-белый) вид, кроме случаев, когда на странице необходимо сохранить цветной рисунок. Это сильно уменьшает объем книги. Рекомендуется удалять боковые и серединные черные полосы. За счет этих полос размер книги может возрости в 2-3 раза. Также желательно выровнять текст - это облегчает чтение и распознавание. Рекомендуется разделять сдвоенные страницы и располагать их по порядку с сохранением соответсвия номера страницы в книге и DjvuPlugin'е. Это сильно облегчает поиск нужной страницы, хотя и несколько увеличивает книгу. Рекомендуется сканировать страницу с названием или выходными данными книги. Не все записывают название книги со страниц сайта и очень помогает когда название есть внутри. Также очень полезно содержание книги, по нему хорошо искать необходимые страницы. В идеале хорошо было бы сделать содержание в виде гиперссылок на соответствующие страницы. Если желаете сохранить в файле оформление обложки книги, то рекомендуется помещать ее в конец, так как полноцветные страницы или темные открываются долго и человек может решить, что файл с книгой поврежден. Рекомендуется сделать распознавание (OCR) в книге. Это значительно облегчает поиск страницы с необходимой страницей.
Сергей Ружинский Пользователь Сообщений: 4411 Регистрация: 25.08.2003
	Была ли полезна информация? Цитировать Имя

Сергей Ружинский Профессиональный строитель Карма: 2282.2 Звание: Опытный Сообщений: 4411 Регистрация: 25.08.2003 Город: Харьков	#2 24.04.06 17:01 Для создания электронных книг в формате DJVU требуется несложная программа и минимум усилий. Но вот подготовка сканов-сырцов к оцифровке – занятие крайне утомительное и обременительное. В настоящий момент имеется несколько программ по обработке т.н. «сырых сканов» - с их помощью можно значительно улучшить читабельность, убрать мусор, обрезать края, выровнять и т.д. Одна из таких программ – знаменитый Скан Кромсатор. Обсуждение этой неординарной программы читай: http://forum.ru-board.com/topic.cgi?for ... art=480#11 Ниже привожу свой вариант рекомендаций по обработке сырых сканов. Мне кажется он проще, т.к. использует полностью ресурсы Файн Ридера. И если бы новую версию Файн Ридера «доукомплектовать» …. – ну в общем мечтать не вредно … Пример – в приложенном файле. ====================================================================== Ниже мои соображения по поводу улучшений FR ================================= Я сделал в такой способ уже много книжек. Опишу суть идеи. В качестве иллюстрации своих мыслей прикладываю файл в djvu в котором 2 страницы последовательно обработаны разными способами. Но сначала изложу свое видение проблеммы. Для изготовления djvu книг задействуются программы графического редактирования типа Скан Кромсатор, BR и т.д. Основная функция этих программ – обрезать края, убрать грязь, выровнять и т.д. Короче - по возможности повысить читабельность книг. Работать с этими программами сложно т.к. они оперируют исключительно графическим образом и в своей работе никоим образом не отталкиваются от смыслового контента. Такие программы нужно предварительно инструктировать в отношении чуть ли не каждого пиксела, что хлопотно, громоздко и требует специальных знаний. Мало того очень часто полностью правильно «проинструктировать» такие программы бывает просто невозможно. (Например точка в букве «i» - это мусор, или трогать нельзя? и т.д.) Напрашивается вывод - использовать программы OSR типа Файн Ридера. Но нельзя добиться 100% распознавания – поэтому нужна длительная и кропотливая вычитка, особенно на технических текстах с обилием графики, формул, таблиц, при некачественном сканировании и т.д. А нельзя ли как-то обойти невозможность 100% распознавания программами OSR при создании книг в форматах pdf или djvu ? – Можно. И в FR до версии №8 (а сейчас вроде бы и в FR8 уже исправлено) есть такая опция для сохранения результатов в pdf – «Заменять неуверенно распознанные слова их изображениями». В итоге получаем отменного качества djvu книги в которых только малая толика информации сравнительно «некачественная», но читабельность от этого не теряется, и глаз порой даже не замечает подмены. Но и этот способ не лишен определенных сложностей, и хотелось бы чтобы разработчики FR как-то учли это. Но дальше будет проще на примере. Итак имеем 2 стр. сырца в 300 dpi сканенных FR-6 – стр. 126-127 (В углу – «Исходник») (все сделано на FR-6, т.к. у имеющегося у меня FR-8 нет нужного прибамбаса) ------------------------------ Следующие 2 стр. (FR-6 сам все блоки расставил) Поручаем всю работу FR-у – он сам определяет в автомате все блоки и сам все распознает. Сохраняем результат распознавания в pdf файл выбрав опцию «Заменять неуверенно распознанные слова их изображениями» Видим, что с формулами беда да и рисунок потерялся. – Не годится. ------------------------------ Следующие 2 стр. (Вручную – все текст) Беру все что есть на странице и тупо сам вручную обозначаю как блок «Текст». После распознавания – одна страница, где формулы – все нормально, на другой странице, где рисунок и таблица – не годится. ------------------------- Следующие 2 стр. (Вручную выделены формулы, рисунок и таблица). Сначала FR сам расставляет блоки как ему вздумается. А я потом вручную те места, которые предполагаю, что он не распознает правильно обконтуриваю как «Рисунок». Аналогично с теми местами (обычно – формулы) которые FR вообще никак не помечает. В итоге получаются последние 2 стр. которые более чем хорошего качества. ------------ Небольшое пояснение. «Выгнав» изображение в формате pdf я потом тем же FR читаю этот pdf и сразу же без распознавания сохраняю полученные страницы в bmp. А потом беру эти bmp-шки Solo и делаю djvu. В итоге для создания книги в формате djvu - мне нужно всего 2 программы – FR и Solo - для изготовления действительно качественных djvu книг подходит «любая обезьяна» умеющая кормить сканер и тягать мышкой блоки (в отношении же альтернативы - Скан Кромсатора – не усадишь, а усадишь – сплошной мат перемат потом). ================================ Теперь главное – чего хотелось бы в новой версии FR для полного счастья. 1. Хотелось бы полями уметь управлять при выгоне в pdf (возможно есть, но я не нашел) 2. На стр. 127 – чуть выше и левее рисунка – разнобой какой-то по высоте. Нехорошо-с. Это FR так криво отработал или я чегой-то не включил? 3. На стр.126 – 5 строка сверху. Было «0,05 Н» а FR упорно выдает «0,05 Я». В этой связи было бы очень неплохо чтобы пользователь мог как-то управлять «степенью нераспознанности» - т.е. если FR не уверен на все 200% в правильности распознавания – пусть оставляет «как картинку» и не умничает сильно. Конечно процент распознавания значительно уменьшится, но в данном случае это не играет особой роли. 4. Хотелось бы чтобы FR все-все-все, чего не распознал, или не понял чего это (формулы, например) все равно обозначал как блок «Картинка» - тогда вообще никакой ручной работы не понадобится. 5. Хотелось бы (ну можно помечтать?) чтобы FR сам и djvu файлы умел создавать – тогда вообще всего одна программа понадобится. Прикрепленные файлы проба.djvu (85.98 КБ)
Сергей Ружинский Пользователь Сообщений: 4411 Регистрация: 25.08.2003
	Была ли полезна информация? Цитировать Имя

avv_rem Карма: 5.5 Звание: Пользователь Сообщений: 35 Регистрация: 24.07.2009	#3 03.12.10 13:16 Есть несколько оцифрованных книг по производству цемента в формате DJVU. Как добавить их в библиотку? На какой адрес их можно выслать?
avv_rem Пользователь Сообщений: 35 Регистрация: 24.07.2009
	Была ли полезна информация? Цитировать Имя