В свое время эти рекомендации были выложены на сайте химической библиотеки Руслана Кипера. Привожу их.
=================================
Какой должна быть сканированная книга
Здесь я решил собрать те показатели, которые отличают хорошую сканированную книгу от плохой и которым можно стремится при сканировании книг. Эта страница не является требованием к обязательному исполнению, но было бы значительно лучше, если бы выполнялись хотя бы какие-то из нижеприведенных пунктов.
Для электронной книги наилучшим форматом является doc-формат (Файлы Microsoft Word) с сохранением оформления и страниц оригинала, так как в тексте можно проводить полнотекстовый поиск и он меньше по размеру (формулы я бы рекомендовал рисовать программой ChemSketch от ACDLabs, которая интегрируется с Word'ом), но в связи с трудностью преобразования в этот формат из графики рекомендуется использовать djvu-формат как наиболее компактный. Как текстовый можно использовать и pdf-формат, но pdf составленный из графических файлов лучше преобразовать в djvu.
Дальнейшие рекомендации даются для djvu-книг.
Разрешение сканированной книги должно быть 300-600. Это связано с тем, что при меньшем разрешении книга плохо читается (особенно при дефектах текста), а при большем - размер книги сильно возрастает
Рекомендуется, где это возможно, преобразовывать книги из полноцветной графики в bitmap (двухцветный, черно-белый) вид, кроме случаев, когда на странице необходимо сохранить цветной рисунок. Это сильно уменьшает объем книги.
Рекомендуется удалять боковые и серединные черные полосы. За счет этих полос размер книги может возрости в 2-3 раза. Также желательно выровнять текст - это облегчает чтение и распознавание.
Рекомендуется разделять сдвоенные страницы и располагать их по порядку с сохранением соответсвия номера страницы в книге и DjvuPlugin'е. Это сильно облегчает поиск нужной страницы, хотя и несколько увеличивает книгу.
Рекомендуется сканировать страницу с названием или выходными данными книги. Не все записывают название книги со страниц сайта и очень помогает когда название есть внутри. Также очень полезно содержание книги, по нему хорошо искать необходимые страницы. В идеале хорошо было бы сделать содержание в виде гиперссылок на соответствующие страницы. Если желаете сохранить в файле оформление обложки книги, то рекомендуется помещать ее в конец, так как полноцветные страницы или темные открываются долго и человек может решить, что файл с книгой поврежден.
Рекомендуется сделать распознавание (OCR) в книге. Это значительно облегчает поиск страницы с необходимой страницей.
=================================
Какой должна быть сканированная книга
Здесь я решил собрать те показатели, которые отличают хорошую сканированную книгу от плохой и которым можно стремится при сканировании книг. Эта страница не является требованием к обязательному исполнению, но было бы значительно лучше, если бы выполнялись хотя бы какие-то из нижеприведенных пунктов.
Для электронной книги наилучшим форматом является doc-формат (Файлы Microsoft Word) с сохранением оформления и страниц оригинала, так как в тексте можно проводить полнотекстовый поиск и он меньше по размеру (формулы я бы рекомендовал рисовать программой ChemSketch от ACDLabs, которая интегрируется с Word'ом), но в связи с трудностью преобразования в этот формат из графики рекомендуется использовать djvu-формат как наиболее компактный. Как текстовый можно использовать и pdf-формат, но pdf составленный из графических файлов лучше преобразовать в djvu.
Дальнейшие рекомендации даются для djvu-книг.
Разрешение сканированной книги должно быть 300-600. Это связано с тем, что при меньшем разрешении книга плохо читается (особенно при дефектах текста), а при большем - размер книги сильно возрастает
Рекомендуется, где это возможно, преобразовывать книги из полноцветной графики в bitmap (двухцветный, черно-белый) вид, кроме случаев, когда на странице необходимо сохранить цветной рисунок. Это сильно уменьшает объем книги.
Рекомендуется удалять боковые и серединные черные полосы. За счет этих полос размер книги может возрости в 2-3 раза. Также желательно выровнять текст - это облегчает чтение и распознавание.
Рекомендуется разделять сдвоенные страницы и располагать их по порядку с сохранением соответсвия номера страницы в книге и DjvuPlugin'е. Это сильно облегчает поиск нужной страницы, хотя и несколько увеличивает книгу.
Рекомендуется сканировать страницу с названием или выходными данными книги. Не все записывают название книги со страниц сайта и очень помогает когда название есть внутри. Также очень полезно содержание книги, по нему хорошо искать необходимые страницы. В идеале хорошо было бы сделать содержание в виде гиперссылок на соответствующие страницы. Если желаете сохранить в файле оформление обложки книги, то рекомендуется помещать ее в конец, так как полноцветные страницы или темные открываются долго и человек может решить, что файл с книгой поврежден.
Рекомендуется сделать распознавание (OCR) в книге. Это значительно облегчает поиск страницы с необходимой страницей.