Construyendo una plataforma para digitalizar libros

Hay muchas opciones para construir una platafoma. Se puede comprar un kit, construir un diseño ya establecido y probado por otras prsonas, o forjar uno propio y hacer algo completamente nuevo.

Seleccionando cámaras

Hay una gran variedad de cámaras con las que se puede digitalizar. Si estás pensando utilizar Pi Scan para controlar tus cámaras, entonces deberías usar cámaras Canon PowerShot ELPH 160. Pero si estás utilizando otra configuración, acá hay algunas líneas generales para seleccionar una cámara.

Seleccionar la cámara adecuada es muy importante. Tenemos años y años de debate en este tema. No hay pregunta que se repita con más frecuencia, así que nadie pensó en este tema más que la comunidad de escáneres de libros "Do It Yourself". Y tenemos un proceso de tres pasos para resolver este problema.

Paso 1. ¿Cuántos megapíxeles necesitás?

A. Necesitás medir los libros que querés digitalizar. El objetivo es encontrar aquel que tenga el tamaño más grande en promedio (no hay que seleccionar los valores más grandes y atípicos). Por ejemplo, la mayoría de los libros de texto tienen alrededor de 9 x 11 pulgadas (22.86cm x 27.94cm).

B. Ahora, multiplicá ese tamaño por los PPP (pixeles por pulgada, o puntos por pulgada) que pretendés capturar. 300 es un mínimo seguro, ya que no se puede fallar si se va más allá de eso. Así que en nuestro ejemplo, sería: 9*300=2700. 11*300=3300. Necesitamos una iamgen que sea por lo menos de 2700x3300 = 8910000 píxeles, o sea, alrededor de 9 megapíxeles. Claro, eso es si utilizaras cada píxel perfectamente para capturar cada parte de la página, algo que NUNCA sucede. Por eso, para estar seguros, conviene agregar un 20-30% adicional para reemplazar los píxeles perdidos. En este caso, eso hace que 12 megapíxeles sea el mínimo para obtener una captura de al menos 300PPP (o DPI).

Paso 2. ¿Cuánto control necesitás?

Si solamente vas a digitalizar un libro, o si estás digitalizando un libro que sólo contiene información (opuesto al objetivo de capturar la apariencia física del libro), no se necesitan capturas tan buenas. Si la iluminación cambia, o las configuraciones de la cámara varían de captura a captura, aún vas a obtener algún tipo de resultado utilizable. Sin embargo, cuanto más perfecta necesites que sea la captura, y cuantas más páginas necesites capturar, más control vas a necesitar. Asumiendo entonces que querés hacer un buen trabajo y te importa más que el texto crudo en cada página, vas a necesitar una cámara que te permita controlar lo siguiente:

  1. Tiempo de exposición
  2. Balance de blancos
  3. Apertura
  4. ISO
  5. Flash prendido/apagado
  6. Cualquier procesamiento personalizado de imagen (mejoras de color, etc)
  7. Foco (idealmente que permita clausurar el foco)
  8. Compensación de exposición
  9. Zoom

La mayoría de las DSLRs permiten todo este tipo de control; para las cámaras compactas o de bolsillo, sólo las cámaras Canon Powershot son capaces de correr CHDK, que te da control sobre todos estos parámetros. Para ver si una cámara es capaz o no de correr CHDK, se puede chequear en este listado.

Un factor más a considerar: idealmente querés hacer correr estas cámaras con un adaptador AC (a la corriente eléctrica) en vez de con baterías. Tendrías que chequear previamente la disponbilidad de estos accesorios, o la posibilidad de reemplazarlos con un accesorio que puedas hacer vos mismo.

Paso 3. ¿Cuánto dinero tenés?

Si tenés un buen presupuesto, simplemente comprá cámaras DSLR y utilizá esas. Comprá la resolución más alta que puedas conseguir, y probá los distintos tipos de lentes que vienen con el cuerpo de la cámara, como punto de partida (generalmente sólo cuestan $50-100 USD más sobre el precio del cuerpo de la cámara y funcionan razonablemente bien.

Si estás con un presupuesto ajustado, las ya mencionadas cámaras Canon compactas o de bolsillo pueden ser compradas por presupuestos como $75 USD cada una, y, con CHDK, pueden producir imágenes de alta calidad. Son por lejos el mejor retorno de la inversión -que es sobre lo que trata toda esta movida de los escáneres de libros "do it yourself".

CHDK y las cámaras Canon

La mayoría de las cámaras compactas y económias no tienen una interfaz de software. Sólo pueden ser controladas manualmente o con un disparador mecánico. Pero un grupo de voluntarios ha desarrollado software que permite que las cámaras compactas de Canon sean controladas y configuradas de manera remota. Este software se llama CHDK (Canon Hack Development Kit).

El CHDK se instala en una tarjeta SD, que luego se inserta en la cámara. Cuando la cámara se inicia, CHDK ya está corriendo. Dado que el CHDK no hace cambios permanentes a la cámara, siempre se puede remover la tarjeta SD que tiene el CHDK instalado para correr la cámara normalmente.

El CHDK es un pre-requisito esencial para los controladores de software que se listan más abajo. Los controladores corren en una PC o en una Raspberry Pi y se comunican con el CHDK que está corriendo en las cámaras a través de los puertos USB. CHDK provee muchas capacidades mejoradas, incluyendo la capacidad de controlar la cámara vía USB, capturar fotografías, y luego transferir las imágenes resultante vía USB al controlador.

Como CHDK es tan útil y no hay ningún equivalente a CHDK para otro tipo de cámaras compactas, de bolsillo o de "apunta y dispara", la mayoría de los usuarios en el foro utilizan cámaras Canon en sus plataformas. Si utilizás otro tipo de cámaras compactas, la única opción de control es algún tipo de gatillo mecánico o manual.

Controlando las cámaras

La primera tarea para digitalizar libros es capturar una imagen de cada página, y luego ubicar esas imágenes en un lugar conveniente. Hay varias maneras de ejecutar esta tarea.

Images to eBooks

Luego de la captura, el resultado será una carpeta llena de imágenes. Convertir esas imágenes en un libro electrónico se llama 'post-proceso'. Los pasos que efectivamente hay que tomar para esto depende de las necesidades específicas de cada uno. Alguna gente quiere comprimir todo cuanto más sea posible, y extraer el texto del libro utilizando OCR (reconocimiento óptico de caracteres). Otros simplemente quieren cortar cada imagen de la página y combinarlas en un PDF. Hay un manual (en inglés) que tiene varias secciones que describen este proceso, llamado Enlightenment. También hay algunas herramientas de software que permiten realizar esas tareas. Aquí hay algunas:

¿Preguntas? ¿Ideas? ¡Únete al foro!