Principios de Digitalización de Doctos.

Esta sección está dedicada a aquellas personas que han oído acerca de este tema y que como yo, creíamos que la digitalización o escaneo de documentos empezaba en un scanner de cama plana o un multifuncional sin tomar en cuenta varios e importantes detalles, ahora voy a platicarles algunos conceptos básicos que les ayudarán a decidir entre las diferentes opciones de digitalización o escaneo de documentos. Comenzaré  a platicarte de cómo van afectando las características del documento digitalizado, y su relación con el almacenamiento, tiempo de escaneo, tamaño de la imagen, transmisión de la misma, etc. La siguiente figura muestra algo que llamaré el Ciclo de Digitalización, notarás que todo el proceso de escaneo comienza con un documento físico y termina o al menos es una de las finalidades primordiales, el tener la consulta de la información escaneada de manera electrónica.

Ciclo de Digitalización

Ciclo de Digitalización

A continuación dedicaremos unas líneas para analizar cada elemento de nuestro Ciclo de Digitalización.

Documentos

Aquí empieza nuestro Ciclo de Digitalización y es aquí donde podemos encontrar desde hojas tamaño carta, oficio, revistas, libros empastados, cosidos, con espiral, de tamaño tabloide, escritos a mano, en tipografía o con letras de impresora de matriz o láser, papel térmico, planos, etc.

Y la primera interrogante es qué scanner utilizar para cada tipo de documento, en general vamos a tener dos opciones importantes:

a) Un scanner de documentos.

b) Un scanner planetario o de libros.

c) Un scanner para planos.

 

En los scanners de documentos podemos digitalizar hojas sueltas ya sean tamaño carta u oficio, los equipos más grandes pueden ser capaces de digitalizar hojas de tamaño A3, una hoja tamaño A3 se forma al unir 2 hojas tamaño carta por su extremo más largo, quedando un tamaño final de 17 pulgadas de ancho. Los scanners comerciales de documentos pueden digitalizar una hoja de 17 pulgadas de ancho y de hasta 34 pulgadas de largo (un tamaño más que suficiente para la mayoría de los documentos que se manejen administrativamente).

Las velocidades de digitalización también varían, van desde las 15 páginas por minuto (ppm) hasta de 200 ppm, los scanners de estas velocidades reciben el nombre de scanners de producción.

Aquí más que el tamaño y la velocidad lo que debe considerarse es que el documento a scannear pueda ser “pasado” por los rodillos del  equipo, que dichos documentos estén libres de clips y grapas – que pueden afectar el mecanismo de los equipos-. En muchas ocasiones te encontrarás con hojas tamaño carta, pero encuadernadas y desde luego esto no puede pasarse por el scanner directamente. Otro factor que me encuentre muy a menudo es la de la opción de digitalizar Licencias de Manejo y credenciales del IFE o documentos con un espesor similar (documentos de hoja gruesa o de “gramaje” alto), pero por fortuna hay equipos que pueden digitalizar este tipo de identificaciones e incluso, mezclar hojas de papel cebolla, hojas bond y hasta licencia en un mismo lote -o grupo de documentos- y colocarnos mezclados entre sí.

Cuando te pidan digitalizar una hoja que está encuadernada, empastada, cosida, etc, o de un tamaño superior a las 17 pulgadas de ancho, es necesario considerar un scanner de libros y planetarios.

los scanners de libros o planetarios no son otra cosa que scanners capaces de tomar una imagen aérea del documento en cuestión, para libros, revistas, manuales, documentos empastados o aquellos que excedan las medidas que puede trabajar un scanner de documentos, al momento de elegir un scanner planetario no es sólo decir que se requiere uno, debe considerarse si el proyecto lo amerita; la razón, muy sencila: el costo. Mientras que un excelente equipo de documentos cuesta alrededor de 1000 USD un planetario para dcouemhtos A3 está alrededor de ¡¡30000 euros!!, sí en euros porque las mejores  marcas de estos equipos tienen su sede en Francia y Alemania.

Te comparto la imagen de un scanner de documentos y uno de libros.

Scanner de Documentos

Ciclo de Digitalización

Scanner de Libros

Ciclo de Digitalización

 

Preparación

Esta parte del proceso es una de las importantes, y cuando se dimensiona un proyecto de digitalización en tiempo y dinero es este punto el que más cuenta.

Cuando he dado capacitaciones presenciales siempre les doy este ejemplo a los asistentes:

“Mucha gente dimensiona el tiempo que va a invertir en escanear o digitalizar docuemntos considerando la velocidad del equipo y hacen estas operaciones aritméticas:

  • Si el scanner trabaja a 100ppm, en 10 minutos escanearé 1000 hojas y en una hora tendré 6mil.
  • Considerando esto, en un turno de 8 horas tendré 48 mil.
  • Y en 10 días 480 mil o hummm digamos medio millón
  • para finalmente en el lapso de un mes obtener casi un millón y medio de hojas escaneadas.

Este es un error común, ¿por qué? porque se considera que el equipo no se detendrá nunca, que nunca se atorará una hoja y que seremos capaces de alimentar el scanner con 500 hojas cada 5 minutos -el scanner trabaja a 100ppm-. Para llevar a cabo este proceso necesitaríamos literalmente un ejercito de personas que estuvieran preparando los documentos; es decir, quitando grapas, clips, broches, etc, que los dejaran acomodados y listos para ser procesados por el scanner y hasta con una previa separación de los documentos -con el tiempo las hojas llegan a pegarse unas con otras-.

Otro punto no menos importante es la definición de los índices -metadatos, o criterios de búsqueda-. Al ser el fin último la consulta de documentos electrónicos unos delos principales objetivos de la digitalización, es de vital importancia saber qué se quiere obtener de los documentos escaneados, aquí unos ejemplos:

  • Folio
  • Nombre
  • Apellido Paterno
  • Materno
  • Matrícula
  • Número de cuenta
  • etc,

Puedes consultar más tarde el post que escribiré de acuerdo a los métodos de captura de este tipo de información. Por ahora, considera que el scanner y el software que viene acompañado del mismo te permite digitalizar la imagen y al mismo tiempo obtener datos de la misma que pueden ocuparse para la búsqueda de información dentro de cada uno de dichos documentos. Este dato hace algunos años que me inicié en el área de Digitalización de Documentos no lo conocía, pensé que un scanner sólo podía obtener una imagen digital y ya!!!.

De acuerdo a lo anterior en este punto debe definirse qué datos y de qué parte delos documentos se obtendrán, para de esta manera programar la lectura en el software de captura que venga con el scanner.

Captura y Digitalización

En esta parte del proceso , sólo tomamos lo que el área de preparación y directamente ingresamos los documentos al scanner, él se encargará de obtener una imagen digital para nosotros y de obtener los datos que servirán para la posterior identificación del documento.

En el paso anterior definimos qué datos serían obtenidos y lo programamos en el software de captura. En los posts posteriores a éste puedes revisar lo relacionado a la captura de OCR y Código de Barras.

También debe definirse previamente quué formato de imagen nos entregará el scanner, a qué resolución y si ésta será en blanco y negro,a color o ambas, nuevamente te referenció a los posts que hablan sobre estos temas aquí en esta misma categoría: Conceptos Básicos.

 

Control de Calidad e Indización

El control de calidad en la imagen nos advierte si una imagen es ilegible, si está “de cabeza”, si una parte del documento se omitió escanear debido a un doblez en l ahoja o a una rotura de la misma.

Lo que se refiere a la indización o “indexación”, es todo el proceso con el que se manejan los datos extraídos de los documentos y que posteriormente se van utilizar en la consulta y búsqueda de documentos, los índices son en esencia o son los elementos de una tabla que puede ser usada en una base de datos, el Administrador de base de datos depende de cada caso en particular, el integrar los índices en un sistema de consulta -un Visor- y/o integrarlos a una base de datos existente en el cliente o más aún hacer una integración de lo capturado con su sistema siempre es algo demandado y es algo por lo que se cobra muy muy bien, así que te mostraré en varios post adicionales la manera en que puedes llevarlas a cabo.

 Almacenamiento

El elegir un formato adecuado para la imagen y la resolución adecuada son algunos de los factores que afectan el tamaño de la imagen y el tamaño afecta también el espacio requerido para alojar los archivos digitales obtenidos. Como digo cuando doy el curso preencial “las imagenes no pueden estar en el limbo” necesitan un espacio donde estar donde permanecer.

Cuando las imágenes son muy grandes esto hace más difícil su manejo y almacenamiento, así que el reto en el manejo de imagenes escaneadas es siempre Obtener una imagen de Calidad con el Mínimo de Espacio, cuando un grupo de imágenes humm digamos 10 miden medio mega cada una, un archivo de 5 megas no se nos hace tan pesado manejarlo ni distribuirlo, pero piensa que si esas imágenes en lugar de ser 10 son 10 millones!!, seguro querrás replantear el espacio que ocupa cada una de ellas.

Si tenemos una imagen de buena calidad que mide la mitad que otra, invertiremos la mitad del tiempo en almacenarla, distribuirla, ocuparemos la mitad del tiempo en respardarla y la mitad de discos duros o arreglo de discos en alojarla, así, a la hora de los costos todo cuenta.

 

 

 

Leave a Reply

Your email address will not be published. Required fields are marked *