Digitalización, scanning y OCR con Alfresco

alfresco-logoEn el paradigma “oficina sin papeles”, intervienen muchos actores, siendo los principales las personas, que deben ajustarse a una serie de procedimientos y metodologías, y los sistemas de información, que deben proveer soluciones al paradigma.

En cuanto a complejidad, un proyecto de “Paperless Office” es tan difícil y en ocasiones frustrante como un proyecto de “Single Sign” o “Identity Management” en grandes organizaciones consolidadas ya sean públicas o privadas. El problema principal son, por un lado las soluciones Open Source de calidad, que no son muchas, los requerimientos técnicos del cliente dados muchas veces por aplicaciones obsoletas y heredadas.

Con Alfresco, gracias a características como el soporte CIFS, Webdav, reglas, transformación de formatos, workflow o indexación, conseguimos aproximarnos a nuestro objetivo, aunque en una oficina sin papeles necesitaríamos integrarnos con otras soluciones como firma digital, etc, que ya contemplaré algún día por estos lares.

En este caso me gustaría contar qué puede hacer Alfresco por nosotros en cuanto a digitalización de documentos, escaneo masivo (bulk scan) y OCR:

a) Ad-hoc scanning: usando CIFS o Webdav con la extracción de metadatos automática (por defecto). La mayoría de las impresoras/escaner multifunción modernas de oficina y de cierta envergadura soporta montar volúmenes remotos (conectarse a carpetas de red) para colocar la documentación escaneada. También podríamos hacerlo desde un escaner conectado a nuestra estación de trabajo. De esta forma se almacenarían los documentos directamente en Alfresco y posteriormente se pueden lanzar workflows, transformaciones, reglas, etc. Por ejemplo, una hoja de gastos, hoja de reclamaciones, actas, pedidos de clientes, documentos de identificación en puestos de control, etc.

En el caso anterior, que hemos llamado Ad-hoc scanning, no se contempla indexación del contenido de los documentos ya que estas grandes impresoras por defecto no hacen reconocimiento de texto (OCR), por lo que el documento escaneado, aun conteniendo texto, sería como una imagen. Para salvar este escollo se puede integrar con Alfresco una solución gratuita llamada Intelliant, basada en la SDK de Tiger OCR. Esta solución, que sólo funciona si el servidor Alfresco está instalado en un sistema operativo MS Windows, nos permitirá, a través de reglas y transformaciones, extraer todo el texto de un documento escaneado de forma que se pueda indexar y podamos hacer búsquedas por el contenido, algo realmente cómodo.

b) Batch scanning: Cuando necesitamos escanear cientos de documentos tipo plantilla, por ejemplo hojas de matrícula, facturas, exámenes, etc, y de éstos documentos queremos extraer la información y poder vincularla a metadatos de Alfresco, ya sea del modelo de datos por defecto o de un modelo personalizado, necesitaremos una solución que permita mapear la información existente en la plantilla/documento escaneado de turno, con un tipo de contenido de Alfresco, campo del documento con un metadato en Alfresco, etc. Esta solución se llama Kofax Ascent Capture, Alfresco dispone de un plugin gratuito y disponible en la forja de Alfresco [http://forge.alfresco.com]. Este software utiliza la API de WebServices de Alfresco para realizar su trabajo. El plugin sólo funciona en MS Windows.

Kofax Ascent Capture tiene las siguientes características (fuente):

  • Corrección y mejora automática de imágenes.
  • Separado automático de documentos e identificación automática de formularios.
  • OCR, ICR y OMR para reconocimiento de texto impreso o escrito a mano en cientos de idiomas, códigos de barras y otros tipos de códigos.
  • Certificado para funcionar con la mayoría de scanners, ver listado.
  • Integración con Alfresco y gestión de procesos de negocio.

La opción a) es completamente gratuita y la opción b) depende del propio software Kofax Ascent Capture, que no es gratuito.

Hay otras soluciones como usar un escaner con soporte eCopy, cuyo conector con Alfresco ha sido desarrollado por SIRA Systems. Este conector permite a un usuario escanear un documento y ponerlo directamente en Alfresco. Este software se instala en el escaner y hace de interfaz entre el escaner y Alfresco. Sería una solución del tipo a) ya que no contempla selección ni mapeo de datos de los documentos escaneados, aunque si permite la indexación del contenido ya que incorpora un OCR, esta solución cuesta 2.495USD. Más información sobre el conector de SIRA Systems aquí.

Consultoría sobre Zimbra en el mundo real.

zimbra_logoEl otro día recibí un correo electrónico de un antiguo compañero de trabajo que sabía que yo andaba en temas del mundo Open Source, para hacerme una serie de cuestiones relacionadas con Zimbra. Le respondí y le pregunté si le importaba que usara esa respuesta para crear un artículo en mi blog, él accedió y aquí está el correo con cierto toque de rimel y polvos para que quedase medio bien.

Antes de seguir quiero describir de una forma muy breve qué es Zimbra (extraído/traducido de su web): Zimbra Collaboration Suite (ZCS) 5.0 es una moderna e innovadora aplicación de mensajería y colaboración. Zimbra es la primera solución de código abierto para la empresa, proveedor de servicios, educación, gobiernos y medios; ofreciendo tanto a administradores como a usuarios finales una cantidad importante de características y beneficios. Zimbra es una opción interesante como servidor de correo electrónico en Mac y Linux, también soporta clientes para Windows y protocolos para reemplazar MS Exchange sin problemas. Más información aquí.

Consulta:

Tengo un amigo que tiene una empresa y necesita algo para tener sincronizado el mail, contactos, calendario y demás en las tres delegaciones que tiene, además el tiene un flamante iPhone y quiere tener acceso a todo ello de manera móvil.

En los PCs de las delegaciones podría instalar el Yahoo Zimbra Desktop (que no es mas que un cliente para Zimbra) o bien el conector de Zimbra para MS Outlook que sincronice todos los datos. Pero claro he visto que la versión Open Source ni tiene conector ni tiene soporte para iPhone.

He visto que para el tema de importar los datos de MS Outlook (mensajes, adjuntos, contactos y calendario) existe el Zimbra Import Wizard que en teoría tras la migración te lo deja todo bien en el nuevo entorno y te mantiene la estructura de carpetas.

La pregunta es: ¿puedo hacer eso con la Open Source? Sino es asi, merece la pena pagar por la versión Zimbra Network y un plus para el iPhone?

Respuesta:

Como sabes Zimbra tiene dos versiones, la Network Edition (de pago) y la Open Source Edition (gratis), la diferencia principal entre ambas es:

  1. Una es de pago por número y tipo de usuario (Basic, Standard o Enterprise) y la otra es gratis. Eso ya lo sabías 😉
  2. La Network soporta MAPI y la Open Source no. MAPI es el protocolo de MS que ha conseguido implementar Zimbra y simula ser un MS Exchange por lo que permite a un iPhone configurarlo como si de un cliente Exchange se tratara y sincronizar OTA (over the air) tanto la libreta de direcciones, calendarios y correos. La opción MAPI solo está disponible en la Network Edition para cuentas de usuario Enterprise (las más caras).

Otros aspectos a tener en cuenta:

  1. El Yahoo Zimbra Desktop es un cliente de correo pesado que permite trabajar offline, pero es pesado de verdad, te monta un servidor de aplicaciones Java (Jetty) en local, por lo que consume recursos y necesitaras estaciones de trabajo potentes. Este cliente funciona muy bien, pero consume memoria y disco (como es lógico porque descarga los correos del servidor). Este cliente te funciona para Zimbra Colaboration Suite tanto la versión Network como Open Source y es gratis, también para cualquier otra cuenta de Yahoo, Gmail u otros. En cuanto al conector de Zimbra para sincronizar con MS Outlook, las últimas versiones funciona bien, puedes tenerlo en cuenta en clientes MS Windows.
  2. Para importar los PTS y demás datos de Outlook, Zimbra se lo tiene muy currado y dispone de una aplicación que funciona muy bien pero que, por lo que yo se, sólo te sirve para la versión Enterprise (yo lo he probado en esta).

En respuesta a tu pregunta, con la Open Source no puedes si los clientes son iPhone, por el soporte MAPI, si tus clientes móviles son otros podrías utilizar Funambol (algún día hablaré de esa maravilla) que, basado en syncML, permite sincronizar dispositivos móviles y no tan móviles con aplicaciones de servidor. Funambol cuenta con un conector para Zimbra libre y gratuito. Funambol tiene clientes para BlackBerry, Thunderbird y muchos más, incluso para iPhone, la diferencia es que en todos funciona genial menos en iPhone porque este último no permite exportar datos del calendario por syncML, es decir, sólo puedes sincronizar la agenda. Son cosas de los amigos de Apple… a veces no son tan “cool” como parece…

¿Te merece la pena pagar por la versión Network Edition? Pues para lo que quiere esta empresa yo pienso que si, no es mucho dinero y la solución, desde mi punto de vista, es mucho mejor que MS Exchange, las posibilidades que te brinda Zimbra son inmensas, los Zimlets son muy potentes, la capacidad de integración es muy buena y el soporte no funciona nada mal. En http://www.zimbra.com/quote/configurator.php puedes ver lo que cuestan las cuentas Network Edition de una forma más o menos estimada, de las que deberías comprar como mínimo 25 Enterprise a un precio de 875USD (35 dolares por usuario) y no necesitarás ningún plugin de iPhone. También dispones de la Starter Edition (http://www.zimbra.com/quote/starterpkg.php) que son 15 cuentas Professional por 399USD (26,6 dolares por usuario). La Starter no tiene soporte pero si actualizaciones, por eso es más barata. Además en la Wiki y en los Foros de Zimbra hay muy buena información.

Eso ha sido todo.

Ya sabéis, en Intecna somos partners de Zimbra, si queréis una implantación no dudéis en contactar.

Adios Nagios, hola Icinga.

nagiosLos que me conocen saben que soy un enamorado de Nagios, lo conozco desde hace años, desde que se llamaba Netsaint, lo he montado siempre que he podido para demostrar que no tiene nada que envidiar a software propietario y caro que se ve por las grandes compañías de todo el mundo. Me consta que sigue montado en sitios por los que he pasado, no diré más pistas ;).

En los últimos años, a Nagios le han salido muchos competidores en el mundo del Open Source: Zenoss, Hyperic, Pandora, OpenNMS, Zabbix, Centreon y Groundwork, estos dos últimos basados en Nagios. Lo cierto es que tenía la sensación de que Nagios estaba siendo adelantado por sus competidores. El problema principal es que, a pesar de la gran comunidad que existe en torno a Nagios, el core sólo lo desarrolla una persona en USA y parece ser que era un cuello de botella para otros desarrolladores y los usuarios finales. Esto no ha caído en saco roto y la comunidad se ha puesto manos a la obra para que el proyecto pueda seguir creciendo como se merece. Así que la gente de nagios-portal.org, NagVis, NagTrap, PNP4Nagios, icingacheck_multi, NagiosGrapher y NETWAYS han realizado un fork llamado Icinga, que significa en Zulú “explorar o examinar”.

Es la grandeza del Software Libre, y gracias a la libretad de adaptar, modificar, publicar podemos tener noticias como esta. Como ellos mismos indican en su FAQ ya ha ocurrido esto otras veces, por ejemplo con Mambo->Joomla o con XFree86->X.org.

Todo esto está muy bien, pero ¿ganará la comunidad con este cambio? A tenor de lo que la gente de Icinga promete, estoy seguro que si, y mucho. Veamos:

  • Soportará características y plugins de Nagios y será facil migrar desde Nagios.
  • Soportará extensiones y desarrollos e integraciones gracias a una API.
  • Tendrá una nueva interfaz web basada en PHP.
  • Tendrá como addons: PNP, NagVis, Grapher V2 y NagTrap.
  • Nueva interfaz NDO con soporte para ser almacenado en ficheros o en base de datos permitiendo el acceso a esos datos desde la API con PHP o desde WebServices.
  • ReportDesigner para realizar informes personalizados y se podrán configurar envíos automáticos de informes cada cierto tiempo.
  • También se contemplan mejoras para grandes instalaciones.

Por ahora toca esperar, parece que la primera versión de Icinga saldrá el próximo 20 de Mayo. Habrá que estar atento, yo ya he puesto una nota en mi calendario.

Novedades en Alfresco, información de la Chicago Meetup

alfresco-logoEl pasado 29 de Abril tuvo lugar en Chicago el evento “Alfresco Chicago Meetup” donde estuvieron hablando por parte de Alfresco Matt Asay y Michael Uzquizano también se vieron algunos casos de estudio por parte de Ed Wentworth (Orbitz) y trataron temas como la integración entre Alfresco y Drupal con soporte CMIS.

Se trataron muchos temas que recoge Jeff Potts en su blog. Me gustaría hacer un resumen de los temas más significativos que se trataron según he leído.

* Alfresco ha llegado a los 1000 clientes con suscripciones. Todo un éxito.
* Groovy estará implementado en Surf tras liberar la versión 3.2.
* Spring WebFlow se está integrando también en Surf aunque no se conoce la fecha de liberación.
* Sobre recursos CMIS, se ha creado una web llamada CMISDev.org donde encontrar recursos e información relacionada.
* 3.2 Labs saldrá para Junio de 2009.
* 3.2 Enterprise saldrá para Septiembre de 2009.
* 3.3 Labs/Enterprise previsto para el Q1 de 2010.
* 4.0 Labs/Enterprise previsto para el segundo semestre de 2010.

Dentro de la rama 3, se harán grandes cambios de cara a la versión 3.2, entre los que se pueden destacar:

Surf Mobile: El framework Alfresco Surf permitirá desarrollar de forma más sencilla aplicaciones web para iPhone y posiblemente Blackberry.

Nuevo Form Service: se amplia las capacidades en los formularios de WCM y parece que serán utilizables en el DM.

Integración con IMAP: no queda muy claro pero parece que permitirá conectarse a Alfresco como si de un buzón IMAP se tratase, lo que permitiría acceder a la documentación bastante fácil desde cualquier cliente de correo electrónico. Es algo que uso con Zimbra y es muy cómodo.

Clustering: la versión 3.2 soportará cluster real tanto en DM como en WCM. Si has trabajado con Alfresco en cluster sabrás que es algo complejo en cuanto a funcionamiento. Veremos realmente que mejoras habrá en este campo.

Indexación: parece que vendrá con unas características que permitirá “refactorizar” los índices para no tener que re-indexar cuando hay inconsistencias en Lucene. Comentaré de que va esto cuando tenga más datos pero de cualquier forma es esperanzador.

Eso es todo, espero que sea útil.

Suse Studio: creación ad-hoc de distribución linux basada en Suse

built-with-web-bigEl pasado febrero, leíamos en barrapunto, la noticia sobre el lanzamiento de Suse Studio, aplicación web que permite crear tu propia distribución Suse Linux personalizando gran parte del sistema (grub, paquetes, servicios, etc.) y pudiendo descargarla en ISO, VMware, USB Live o probarla en la propia web. Aquel día me registré para poder probarla cuando estuviese disponible y hace dos semanas recibí un correo invitándome a usar por fin Suse Studio.

Antes de seguir aclarar que no soy seguidor ni fan de Suse ni de sus tecnologías como por ejemplo Yast, pienso que Yast es un gran invento que permite a muchos usuarios no técnicos realizar acciones más o menos complejas de forma sencilla pero no acaba de convencerme.

Hay algunos sitios web donde poder hacer y personalizar tu propia distribución linux online y descargarla como por ejemplo Slax o Instalinux (usando LinuxCOE, interesante proyecto de HP que permite hacerte tu propio generador de distribuciones Linux de todo tipo, Ubuntu, Debian, Fedora, CentOS, etc.).

Dicho esto, tengo que reconocer que estaba deseando poder probar Suse Studio, por que cada vez es más latente la necesidad de crear y aprovisionar distribuciones personalizadas con aplicaciones integradas entre si tanto para desarrolladores como para entornos corporativos/empresariales.

Aquí un vídeo sobre su funcionamiento, está un poco desfasado pero muestra sus características más importantes:

Proxmox VE: una alternativa libre a la gestión de la virtualización

logo_pveYa tengo muchas máquinas en casa y poco tiempo para dedicarle al hardware y el cacharreo por lo que hace ya un mes que adquirí en Hetzner un nuevo servidor para mi laboratorio, Hetzner es ISP alemán y sudafricano que permite alquilar máquinas físicas a un precio aceptable, ancho de banda de sobra y con un servicio magnífico comprobado a lo largo de más de un año con otros servidores que uso a titulo profesional. No conozco muchos ISP de la magnitud de Hetzner para poder haceros comparativas en cuanto a servicios/precio, pero son rápidos y en caso de problemas (tanto de sistema operativo, de red como físicos) están ahí para ayudar con un servicio 24×7 excelente incluido en el precio. La única pega es que el panel de control que ofrecen a los clientes está en alemán pero es sencillo y con Google Translator en unos minutos lo tenía dominado.

Hecha la “cuñita” publicitaria sin ánimo de nada a Hezner (cuando algo funciona también hay que decirlo). Paso a contaros qué infraestructura he configurado para gestionar este servidor.

Actualmente, gracias al furor “Cloud” y teniendo en cuenta que la virtualización forma parte del paradigma aunque no obligatoriamente, he estado mirando diferentes fórmulas o aplicaciones para gestión de la virtualización de forma sencilla, cómoda y rápida, por supuesto en Software Libre. Conocía desde hace tiempo Enomalism o actualmente AbiCloud* que es muy interesante y otras muchas soluciones web que permiten gestionar máquinas virtuales y aprovisionarlas, pero a la hora de la verdad la mayoría de estas aplicaciones de gestión de la virtualización no rinden como se espera, me refiero por ejemplo a la clusterización, migración de máquinas virtuales entre físicas y acciones afines o en algunos casos hay que pasar por caja para conseguir funcionalidades extra que generalmente no son Open Source. Los amigos de la Fundación I+D del Software Libre llevan usando Proxmox VE unos cuantos meses. Así que tras documentarme me lancé a la aventura y solicité a mi ISP que me montaran una máquina con Proxmox VE 1.1.

*AbiCloud no es sólo un gestor de máquinas virtuales sino que también puede gestionar máquinas físicas de una nube.

Proxmox VE es una plataforma de virtualización de código libre (GPLv2) realizada por la compañía alemana Proxmox Server Solutions GmbH, especializados en appliances virtuales empresariales.

¿Por qué usar Proxmox VE?

  • Porque hace gala del principio KISS, es simple y funciona.
  • Porque permite desplegar máquinas virtuales en cuestión de segundos ya sea desde las plantillas disponibles o desde 0.
  • Porque permite crear contenedores gracias a OpenVZ, permite virtualizar y paravirtualizar gracias a KVM, por lo que no hecho de menos ni VMware ni Xen.
  • Porque permite descargar plantillas con aplicaciones instaladas y configuradas listas para usar desde aquí.
  • Porque se pueden tener varios servidores físicos en cluster y migrar en vivo máquinas virtuales de un servidor a otro de forma rápida y sencilla. Permitiéndo aprovechar al máximo el hardware y alta disponibilidad de mis sistemas operativos virtualizados.
  • Porque permite hacer backup a otros discos de forma totalmente desatendida y controlar gráficamente el estado y consumo de cada una de las máquinas virtuales.
  • Porque puedes acceder por VNC a cualquiera de las máquinas desplegadas aún sin red configurada.
  • Porque se descarga en ISO, basada en Debian y se instala directamente en el servidor anfitrión, una vez instalado todo lo demás se hace vía web.

800px-screen-startpage-with-cluster

Y por muchas razones más. Pero no es oro todo lo que reluce, he echado de menos más información sobre el consumo de red y recursos. Aunque se muestran datos básicos, no hay acumulados y gráficas históricas que son importantes para adelantarse a los problemas. Realmente con ntop y Cacti se soluciona este problema. En cuanto a documentación y comunidad no está mal, ya que tanto OpenVZ como KVM además del propio ProxmoxVE cuentan con un importante número de colaboradores y manuales.

Para instalarlo mira este fantástico manual que nos ofrecen los amigos de Howtoforge.

Lo tengo claro, para montar un entorno corporativo o personal de virtualización ya tengo una solución Open Source que cubre mis necesidades: Proxmox VE.

Alfresco Web Studio: primera toma de contacto

Llevo trabajando con Alfresco unos dos años y algo que tengo que repetir siempre a los clientes o interesados es: “Alfresco no es como Joomla o Drupal, Alfresco puede ser el backend de un CMS gracias a su core ECM o una herramienta de gestión y despliegue de portales tipo Vignette gracias al WCM. Pero no, Alfresco no es como Joomla, Drupal, OpenCMS u otros, esa funcionalidad no la soporta”. Bueno, ya si lo es, o al menos eso es lo que “pretende” Alfresco con su nuevo Web Studio.

Alfresco Web Studio es una herramienta gráfica que permite diseñar sitios web simplemente arrastrando y soltando gracias a la plataforma Alfresco Surf, lanzada anteriormente y con la que se realizó el gestor colaborativo Alfresco Share. Web Studio permite realizar sitios web de forma rápida y fácil comparable a Drupal o Joomla, más o menos.

Cuenta con la posibilidad de construir páginas web, estructuras de navegación, plantillas, maquetación de contenidos y mucho más. Lo más interesante es que se pueden crear portales aprovechando las virtudes de Alfresco WCM y ECM.

La versión 3.0 final de Alfresco Community Labs (GPL) está disponible para su descarga aquí http://wiki.alfresco.com/wiki/Labs_3_Final_download_files. Entre las diferentes opciones de descarga recomiendo usar alguno de los bundles (full Alfresco) disponibles ya que con sólo instalar el paquete descargado, que puede ser para Linux, Windows o MacOSX, tendremos Alfresco listo para utilizar incluyendo el portal colaborativo Share, la gestión documental (ECM), el gestor de contenidos web (WCM), la herramienta Web Studio, el módulo de gestión de expedientes/registros (Records Management), la primera solución que implementa parte del borrador del estándar CMIS y el soporte al protocolo SharePoint para usar Alfresco como MS SharePoint Server.

Tras realizar la descarga del bundle, unos 300 MB, procederemos a realizar la instalación, ver el manual oficial http://wiki.alfresco.com/w/images/a/a1/Install_Configure_Alfresco_Lab3Final.pdf.

Una vez instalado y levantado Alfresco debemos ir a http://localhost:8080/studio, el usuario/contraseña es admin/admin. Tienes más información en http://wiki.alfresco.com/wiki/Web_Studio, también es muy recomendable leer y practicar con los tutoriales que ofrece Alfresco en su wiki http://wiki.alfresco.com/wiki/Web_Studio_Tutorials.

640px-adw-public-website-mainview-incontext4