El termino OCR se ha convertido en una palabra común en el mundo actual de las automatizaciones y los procesos RPA.
OCR no es más que la interpretación digital de documentos a partir de herramientas de inteligencia artificial o reconocimientos de caracteres. Estos caracteres pueden ser escritos a mano, mecanografiados o texto codificado para máquina, son escaneados por la tecnología y luego se hace la conversión.
Hay diferentes tipos de OCR disponibles, veamos la explicación de cada uno:
Entre las distintas herramientas y tecnologías que cuentan con un sistema OCR está UiPath, la cual es un instrumento para RPA que se puede utilizar en la automatización de tareas repetitivas, y esto significa que limita la interacción humana. Agiliza los procesos, aporta eficiencia y proporciona información, haciendo que el camino hacia la transformación digital sea rápido y rentable. Aprovecha los sistemas existentes para minimizar las interrupciones.
UiPath cuenta con una versión gratuita para cualquier usuario y una versión paga, ambas tienen su propio sistema OCR a disposición y estos tienen ligeras pero importantes diferencias entre sí. Vamos a dar un repaso a lo que ofrece cada uno de ellos.
En la versión community se tiene un OCR bueno y útil pero no tan potente y ese OCR permite la lectura de archivos con limitaciones, como, por ejemplo: archivos con tabla, archivos escaneados que no estén nítidos y demás.
Su debilidad se nota al ser comparada con otras tecnologías OCR más potentes, como la Document Understanding de UiPath, especial para la lectura de documentos a partir de inteligencia artificial.
En el OCR que viene con defecto con UiPath se pueden descargar librerías gratuitas en la versión community. Es ideal para leer archivos PDF con una estructura clara.
Su uso es básico: te pregunta primero lo que quieres leer, se le dice al OCR los datos que debe obtener del documento, como por ejemplo dirección, nombre y así se obtiene todo lo necesario. Esta versión gratuita es potente, no tiene muchas limitantes, pero siempre todo va a depender de cada archivo y la complejidad de este.
Con los archivos escaneados, el OCR que viene por defecto con UiPath también funciona. Obtiene los datos sin procesar y de manera desordenada, por lo que habría que aplicar un algoritmo para obtener la información ordenada. Lo positivo es que puede leer archivos escaneados y no hay que recurrir a versiones pagas para realizar este proceso.
El OCR de UiPath Community es bastante potente a pesar de no tener todas las propiedades con las que sí cuenta una versión paga. Las limitantes no son muy notorias, solo vienen en temas de lecturas de archivos, ya que esta versión gratis puede fallar cuando un archivo no está bien escaneado, con letra borrosa o escrito a mano por una persona.
Al contar con la versión paga, UiPath ofrece un OCR a sus usuarios con más potencia, el cual tiene la capacidad para leer documentos escaneados de poca nitidez, escritos a mano por una persona o con tablas complejas y datos sueltos.
El OCR con licenciamiento da la posibilidad al developer de “enseñarle” cómo leer un documento con tablas complejas, por ejemplo, esos que tienen una sola columna con varias filas de información, algo que en la versión gratuita es prácticamente imposible de hacer y ameritaría más trabajo, más tiempo y aumenta el presupuesto del proyecto.
El uso de este OCR, el cual se llama Document Understanding, es similar a la versión gratuita. Se tiene un proceso con el mismo reframework para cualquiera de los dos tipos, solo que la versión paga viene con librerías exclusivas para ella, como, por ejemplo: Omnipage, Localserver, Intelligence OCR, las cuales se utilizan para enseñarle a los robots a leer documentos.
Un aspecto positivo de contar con un OCR pago en UiPath es la posibilidad de tener varios robots ejecutándose al mismo tiempo en máquinas distintas, algo que no es posible hacer en la versión gratuita, allí existe la posibilidad de tener varios bots ejecutándose, pero solo en una máquina al mismo tiempo.
Hay compañías que necesitan un bot para validar cómo funciona la tecnología y entonces es viable que comiencen con la versión gratuita en UiPath Community y ya luego, a medida que necesiten más bots, pues se analiza si se necesita un OCR con licenciamiento.
Document Understanding tiene como parte negativa su proceso bastante complejo, a diferencia de la sencillez de la versión gratuita. Además, puede ser bastante costoso, siendo más amigable para el presupuesto pagar un OCR y librerías de terceros compatibles con UiPath. También, una herramienta de terceros puede ya venir equipada con todos los conocimientos para leer documentos, proceso que a Document Understanding hay que "enseñarle" cómo hacerlo.
En resumen, las funciones del OCR que viene integrado con UiPath Community son óptimas pero tienen varias limitantes a la hora de poder leer documentos escaneados, de poca nitidez y de estructuras complejas.
Document Understanding puede realizar todas estas actividades, pero ameritará de un developer experto en esta herramienta para que pueda enseñarle al bot todos los pasos necesarios para cada proceso.
La escogencia de cuál es mejor para su proyecto está basada totalmente en las necesidades y de si estas escalarán en un futuro, evolucionando a documentos complejos o de poca visibilidad. Rootstack cuenta con los equipos de expertos para ayudarlo a escoger el que mejor se adapte a su empresa.