Comparación de funciones de OCR: Uipath Community vs Uipath Licensed OCR

January 27, 2023

Tags: Tecnologías, IT Staff Augmentation

rpa

 

El termino OCR se ha convertido en una palabra común en el mundo actual de las automatizaciones y los procesos RPA. 

 

OCR no es más que la interpretación digital de documentos a partir de herramientas de inteligencia artificial o reconocimientos de caracteres. Estos caracteres pueden ser escritos a mano, mecanografiados o texto codificado para máquina, son escaneados por la tecnología y luego se hace la conversión.

 

Tipos de OCR

 

Hay diferentes tipos de OCR disponibles, veamos la explicación de cada uno:

 

  • Reconocimiento inteligente de palabras: IWR por sus siglas en inglés, tiene la capacidad de identificar texto escrito a mano o en cursiva, con un algoritmo que funciona reconociendo palabras escritas a mano sin restricciones, en lugar de seleccionar caracteres individuales.
  • Reconocimiento inteligente de caracteres: ICR por sus siglas en inglés, funciona identificando un solo carácter a la vez y va evolucionando, haciendo uso del aprendizaje automático integrado.
  • Reconocimiento óptico de palabras: es el OCR que funciona reconociendo texto escrito a máquina por palabras.
  • Reconocimiento óptico de caracteres: solo funciona capturando el texto escrito a máquina, un carácter a la vez. 
  • Reconocimiento óptico de marcas: técnica de recopilación de datos de entrada humana mediante el reconocimiento de marcas o patrones en un documento.

 

uipath

 

¿Qué es UiPath?


Entre las distintas herramientas y tecnologías que cuentan con un sistema OCR está UiPath, la cual es un instrumento para RPA que se puede utilizar en la automatización de tareas repetitivas, y esto significa que limita la interacción humana. Agiliza los procesos, aporta eficiencia y proporciona información, haciendo que el camino hacia la transformación digital sea rápido y rentable. Aprovecha los sistemas existentes para minimizar las interrupciones.

 

UiPath Community vs UiPath Licensed OCR

 

UiPath cuenta con una versión gratuita para cualquier usuario y una versión paga, ambas tienen su propio sistema OCR a disposición y estos tienen ligeras pero importantes diferencias entre sí. Vamos a dar un repaso a lo que ofrece cada uno de ellos.

 

Uipath Community OCR

 

En la versión community se tiene un OCR bueno y útil pero no tan potente y ese OCR permite la lectura de archivos con limitaciones, como, por ejemplo: archivos con tabla, archivos escaneados que no estén nítidos y demás.

 

Su debilidad se nota al ser comparada con otras tecnologías OCR más potentes, como la Document Understanding de UiPath, especial para la lectura de documentos a partir de inteligencia artificial.

 

uipath

 

En el OCR que viene con defecto con UiPath se pueden descargar librerías gratuitas en la versión community. Es ideal para leer archivos PDF con una estructura clara.

 

Su uso es básico: te pregunta primero lo que quieres leer, se le dice al OCR los datos que debe obtener del documento, como por ejemplo dirección, nombre y así se obtiene todo lo necesario. Esta versión gratuita es potente, no tiene muchas limitantes, pero siempre todo va a depender de cada archivo y la complejidad de este. 

 

Con los archivos escaneados, el OCR que viene por defecto con UiPath también funciona. Obtiene los datos sin procesar y de manera desordenada, por lo que habría que aplicar un algoritmo para obtener la información ordenada. Lo positivo es que puede leer archivos escaneados y no hay que recurrir a versiones pagas para realizar este proceso.

 

uipath

 

El OCR de UiPath Community es bastante potente a pesar de no tener todas las propiedades con las que sí cuenta una versión paga. Las limitantes no son muy notorias, solo vienen en temas de lecturas de archivos, ya que esta versión gratis puede fallar cuando un archivo no está bien escaneado, con letra borrosa o escrito a mano por una persona. 

 

UiPath Licensed OCR

 

Al contar con la versión paga, UiPath ofrece un OCR a sus usuarios con más potencia, el cual tiene la capacidad para leer documentos escaneados de poca nitidez, escritos a mano por una persona o con tablas complejas y datos sueltos.

 

El OCR con licenciamiento da la posibilidad al developer de “enseñarle” cómo leer un documento con tablas complejas, por ejemplo, esos que tienen una sola columna con varias filas de información, algo que en la versión gratuita es prácticamente imposible de hacer y ameritaría más trabajo, más tiempo y aumenta el presupuesto del proyecto. 

 

uipath

 

El uso de este OCR, el cual se llama Document Understanding, es similar a la versión gratuita. Se tiene un proceso con el mismo reframework para cualquiera de los dos tipos, solo que la versión paga viene con librerías exclusivas para ella, como, por ejemplo: Omnipage, Localserver, Intelligence OCR, las cuales se utilizan para enseñarle a los robots a leer documentos.

 

Un aspecto positivo de contar con un OCR pago en UiPath es la posibilidad de tener varios robots ejecutándose al mismo tiempo en máquinas distintas, algo que no es posible hacer en la versión gratuita, allí existe la posibilidad de tener varios bots ejecutándose, pero solo en una máquina al mismo tiempo.

 

Hay compañías que necesitan un bot para validar cómo funciona la tecnología y entonces es viable que comiencen con la versión gratuita en UiPath Community y ya luego, a medida que necesiten más bots, pues se analiza si se necesita un OCR con licenciamiento.

 

Document Understanding tiene como parte negativa su proceso bastante complejo, a diferencia de la sencillez de la versión gratuita. Además, puede ser bastante costoso, siendo más amigable para el presupuesto pagar un OCR y librerías de terceros compatibles con UiPath. También, una herramienta de terceros puede ya venir equipada con todos los conocimientos para leer documentos, proceso que a Document Understanding hay que "enseñarle" cómo hacerlo.

 

uipath

 

¿Cuál OCR de UiPath necesito para mi proyecto?

 

En resumen, las funciones del OCR que viene integrado con UiPath Community son óptimas pero tienen varias limitantes a la hora de poder leer documentos escaneados, de poca nitidez y de estructuras complejas. 

 

Document Understanding puede realizar todas estas actividades, pero ameritará de un developer experto en esta herramienta para que pueda enseñarle al bot todos los pasos necesarios para cada proceso.

 

La escogencia de cuál es mejor para su proyecto está basada totalmente en las necesidades y de si estas escalarán en un futuro, evolucionando a documentos complejos o de poca visibilidad. Rootstack cuenta con los equipos de expertos para ayudarlo a escoger el que mejor se adapte a su empresa.

 

Te recomendamos en video