¿A qué nos referimos con información no estructurada?

En uno de mis primeros posts sobre Big Data, decíamos que una de sus características era el enorme volumen de datos a tratar. Estos datos los podíamos clasificar en estructurados y no estructurados. Me he dado cuenta de que no he explicado esta distinción y quizá sea útil hacerlo. Voy a intentar simplificarlo y poner ejemplos para ver si así se entiende mejor:

Un dato estructurado es un dato que puede ser almacenado, consultado, analizado y manipulado por máquinas, normalmente, en modo tabla de datos. Para que os hagáis una idea, pensad en la típica tabla de Access o Excel en la que las filas corresponden a personas (por ejemplo pacientes de un hospital) y cada columna corresponde a su nombre, sexo, edad, NIF, estado civil, etc. Claramente sabríamos rellenar esa tabla, sabríamos qué dato meter en cada una de las «celdas». En cambio, un dato no estructurado o desestructurado es todo lo contrario, la información no estructurada no puede ser almacenada en estructuras de datos relacionales predefinidas. Siguiendo con el ejemplo de los pacientes de un hospital, los datos no estructurados serían las recetas de papel, las radiografías, las grabaciones de voz, escáneres, resonancias magnéticas, TAC, etc. Pensadlo un momento, estos datos no tienen cabida en una base de datos tradicional, ¿no?

Para rizar un poco más el rizo, hablaremos también de los datos semiestructurados, que serían aquellos datos que no residen de bases de datos relacionales, pero que presentan una organización interna que facilita su tratamiento, tales como documentos XML, CSV y datos almacenados en bases de datos NoSQLNot Only SQL«) que, para no liarnos, diremos que son bases de datos no relacionales, es decir, que no son las tradicionales. Y ya en otro post trataremos este tema de bases de datos ya que considero que es algo que es necesario entender para que quede claro todo este mundo del Big Data.

Por otro lado, algunos autores también dividen la información no estructurada en datos de tipo texto y no texto. Datos no estructurados de tipo texto podrían ser datos generados en las redes sociales, foros, e-mails, presentaciones Power Point o documentos Word, mientras que datos no texto podrían ser ficheros de  imágenes jpeg, ficheros de audio mp3, ficheros de vídeo…

 ¿Por qué tanto interés en esta información desestructurada? Pues simplemente porque este tipo de información, según Gartner, ya representa el 95% de la información disponible y porque hasta ahora era imposible tratarla, pero gracias a la tecnología Big Data ahora sí se puede acceder a ella. La información desestructurada tiene un alto valor estratégico.

Así pues, como os podréis imaginar, dada su importancia, complejidad y variedad, la gestión de los datos no estructurados se ha convertido en uno de los principales retos a los que hacen frente las compañías en lo relativo a gestión de información y Big Data. Por tanto, una vez más comprobamos el importante papel que juega la tecnología Big Data.

Deja un comentario