Inicio > #oGov, alorza.net, Open Government > Apertura de datos por defecto, frente a la apertura bajo demanda

Apertura de datos por defecto, frente a la apertura bajo demanda


Uno de los debates perennes y que resurgen con fuerza cada cierto tiempo tiene que ver con la “apertura de datos por defecto”, en oposición a la “apertura de datos bajo demanda”. En resumen, estas serían las dos posiciones:

  • Apertura de datos por defecto: existen argumentos para defender que todos los datos públicos se hagan accesibles a la ciudadanía, en cuanto sea posible. Esta posición es propia de la “economía digital de la abundancia” que caracteriza nuestra época. En internet, los contenidos tienden a ser gratuitos y superabundantes. El usuario es quien determina, a posteriori, la relevancia de los mismos.
  • Apertura de datos bajo demanda: antes de liberar un dataset debe pasar un filtro que establezca su utilidad, de manera que no se liberen datos cuya reutilización sea improbable. Esta posición es propia de la economía pre-digital y parte de una concepción de recursos escasos y que desaparecen con el consumo. En principio, es más extraña su aplicación al caso de un bien digital como los datos

La carga de la prueba debería estar, por lo tanto, en la “apertura bajo demanda”, ya que ¿por qué restringir la publicación de contenidos cuando podríamos liberar todos? El abogado de la defensa supongo que hablaría del coste de liberar datos. Sin embargo, veremos que no es mayor el coste de liberar fuentes de datos completas, que el de filtrar qué datasets concretos vamos a liberar.

La apertura de datos sirve al menos para 4 fines:

  • Eficiencia administrativa e interoperabilidad de dato público
  • Trasparencia y rendición de cuentas, soporte a la participación y a la colaboración
  • Reutilización con fines económicos a lo largo de toda la cadena de valor
  • Investigación y aumento del conocimiento

Con una perspectiva global, resulta muy difícil filtrar qué datos van a ser inútiles. ¿Nadie nunca los va a necesitar?

Si nos ceñimos sólo al fin económico, nuestro análisis va a ser menos que tuerto. Aún así, empezando por esta parte, el “open data bajo demanda” nunca podría llegar a conseguir los mismos beneficios que el “open data por defecto” salvo en el caso de que acertara en un 100%; esto es, si la ciudadanía no fuera a utilizar ningún dato aparte de los que se liberan. Este es un supuesto absurdo, que queda desmentido por la realidad: la ciudadanía nos sorprende con el uso que hace de los datos.

Por lo tanto, en el numerador (beneficios) siempre va a ganar la opción “por defecto”. En el denominador (costes), también es más barato liberar fuentes completas que seleccionar partes.

Para entender estas afirmaciones, hay que entender cómo una Administración pone en marcha esto que llamamos open data.

Primero, vamos a recordar que una política de apertura de datos es mucho más que la publicación de un portal, y que es también más que la puesta en marcha de un nuevo servicio. Incluye actividades de promoción de la reutilización y de aumento de las capacidades de la sociedad para el manejo de datos. La mayor parte de estas actividades no incrementan su costo con el número de datasets. Incluso, al fomento de la reutilización le favorece el mayor número posible de datos abiertos.

Por otra parte, publicar datos es un caso particular del caso más general de publicar información. Y publicar información es el tramo final de una gestión de sistemas de información. La Administración genera datos para poder funcionar. Podemos decir con propiedad que son datos ya pagados por los contribuyentes. Una vez usados, los datos en formato digital ni se deterioran, ni desaparecen. Una buena praxis de apertura de datos es, simplemente, dar acceso a esos datos, de la manera más sencilla y barata posible. Es como si abriéramos un portillo para que la ciudadanía pueda reutilizar datos que, de hecho, son suyos.

¿Qué ocurre cuando la Administración no ha hecho una buena gestión de la información y no dispone de datos digitalizados y de calidad? Ocurre que la eficiencia de esa Administración es muy mejorable. Obviamente, no podrá liberar datos de los que no dispone. Ahora bien, en algún momento tendrá que resolver ese problema, por motivos diferentes a la apertura de datos. Con esto, lo que quiero decir, es que los gastos de digitalizar la información no son imputables a una política de open data. Es algo que hay que hacer en todo caso. Open data es un subproducto de tener información digitalizada.

Otro factor de importancia es hasta qué punto la Administración está practicando una “transparencia activa”. La medida de la transparencia activa de una Administración viene dada por la representación de sus actividades en internet. Digamos que hay dos posibles modelos: publicar sólo los contenidos que se aprueban, frente a publicar todo menos lo que se restrinja motivadamente. Nuevamente, estamos en el debate de publicar por defecto versus de manera controlada, sólo que ahora en el caso de los contenidos. Cuando se ejerce un control centralizado de la publicación a través de los gabinetes de prensa, se producen menos contenidos, menos transparencia y el coste unitario es mayor. Cuando se practica una política de apertura en la publicación, en cambio, cada funcionario lleva a internet su actividad, de manera rutinaria. A esta realidad, que hemos vivido algunos años en el Gobierno Vasco, la llamo “transparencia como rutina”.

Cuando se practica la “transparencia como rutina”, es fácil poder “liberar datos como rutina”. Simplemente, hay que conseguir que la información que se maneja y que se publica esté estructurada -repito que este es un fin del sistema de información, previo a la liberación de datos-; a partir de ahí, publicar datos es trivial. Filtrar cuáles de esos datos se publican y cuáles no sería un coste añadido, sin ventajas a cambio.

Hasta ahora hemos hecho un análisis económico y operativo del caso de liberar por defecto y por rutina, frente al caso de filtrar previamente qué datos se pueden o no liberar. Si llevamos esto al terreno de los valores, no hay apenas debate. Cualquier persona u organización comprometida con la apertura y la extensión del conocimiento defenderá, necesariamente, el “raw data now” -o, al menos, «data now». Obviamente, dentro de los límites de la sostenibilidad económica y organizativa. Incluso en este aspecto, hemos visto cómo puede ser más rentable, incluso más barato, liberar todo lo liberable que filtrar previamente.

Un factor de confusión viene dado por la sofisticación tecnológica de algunas soluciones de consumo de datos. Hemos demostrado que, en las fórmulas sencillas de servir los datos, vía descarga o RSS, no hay motivo lógico para filtrar qué datos liberar. Ahora bien, el campo de juego cambia cuando contemplamos otras fórmulas de consumo más sofisticadas. La construcción de APIs, o de puntos SPARQL y otras formas dinámicas o semánticas de servir datos son más complejas y pueden ser (no siempre) relativamente costosas. Bien, aquí sí hay un motivo para seleccionar y, desde luego, las claves son poner en contraste el coste con la demanda social y las perspectivas de reutilización.

Por lo tanto, la opción lógica es:

  • liberar datos por defecto y por rutina para su descarga,
  • selección basada en la demanda para añadir sistemas de consumo avanzados.

Nos queda aún un flanco descubierto. Hemos propuesto ir liberando todos los datos disponibles, sin filtro. Y, ¿qué hacemos con los no disponibles? Bien, aquí es donde tiene sentido “open data bajo demanda”. Ampliando el derecho al acceso a la información pública, defendemos que una Administración ha de liberar como datos toda aquella información que le sea solicitada. Es menos costoso de lo que parece. Lo costoso es la gestión del propio derecho de acceso (transparencia pasiva), pero, una vez aceptado que que hay que contestar las peticiones ciudadanas, por el mismo precio lo haríamos mediante la publicación de los datos.

En resumen:

Open Data por defecto. Open data por rutina. Derecho de acceso y reutilización de la información.

  1. Carlos Mas
    18/09/2013 a las 18:33

    Voy a dar una visión arcaica de la cuestión. Soy archivero (sí, el homo antecessor de los e-administradores). Gestionamos el acceso a los documentos físicos haciendo respetar una legislación, que es absurdamente restrictiva para los tiempos que corren. Entre la profesión siempre ha existido una corriente favorable hacia una apertura informativa lo más amplia posible, pero hemos encontrado tanto barreras legales como de praxis. Nunca se ha conseguido, como en otros países relacionar la documentación, la información producida por las administraciones públicas, ni se han regulado ¿por falta de interés? estos aspectos con precisión, como por ejemplo la clasificación o desclasificación de la información.

    Hasta cierto punto, veo algún paralelismo con lo que planteáis (con mucho juicio por cierto) en este blog ¿existe un interés político real por la exhibición de open data con lo que ello conlleva? ¿cómo y quién determina lo que ha de ser open data o lo que no? ¿es relevante lo publicado? ¿la nueva Ley de Transparencia hasta que punto fomenta la apertura informativa?

    Espero no haberos desviado mucho del tema.

    • 18/09/2013 a las 19:17

      Bienvenido, archivero. No me harto de declarar que los archiveros debéis ocupar un puesto privilegiado en la Administración del s.XXI, pasando de vigilar papel a gestionar la información en formato electrónico. En el caso concreto de open data, ¿quién mejor que vuestra profesión para catalogar y metadatar los datasets? ¿Quién mejor para armonizar datasets entre Administraciones? ¿Quién mejor para dotar de semántica a los datos? Y podría seguir… 🙂

  2. Carlos de la Fuente @carlosdlfuente
    16/09/2013 a las 10:54

    Alberto, muy de acuerdo con tu exposición y postura a favor del «Open Data por defecto» que comparto enteramente, pero me permito añadir, por lo peligroso que me parece, un gran «por favor, nunca abrir y olvidar», que es una tendencia de la mayoría de las iniciativas Open Data. Se publica un catalogo con n cientos de datasets, en múltiples formatos, hacemos una buena foto y luego sorpresa: que hago con estos datos? para que sirven? quien los entiende?

    Desde mi punto de vista a veces nos preocupamos en exceso de los formatos y no tanto del contenido. La experiencia de reutilizaron puede ser absolutamente decepcionante por el simple hecho de abrir un dataset y ver lo que hay dentro sin hacer nada mas, sin reutilizar: atributos ininteligibles, coordenadas mal codificadas, descripción del dataset prometedora que ni por casualidad coincide con su contenido, etc. En muchos casos la calidad del contenido de los datasets es terrible, independientemente de si el formato de publicación es el mas útil para cada caso. Si el dato es útil y de calidad, el formato es secundario.

    Una de las funcionalidades mas importantes de los sitios de publicación de datos abiertos es la opción (en muchos casos inexistente) para devolver al publicador la opinión sobre lo descargado. Un simple «danos tu opinión» ayudaría a mejorar los problemas de los contenidos de cada dataset. Por supuesto, alguien dentro debe estar escuchando, revisando y publicando versiones mejoradas de los datos publicados, lo que implica un coste.

    Por tanto, la calidad es clave en la reutilizaron y conceptos como caro o barato asociados a los procesos de apertura son peligrosos por la imprecisión con que se trata el tema costes, porque puede ser mas barato -de mano- abrir por defecto como dices pero si no se acomete en paralelo un proceso de mejora continua al estilo de los modelos de madurez se corre el riesgo de hacer inútiles las iniciativas.

    Muchas de las existentes están tardando en acometer procesos de revisión y mejora.

    • 16/09/2013 a las 10:58

      Carlos, gracias por compartir esta visión tan certera. La apertura «por defecto» no justifica la apertura «con defecto» 🙂 Tienes razón en todo. La ciudadanía tiene un papel no sólo en la demanda de nuevos datatsets, sino también en la mejora de la calidad de los existentes.

    • 16/09/2013 a las 11:03

      Me parece más que acertado lo que comentas del «danos tu opinión». El diálogo entre las administraciones y los reutilizadores debe servir para enfocar mejor los proyectos y solucionar/mejorar todo lo que se pueda.

  3. 16/09/2013 a las 09:52

    Muy interesante este debate, creo que hay que empezar a darle más que vueltas a esto y definir el estado de las herramientas actuales para servir datos públicos, y por otro lado clasificar esos datos públicos y sus características, para hacer un el emparejamiento más adecuado que lleve a una mayor publicación de datos, y al menor coste posible. Porque coom dice alorza, es imposible preveer que reutilización tendrán.

    Por otro lado, si partimos de la base en que finalmente se sirven los datos sí o sí, aunque sea bajo demanda, no estaríamos ya hablando de un sólo concepto, no pasaría ya ‘bajo demanda’ a pasarse ‘por defecto’. La diferencia está en el tipo de petición, desde el acceso a una web, con o sin cuenta de usuario, con o sin certificado SSL, a.. ir fisicamente a la ventanilla X en la oficina Y en la calle Z y pedir un dato. Al final la diferencia viene a ser el mecanismo de servir los datos, y este mecanismo entra dentro del abanico de todos los mecanismos posibles.

    Creo que finalmente habría que hacer una clasificación de datos públicos (pero bajo qué metodología los clasificamos?), y una clasificación de servicios de apertura de los datos (otra clasificación, esta vez por ejemplo por coste y tiempo en servir datos), y un matching o emparejamento.

    Saludos!

  4. 16/09/2013 a las 08:54

    Cuando una Administración genera nuevas fuentes de datos debería pensar en que estos deben ser públicos y además en fuentes abiertas. Es mucho más eficiente abrir datasets cuando se implementan los sistemas que no después.

    Ahora bien, a día de hoy hay mucha información que ya manejan las AAPP que no han sido concebidas así. Es necesario abrir esos datos, y no se puede hacer todo de golpe. ¿Cómo liberarlos? Pues, como bien apunta David, no podemos esperar a que haya demanda para movernos. Lo que tenemos que hacer es trabajar en liberar datos, de una forma constante (ya conocemos proyectos que están parados), en los que demos prioridad a lo que nos demandan pero, repito, sin pararnos porque nadie nos reclame nada.

    ¡Saludos!

    • 16/09/2013 a las 08:58

      Exacto. Y lo has dicho en muchas menos palabras que yo 🙂

  5. 15/09/2013 a las 02:11

    Hola Alberto, incluir esos «límites de la transparencia » en el diseño de los sistemas -y que sean solo esos que se pueden justificar, como la protección de datos personales- es un tema esencial.

    • 15/09/2013 a las 09:27

      Desde luego, Cristian. Este post no aborda ese asunto -ni otros muchos- y por eso no he sentido necesidad de hablar de ello.

  6. 14/09/2013 a las 06:36

    Alberto, ayer en el taller de Aprendices hablamos un ratillo sobre el «qué» (en nuestro caso a olvidar, aquí entiendo que a abrir) y, claro, la fiesta va por barrios. Depende de qué tipo de dato/información hablemos el sentido de abrir o dejarlo cerrado adquiere sentido. Yo ya he escrito varias veces sobre el abierto por defecto, en mi caso hablando de la empresa privada que es por donde pululo más a menudo, y lo veo positivo. Pero la madurez -personal y organizacional- para que esto suceda debe ser muy alta. Al final, acabas entendiendo que la desnudez completa (por defecto) a muchísima gente la hace sentir incómoda. Vulnerabilidad extrema, demasiados ojos puestos encima, al menos en potencia.
    Si queremos «abrir» creo que la táctica es muy importante. Estando de acuerdo en el fondo, cada vez más pienso que hay que ir suave suave ganando para la causa. Y nuestros discursos -me incluyo, por supuesto- a veces levantan más barreras de las que pensamos. Porque intimidamos.
    En cualquier caso, una buena reflexión la que compartes. Tienes falta de asistencia en Aprendices, que lo sepas. Vas a tener que recuperar 😉

    • 14/09/2013 a las 11:38

      Viendo tu comentario me doy cuenta de que en este post no aclaro que el debate «apertura por defecto», en este caso concreto, no se refiere «los límites de la transparencia» -a su posible invasión de terrenos de la intimidad, la propiedad intelectual o la seguridad- sino a algo mucho más pedestre: a si, de entre fuentes de datos publicables, habría que liberar la fuente entera o seleccionar sólo conjuntos de datos prometedores para su reutilización.

      Es, por lo tanto, un debate más de gestión económica que de cambio cultural. Un peñazo. Un ejemplo: «¿liberamos toda la base de estadísticas o elegimos sólo aquellas tablas que nos parecen significativas?». Para mí, no hay caso: con el mismo esfuerzo, libera todo.

      En cuanto a las líneas que propones para el cambio, estoy absolutamente de acuerdo.

      Y, sí, tengo falta de asistencia a casi todo últimamente. Me estoy empobreciendo. Volveré.

  7. 14/09/2013 a las 00:24

    gracias Alberto,

    yo también estoy de acuerdo con tu argumentación y conclusión.

    siguiendo la línea que abre David, quizás podríamos profundizar en las barreras a que esto sea así

    ?

    javi

  8. 13/09/2013 a las 23:17

    En mi opinion el modelo ideal el «abierto por defecto» desde un primer momento. Si esperamos a que la ciudadanía «demande» datos, como se dice en mi tierra, vamos aviaos!

    Si no me equivoco, una de las cuestiones que con frecuencia se critican de los portales opendata es la escasa demanda que recibe (o sugerencias viables de datos a publicar). Sin embargo, una vez publicados los datasets seguro que hay más de una descarga, aunque sean sólo para curiosear. 

    Sería interesante un estudio que ponga en correlación el número de descargas totales de datos con el número de solicitudes y sugerencias de datos recibidas

    • 14/09/2013 a las 11:30

      David, creo que es pronto para ese estudio, salvo que lo hagamos para tomar ahora la línea base antes de emprender acciones de promoción y empoderamiento. Ahora mismo, donde más flojean las políticas de apertura de datos es ahí. Cada vez que un responsable del ramo se queja de la baja demanda habría que recordarle que son necesaria acciones para activarla.

      • 14/09/2013 a las 11:56

        Como estudio probablemente si sea pronto, pero creo que sería interesante como indicador en las iniciativas Opendata.

  9. 13/09/2013 a las 23:12

    eramos a que la ciudadanía «demande» datos, como se dice en mi tierra, vamos aviaos!

    Si no me equivoco, una de las cuestiones que con frecuencia se critican de los portales opendata es la escasa demanda que recibe (o sugerencias viables de datos a publicar). Sin embargo, una vez publicados los datasets seguro que hay más de una descarga, aunque sean sólo para curiosear. 

    Sería interesante un estudio que ponga en correlación el número de descargas totales de datos con el número de solicitudes y sugerencias de datos recibidas.

  10. 13/09/2013 a las 21:39

    Alberto,

    Efectivamente, no veo debate, todos (o la mayoría) creo que estamos de acuerdo con la opción «abierto por defecto».

    Hay otros debates – algunos ya los has mencionado – que quizá sería interesante abrir:

    – El debate de la gestión actual de los datos en nuestras Administraciones Públicas, en algunos casos dicha gestión es muy mala o inexistente. Sería interesante ver hasta qué punto esta percepción que tengo se corrobora con la realidad.
    – El debate sobre la web semántica, ¿tiene sentido ofrecer los datos en RDF o ofrecer puntos SPARQL a tenor de la bajísima utilización que tienen?, si tiene sentido, ¿en qué tipos de datos es así?. Sinceramente, en este caso tengo una dicotomía entre la realidad (muy pocos reutilizadores conocen la tecnología, con lo que no hay demanda), y lo que personalmente me gustaría que fuera.
    – El debate de las APIs. En este caso lo veo como un debate más técnico, ¿qué tipo de API?, ¿API REST?, ¿JSON?, etc.
    – Incluso hay otro debate que en el fondo ya existe desde que se abrió el primer dataset: ¿cuál es el formato (o formatos) idoneos para abrir los datos?, mi experiencia en este ámbito llega a la conclusión que lo mejor es abrir los datos en los formatos más utilizados para dichos datos, ¿pero existe una guía de proporcione los formatos más usuales para cada dataset?

    Ya ves… de un no-debate pasamos a un multi-debate 🙂

    Gracias por la iniciativa.

    • 14/09/2013 a las 11:27

      Estoy de acuerdo. Los debates sobre formatos y sistemas de consumo de datos son los que merece la pena abordar ahora mismo. No hay caso contra el «by default».

    • 16/09/2013 a las 12:26

      Sobre la Web Semántica, creo que es más apropiado, respecto a la demanda que pueda tener, considerar Linked Data como principio, más que centrarnos en su implementación concreta a través de RDF (y SPARQL). En ese sentido, dado que Linked Data es simplemente dar una URI (resolvible mediante HTTP) a cada entidad y enlazarla, podriamos estar ante la misma situación que la web al principio: poca gente creia en ella hasta que los enlaces se empezaron a dar en masa. Asi que, en mi humilde opinión, decir que RDF tiene poca demanda podría ser no ver la imagen a una escala mayor (No tengo una bola de cristal, por eso digo «podría»): puede ser que Linked Data «despegue» de repente, debido, precisamente, a que permite crear enlaces a otros datasets publicos, y una vez que tenemos un mecanismo de enlace sin control, nos lleva a cosas tan maravillosas como la web 😉

      Además, en términos más practicos, por ejemplo en el Reino Unido si que parece que Linked Data tiene bastante tirón.

  1. 07/02/2014 a las 09:28
  2. 13/09/2013 a las 14:02

Deja un comentario