¿Cómo obtener los datos?

Los datos han de obtenerse de fuentes oficiales, para que tengan la garantía de su procedencia.

Los nombramientos de las personas han de venir publicados en algún boletín oficial, por lo que habrá de consultarse éste y utilizar los buscadores que ponen a nuestra disposción.

Los órganos vienen definidos en normas jurídicas que los constituyen. Encontraremos diferentes niveles, cuya parte superior son los tratados internacionales, posteriormente la Constitución y más abajo diferentes normas jurídicas.

En cuanto a la información producida por las personas utilizando los órganos, su búsqueda es siempre más dificultosa, si bien no es muchas veces necesario obtener toda la información volcada por la institución de que se trate, sino señalar un enlace a dónde puede obtenerse.

Las técnicas que se utilizan para documentar los datos obtenidos van desde el manual copia y pega hasta sistemas más avanzados, como puede serlo la técnica conocida como Scraping.

Copiar y pegar

Si ha seguido el Tutorial, habrá observado que en el caso de los presidentes de la Comunidad Autónoma Cántabra, primero realizamos una búsqueda avanzada en el Boletín Oficial del Estado, copiamos los datos del resultado de la búsqueda en el BOE y los pegamos en la hoja de cálculo. También utilizamos la misma técnica cuando buscamos los datos de la Delegación y Subdelegaciones del Gobierno en Andalucía.

Esta técnica, si bien tediosa, es absolutamente imprescindible en numerosísimos casos. Por ejemplo, el archivo que contiene la relación de parlamentos ha tenido que ser confeccionada copiando los datos de todas y cada una de las diferentes webs de los parlamentos y luego pegándolos en la hoja de cálculo correspondiente.

Scraping

El Scraping consiste en extraer información del código HTML de las páginas web utilizando para ello técnicas de filtrado. Estas técnicas pueden basarse en analizar su formato, la hoja de estilos, su posición en la página... Una vez filtrada la información que interesa, ésta se almacena de una manera que luego pueda ser reutilizada. Por ejemplo, se almacena en archivos en formato CSV, que es la solución que proponemos.

Existen numerosas herramientas para facilitar las técnicas de scraping, de las que señalamos las siguientes:

Además de las herramientas señaladas, cada lenguaje de programación ofrece bibliotecas cuya función es la de facilitar las técnicas de scraping, como por ejemplo:

La estructura de directorios que utilizo para trabajar con las técnicas de scraping consiste en un directorio donde almaceno los datos en bruto, otro en el que almaceno los datos una vez limpios y otro en el que almaceno los scripts que utilizo para generar los datos:

/datos
    /clean-data
        /ejecutivos-autonomicos
            /personas
                2011-06-25_presidentes-ccaa-cantabria.csv
        /poder-ejecutivo
            /personas
                2011-07-02_presidentes-gobierno-es.csv
            /organos
            /informacion
        /poder-legislativo
            /personas
            /organos
            /informacion
                2010-11-09_leyes-organicas.csv
                2010-11-11_reales-decretos-legislativos.csv
                2010-11-12_leyes-ordinarias.csv
                2010-11-13_normas.n3
                2010-11-13_normas.rdf
        /poder-judicial
            /personas
            /organos
            /informacion
        /territorio
            es_territorial_entities.csv
    /raw-data
        /poder-ejecutivo
            /personas
            /organos
            /informacion
        /poder-legislativo
            /personas
            /organos
            /informacion
        /poder-judicial
            /personas
            /organos
            /informacion
        /territorio
/scripts
    __init__.py
    common.py
    congreso.py
    normas_csv2n3.py
    senado.py
    ...

Esta propuesta de directorios se fundamenta en la tríada personas, órganos e información y en la estructura de la información relevante a la que se refiere la sección ¿Qué datos necesitamos? y permite localizar más facilmente los datos en los que uno se halle trabajando.

Ley de transparencia

A pesar de las técnicas existentes, existen numerosísimos datos que nuestros empleados públicos se niegan a poner online. Es por ello que el campo del activismo es necesario. Quienes se hallan haciendo una importante labor en este campo son la Coalición Pro Acceso y la Asociación Probono Público:

El apoyo a estos grupos es muy relevante para lograr una normativa jurídica en la que se regule el derecho a obtener estos datos y la obligación de nuestros empleados de entregarla.

Contenidos

Tema anterior

Territorio

Próximo tema

¿Cómo han de estructurarse los datos?

Esta página