Continuando con la necesidad del scraping como acto jurídico y político opendata, y dentro del Proyecto Praeter Orwell, hago público el script que utilizo para arañar la web del Senado en la parte correspondiente a datos de senadores.
Utilizo la misma operativa que en el script ya publicado para la extracción de datos de la web del Congreso, consistente en 4 funciones cuyos cometidos son los de (1) descargar una página web y generar su árbol, (2) generar una lista de todas las urls de las páginas públicas de los senadores, (3) extraer los datos relevantes de la página pública de un senador y generar un diccionario con los datos y (4) construir el archivo de valores separados por comas.
El funcionamiento del script es muy sencillo. Descárguelo y ejecute en la línea de comandos la orden $ python senadores_novena.py. En el directorio donde haya usted ejecutado la orden se creará un archivo csv de nombre «fecha_senadores_novena_legislatura.csv», que puede abrir con cualquier programa de hoja de cálculo.
El resultado del script lo puede comprobar en este enlace a Google Docs.
A continuación, el código del script: