Boletín Oficial del Estado

scrapers.es_boe - Extracción de datos de la página web del BOE

Módulo que contiene clases y funciones para extraer y tratar texto de las páginas web del Boletín Oficial del Estado (BOE).

  • Construye la url del sumario en función de la fecha.
  • Obtiene una soup de la página web del sumario.
  • Extrae del sumario datos y urls de las normas publicadas.
  • Obtiene una soup por norma publicada.

Dependencias:

  • Módulo BeautifulSoup
  • Módulo datetime
  • Módulo re
  • Módulo urllib

Uso:

Todo

Secciones del BOE:

El BOE mantiene las siguientes secciones:

I. Disposiciones generales
II. A. Autoridades y personal. Nombramientos, situaciones e incidencias
II. B. Autoridades y personal. Oposiciones y concursos
III. Otras disposiciones
IV. Administración de Justicia
V. A. Subastas y concursos de obras y servicios
V. B. Otros anuncios oficiales
V. C. Anuncios particulares
T.C. Suplemento del Tribunal Constitucional
extraer_normas(d, m, a)
get_elemento_base(d, m, a)

Función que obtiene el objeto base desde el que iniciar el análisis de la página web sumario del BOE.

Devuelve una instancia de BeautifulSoup.

get_norma(url)

Función para seleccionar los datos de una norma jurídica publicada en una página web del BOE. Obtiene una soup, selecciona dentro de la misma los datos relevantes y los almacena como valores de un diccionario.

Uso:

>>> url = 'http://www.boe.es/aeboe/consultas/bases_datos/doc.php?coleccion=iberlex&id=2009/04447&txtlen=1000'
>>> norma = get_norma(url)
>>> sumario = get_sumario(20,3,2009)
>>> norma = get_norma(sumario[0]['url'])    

Devuelve un diccionario con las llaves ‘fecha_boe’, ‘fecha_norma’, ‘norma’, ‘numero_boe’, ‘organismo’, ‘rango’, ‘referencia_boe’, ‘titulo’, ‘url’.

get_numero(d, m, a)
get_sumario(d, m, a)

Función que extrae los datos sobre normas jurídicas del sumario del BOE de una fecha determinada. Sólo se extraen las normas jurídicas y no datos de otras secciones del BOE.

Uso:

>>> sumario = get_sumario(20,3,2009)

Devuelve una lista de diccionarios con las llaves ‘organismo’, ‘categoria’, ‘fecha’, ‘numero_boe’, ‘url’ y ‘titulo’. Cada elemento de la lista es la referencia de una norma jurídica.

url_constructor(d, m, a)

Función que construye la url del sumario de una fecha determinada del BOE. Añade los ceros necesarios para construir correctamente la url de una fecha del BOE.

Uso:

>>> url_constructor(16,03,2009)
>>> 'http://www.boe.es/boe/dias/2009/03/16'
>>> url_constructor(1, 3, 2008)
>>> 'http://www.boe.es/boe/dias/2008/03/01'

Devuelve una cadena.

ver_sumario(d, m, a)

Función para extraer los datos del sumario del BOE de una fecha determinada y ver en consola. Sólo se extraen las normas jurídicas.

Uso:

>>> ver_sumario(27,3,2009)

Salida por stdout.

Contenidos

Tema anterior

Asambleas legislativas de las Comunidades Autónomas

Próximo tema

API pública

Esta página