<p>
<img src="../imgs/EII-ULPGC-logo.jpeg" width="430px" align="right">

# **NOTEBOOK 4**
---

# **HTTP**

El protocolo **HTTP** (Protocolo de Transferencia de Hipertexto) es un protocolo de comunicación estándar utilizado para la transmisión de información en la World Wide Web. Es un protocolo de solicitud-respuesta que funciona entre un cliente (generalmente un navegador web) y un servidor.

1. **Solicitud y Respuesta**:
   - **Solicitud (Request)**: Iniciada por el cliente, una solicitud HTTP incluye un método (como GET para recuperar información o POST para enviar datos), una URL, y opcionalmente, otros parámetros como encabezados y un cuerpo de mensaje.
   - **Respuesta (Response)**: El servidor procesa la solicitud y devuelve una respuesta, que incluye un código de estado (que indica el éxito o el fallo de la operación) y, dependiendo de la solicitud, el recurso solicitado o un mensaje de error.

2. **Métodos HTTP**:
   - Los métodos HTTP definen las operaciones que pueden ser realizadas. Los más comunes son GET (para recuperar datos), POST (para enviar datos), PUT (para actualizar datos existentes), DELETE (para eliminar datos), entre otros.

3. **Códigos de Estado**:
   - Los códigos de estado HTTP son códigos numéricos que indican el resultado de la solicitud. Por ejemplo, 200 indica éxito, 404 indica que el recurso no se encontró, 500 indica un error del servidor, entre otros.

4. **Seguridad**:
   - HTTPS es una versión segura de HTTP, que utiliza protocolos de cifrado como SSL/TLS para proteger la transmisión de datos entre el cliente y el servidor.



<img src="imgs/client-server.png">


## **HTML**

Una página HTML (Lenguaje de Marcado de Hipertexto) es un documento estructurado que utiliza elementos marcados para definir y representar el contenido en un formato legible para navegadores web. Entre sus componentes encontramos:

1. **Elementos y Etiquetas**:
   - **Elementos**: Un elemento HTML es una unidad individual que representa una parte específica del contenido de una página, pudiendo ser un párrafo, un encabezado, una lista, etc.
   - **Etiquetas**: Los elementos están delineados por etiquetas, que marcan el inicio y el fin del elemento. Por ejemplo, `<p>` es la etiqueta de inicio para un párrafo, y `</p>` es la etiqueta de cierre.

2. **Atributos**:
   - Los elementos pueden tener atributos que proveen información adicional sobre el elemento, como su `id`, `class`, `style`, etc. Por ejemplo, en `<a href="http://example.com">link</a>`, `href` es un atributo que indica la URL a la que apunta el enlace.

3. **Contenido**:
   - Los elementos pueden contener contenido, que puede ser texto, otros elementos HTML, o una mezcla de ambos. 

4. **Recursos Externos**:
   - Una página HTML puede incluir referencias a recursos externos, como hojas de estilo en cascada (CSS) para controlar la apariencia, o JavaScript para agregar funcionalidad interactiva.

5. **Estructura Básica**:
   - Una página HTML tiene una estructura básica que incluye elementos como `<html>`, `<head>` (que contiene metadatos y enlaces a recursos externos) y `<body>` (que contiene el contenido principal de la página).
<br>




### Ejemplo de una Página HTML Básica:

In [None]:
<!DOCTYPE html>
<html>
<head>
    <title>Mi primera página HTML</title>
</head>
<body>
    <h1>Encabezado Principal</h1>
    <p>Esto es un párrafo de texto.</p>
    <a href="http://example.com">Un enlace a example.com</a>
</body>
</html>



En este ejemplo:
- `<!DOCTYPE html>` es una declaración que le dice al navegador que esta es una página HTML5.
- `<html>` es el elemento raíz que contiene todos los demás elementos.
- `<head>` contiene metadatos y enlaces a recursos externos (en este caso, solo un título).
- `<body>` contiene el contenido principal de la página, incluyendo un encabezado (`<h1>`), un párrafo (`<p>`), y un enlace (`<a>`).


### DOM

El DOM, o Modelo de Objetos del Documento, es una interfaz de programación para documentos web. Representa la estructura lógica de un documento y define la forma en que la estructura puede ser manipulada por los programas. El DOM se estructura como un árbol de nodos, donde cada nodo representa un objeto que corresponde, generalmente, con algún elemento del documento HTML. Los nodos pueden tener hijos, padres y hermanos.


### Ejemplo de un árbol DOM básico:

```
 Document
    |
    |- <html>
         |
         |- <head>
         |    |
         |    |- <title>
         |         |
         |         |- "Mi primera página HTML"
         |
         |- <body>
              |
              |- <h1>
              |    |
              |    |- "Encabezado Principal"
              |
              |- <p>
              |    |
              |    |- "Esto es un párrafo de texto."
              |
              |- <a>
                   |
                   |- "Un enlace a example.com"
                   |
                   |- (atributo href con valor "http://example.com")
```



---

## **Web scraping**

El web scraping es una técnica utilizada para extraer información de sitios web. En su forma más básica, implica recuperar una página web y luego extraer datos necesarios de ella. Entre las aplicaciones más comunes del web scraping encontramos:

- **Análisis de Datos y Minería de Datos:** Para recopilar grandes conjuntos de datos para análisis posterior.

- **SEO (Optimización de Motores de Búsqueda):** Para analizar datos de sitios web, como metadatos, palabras clave, backlinks, etc.

- **E-commerce:** Para monitorear precios y disponibilidad de productos en diferentes plataformas.

- **Investigación de Mercados:** Para recopilar datos sobre tendencias del mercado, competencia, preferencias de los consumidores, etc.

- **Automatización de Tareas:** Para automatizar tareas repetitivas, como la entrada de datos.

Una de las librerías más usadas en este ámbito es [Beautiful Soup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/).

## **Beautiful Soup**

Beautiful Soup es una biblioteca de Python para extraer datos de archivos HTML y XML. Con ella puedes hacer:

- Parsing de HTML y XML: Beautiful Soup puede parsear (analizar y estructurar) documentos HTML y XML, lo que facilita la extracción de datos de estos tipos de archivos.

- Navegación en el Árbol de Sintaxis: Una vez que un documento ha sido parseado, Beautiful Soup permite navegar y buscar a través del árbol de sintaxis de forma fácil y efectiva, utilizando diversos métodos de búsqueda.

- Manipulación de Documentos: Además de permitir la extracción de datos, Beautiful Soup también puede modificar el documento, lo que permite, por ejemplo, cambiar tags, atributos, y contenido de texto.

- Extracción de Información: Puedes extraer información específica de un documento, como obtener todos los URLs en una página, o encontrar todos los elementos con una clase específica.


### Instalación

In [None]:
pip install beautifulsoup4
pip install lxml

### Extracción de información

Vamos a acceder a mi web (http://cayetanoguerra.github.io/ia/) y extraer información de ella. Concretamente, queremos extraer el título y los temas que hay. Sabemos que están bajo los tags `<h1>` y `<h3>` respectivamente.

In [1]:
from bs4 import BeautifulSoup
import requests

response = requests.get('http://cayetanoguerra.github.io/ia/')
soup = BeautifulSoup(response.content, 'lxml')

# Encuentra el primer elemento <h1>
h1 = soup.find('h1')
print(h1.text)

# Encuentra todos los elementos <h3>
paragraphs = soup.find_all('h3')
for p in paragraphs:
    print(p.text)


Inteligencia Artificial

Python


Búsquedas


Redes neuronales


Aprendizaje por refuerzo


Sistemas basados en reglas


Computación evolutiva


Redes Bayesianas


Planificación


Machine Learning


Procesamiento del Lenguaje Natural (NLP)


Misc.



Supongamos ahora que queremos sacar todo el texto la página web de un periódico. Para ello, podemos usar el método `get_text()` de la clase `BeautifulSoup`.

In [2]:
from bs4 import BeautifulSoup
import requests

response = requests.get('https://www.marca.com/futbol/seleccion/2023/09/06/64f85cf9e2704e573c8b459c.html')

soup = BeautifulSoup(response.content, 'lxml')

text = soup.get_text("|", strip=True)
print(text)

Selección española: Carvajal: "En ningún momento he dicho que Jenni no sea la víctima" | Marca|Es noticia:|Lista seleccion española femenina|Techo Santiago Bernabéu|Athletic bandera española|Aston Martin|AEMET tormentas|Arturo Pérez-Reverte Rubiales|Garbiñe Muguruza nueva vida|Granada - Girona TV|TardeAR horario|TardeAR colaboradores|Patricia Pardo|Pasapalabra invitados|Hormiguero invitados|Jorge Rey golondrinas|Precio luz hoy|F1 GP Japón horarios|Resultados fútbol|Calendario F1|Calendario Liga|Bienestar|Coches|Portada de Marca|Edición seleccionada|ES|Ediciones:|ES (España)|EN (English)|MX (México)|US (USA)|Escoge tu edición de Marca.com favorita|Siempre que entres en Marca.com se cargará esta edición|ES (España)|EN (English)|MX (México)|US (USA)|Confirmar|Suscríbete|Fútbol|Baloncesto|Motor|Polideportivo|Coches|Última hora|Fantasy|Agenda TV|Más|Cerrar|06 de septiembre
de 2023|Actualizado a las 16:41 h.|Portada|Volver a:|Fútbol|Selección Española|Noticias|Mundial 2022|EURO 2024|UEFA Nat

<img src="imgs/flask-horizontal.jpeg" width="20%" />


Flask es un microframework de Python para desarrollar aplicaciones web. Es muy conocido por su simplicidad y flexibilidad.

In [None]:
from flask import Flask

app = Flask(__name__)

@app.route('/')
def hello_world():
    return 'Hello, World!'

if __name__ == '__main__':
    app.run()