<p>
<img src="../imgs/EII-ULPGC-logo.jpeg" width="430px" align="right">

# **NOTEBOOK 1**
---

# **Preprocesamiento**

El **preprocesamiento** se refiere a un conjunto de técnicas y procesos utilizados para preparar los datos de texto para su análisis y modelado posterior. Estas técnicas ayudan a transformar y normalizar el texto de tal manera que se facilite su procesamiento posterior por algoritmos de PLN.

Las tareas comunes de preprocesamiento que veremos son:

1. **Tokenización**: Dividir el texto en unidades más pequeñas, como palabras.

2. **Eliminación de signos de puntuación y caracteres especiales**: Limpiar el texto de elementos que no aportan significado relevante.

3. **Conversión a minúsculas**: Uniformizar el texto para evitar diferencias entre mayúsculas y minúsculas.

4. **Eliminación de stop words**: Eliminar palabras comunes que no aportan mucho significado al texto, como "el", "la", "y", "de", etc.

5. **Lematización y derivación (stemming)**: Reducir las palabras a su raíz o forma base. Por ejemplo, convertir palabras como "corriendo" o "corrió" a su lema o raíz "correr".

6. **Etiquetado de partes del discurso (POS tagging)**: Identificar y etiquetar las partes del discurso de cada palabra en el texto, como sustantivo, verbo, adjetivo, etc.

7. **Análisis sintáctico (parsing)**: Determinar la estructura gramatical del texto.

8. **Reconocimiento de entidades nombradas (NER)**: Identificar y clasificar entidades nombradas en categorías predefinidas como nombres de personas, organizaciones, lugares, expresiones de tiempo, cantidades, valores monetarios, etc.

### **1. Tokenización**

La **tokenización** es un paso crucial en el procesamiento del lenguaje natural (NLP, por sus siglas en inglés). En este proceso, un texto (que puede ser una oración, un párrafo o un documento completo) se divide en piezas más pequeñas llamadas "tokens". Estos tokens pueden ser palabras, conjuntos de palabras, subpalabras o incluso caracteres individuales, dependiendo del nivel de tokenización que se está realizando.

Por ejemplo, la frase: "Este año me voy de vacaciones a la playa" puede ser dividida en tokens de la siguiente manera:
"Este", "año", "me", "voy", "de", "vacaciones", "a", "la", "playa". Aunque la forma más fácil de tokenizar un texto es separarlo en palabras, usando para ello los espacios en blanco entre palabras, recuerda que también es posible tokenizar de otras formas.

In [16]:
txt = "Este año me voy de vacaciones a la playa"
tokens = txt.split()
print(tokens)

['Este', 'año', 'me', 'voy', 'de', 'vacaciones', 'a', 'la', 'playa']


### **2. Eliminación de signos de puntuación y caracteres especiales**

Los tokens también pueden incluir signos de puntuación. Dependediendo de la aplicación que estemos desarrollando, puede ser útil mantenerlos o eliminarlos. Podemos hacerlo de la siguiente manera:

In [22]:
txt = "Este año, como hicimos el anterior, nos iremos a la playa de vacaciones."
tokens = txt.split()
print(tokens)

['Este', 'año,', 'como', 'hicimos', 'el', 'anterior,', 'nos', 'iremos', 'a', 'la', 'playa', 'de', 'vacaciones.']


In [23]:
# Tokenizar eliminando signos de puntuación
txt = "Este año, como hicimos el anterior, nos iremos a la playa de vacaciones."

txt = txt.replace(',', '')
txt = txt.replace('.', '')
txt = txt.replace(';', '')
txt = txt.replace(':', '')
txt = txt.replace('?', '')
txt = txt.replace('¿', '')
txt = txt.replace('!', '')
txt = txt.replace('¡', '')

tokens = txt.split()
print(tokens)

['Este', 'año', 'como', 'hicimos', 'el', 'anterior', 'nos', 'iremos', 'a', 'la', 'playa', 'de', 'vacaciones']


### **3. Conversión a minúsculas**

En Python podemos convertir un texto a minúsculas usando el método `lower()`.

In [10]:
texto_original = "Este es un Texto de Ejemplo para Convertir a MINÚSCULAS."
texto_en_minusculas = texto_original.lower()

print(texto_en_minusculas)

este es un texto de ejemplo para convertir a minúsculas.


### **4. Eliminación de stop words**

Estas palabras son generalmente las más comunes en un idioma, como artículos, preposiciones, conjunciones y algunas veces verbos auxiliares y pronombres.

La razón principal para filtrar las palabras de parada es que, aunque son fundamentales para la estructura gramatical de un idioma, suelen tener poca relevancia semántica en el análisis de texto. Esto es especialmente cierto en tareas como la minería de texto, el análisis de sentimientos, la clasificación de texto, etc., donde el enfoque está en identificar palabras clave que representan mejor el significado y el contenido del texto.

Por ejemplo, en español, palabras como "el", "la", "y", "de", "que" son consideradas *stop words*. Al eliminarlas, se puede reducir el tamaño del conjunto de datos y concentrarse en palabras que aportan más información relevante para el análisis.

In [11]:
# Lista de stop-words en español
stop_words = ["de", "la", "que", "el", "en", "y", "a", "los", "se", "del", "las", "por", "un", "para", "con", "no", "una", "su", "al", "lo", "como", "más", "pero", "sus", "le", "ya", "o", "este", "sí", "porque", "esta", "entre", "cuando", "muy", "sin", "sobre", "también", "me", "hasta", "hay", "donde", "quien", "desde", "todo", "nos", "durante", "todos", "uno", "les", "ni", "contra", "otros", "ese", "eso", "ante", "ellos", "e", "esto", "mí", "antes", "algunos", "qué", "unos", "yo", "otro", "otras", "otra", "él", "tanto", "esa", "estos", "mucho", "quienes", "nada", "muchos", "cual", "poco", "ella", "estar", "estas", "algunas", "algo", "nosotros", "mi", "mis", "tú", "te", "ti", "tu", "tus", "ellas", "nosotras", "vosotros", "vosotras", "os", "mío", "mía", "míos", "mías", "tuyo", "tuya", "tuyos", "tuyas", "suyo", "suya", "suyos", "suyas", "nuestro", "nuestra", "nuestros", "nuestras", "vuestro", "vuestra", "vuestros", "vuestras", "esos", "esas", "estoy", "estás", "está", "estamos", "estáis", "están", "esté", "estés", "estemos", "estéis", "estén", "estaré", "estarás", "estará", "estaremos", "estaréis", "estarán", "estaría", "estarías", "estaríamos", "estaríais", "estarían", "estaba", "estabas", "estábamos", "estabais", "estaban", "estuve", "estuviste", "estuvo", "estuvimos", "estuvisteis", "estuvieron", "estuviera", "estuvieras", "estuviéramos", "estuvierais", "estuvieran", "estuviese", "estuvieses", "estuviésemos", "estuvieseis", "estuviesen", "estando", "estado", "estada", "estados", "estadas", "estad", "he", "has", "ha", "hemos", "habéis", "han", "haya", "hayas", "hayamos", "hayáis", "hayan", "habré", "habrás", "habrá", "habremos", "habréis", "habrán", "habría", "habrías", "habríamos", "habríais", "habrían", "había", "habías", "habíamos", "habíais", "habían", "hube", "hubiste", "hubo", "hubimos", "hubisteis", "hubieron", "hubiera", "hubieras", "hubiéramos", "hubierais", "hubieran", "hubiese", "hubieses", "hubiésemos", "hubieseis", "hubiesen", "habiendo", "habido", "habida", "habidos", "habidas", "soy", "eres", "es"]

txt = "Este es un texto de ejemplo para eliminar las stop-words"
tokens = txt.split()
tokens_filtrados = []

for token in tokens:
    if token not in stop_words:
        tokens_filtrados.append(token)

print(tokens_filtrados)

['Este', 'texto', 'ejemplo', 'eliminar', 'stop-words']


---

### Ejercicio 1

- Crea un script para extraer los símbolos de puntuación como tokens independientes.
- ¿Qué ocurre si nos encontramos un texto donde no se han separado correctamente las palabras y los signos de puntuación? Por ejemplo: "¿Cómo estás?Bien,gracias."


---

## **NLTK: Natural Language Toolkit**

https://www.nltk.org/

<code>!pip install nltk</code>

NLTK es una biblioteca de Python para el procesamiento del lenguaje natural. Proporciona interfaces fáciles de usar para más de 50 recursos léxicos y gramaticales, como WordNet, junto con una suite de bibliotecas de procesamiento de texto para la clasificación, tokenización, derivación, etiquetado y análisis sintáctico.

In [1]:
import nltk
nltk.download('punkt')  # Para tokenización
nltk.download('stopwords')  # Para stopwords

[nltk_data] Downloading package punkt to /Users/cayetano/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/cayetano/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

Veamos cómo con NLTK podemos realizar las tareas de preprocesamiento que hemos visto anteriormente.

In [3]:
from nltk.tokenize import word_tokenize

texto = "Este es un ejemplo de texto para usar NLTK. ¡Tokeniza este texto!"
palabras = word_tokenize(texto)
print(palabras)

['Este', 'es', 'un', 'ejemplo', 'de', 'texto', 'para', 'usar', 'NLTK', '.', '¡Tokeniza', 'este', 'texto', '!']


In [4]:
from nltk.corpus import stopwords

stop_words = set(stopwords.words('spanish'))

# Suponiendo que ya tienes una lista de palabras tokenizadas
palabras_filtradas = [palabra for palabra in palabras if not palabra.lower() in stop_words]

print(palabras_filtradas)

['ejemplo', 'texto', 'usar', 'NLTK', '.', '¡Tokeniza', 'texto', '!']


### **5. Lematización y derivación (stemming)**

La **lematización** es un proceso que consiste en reducir las palabras a su forma básica o "lema", que es una forma canónica o de diccionario de una palabra. La lematización tiene en cuenta el análisis morfológico de las palabras, es decir, considera el contexto gramatical y sintáctico para convertir una palabra a su forma base.

Por ejemplo:

"Corriendo" → "correr"

"Mujeres" → "mujer"

La **derivación** o "stemming" es un proceso que tiene como objetivo reducir las palabras a su raíz o "tallo" (en inglés, "stem"). A diferencia de la lematización, que intenta reducir las palabras a su forma base léxica teniendo en cuenta la morfología y el contexto gramatical, el stemming suele ser un proceso más heurístico y rudimentario que simplemente elimina los sufijos (y a veces prefijos) de las palabras.

Por ejemplo:

"Corriendo" → "corri"

"Comiendo" → "comi"

<img src="imgs/SpaCy_logo.png" width="20%">

https://spacy.io/

Procesar texto no suele ser una tarea trivial. La mayoría de las palabras son raras y es común que palabras que parecen completamente diferentes signifiquen casi lo mismo. Las mismas palabras en diferente orden pueden significar algo completamente diferente. Incluso dividir el texto en unidades útiles similares a palabras puede resultar difícil en muchos idiomas. Si bien es posible resolver algunos problemas a partir únicamente de los caracteres sin procesar, generalmente es mejor utilizar conocimientos lingüísticos para agregar información útil. Eso es exactamente para lo que está diseñado <a href="https://spacy.io/">spaCy</a>: ingresas texto sin formato y obtienes un objeto <code>Doc</code>, que viene con una variedad de anotaciones.

Veamos cómo tokenizar un texto usando Spacy.

In [26]:
import spacy

nlp = spacy.load("es_core_news_sm")
doc = nlp("Este año, como hicimos el anterior, nos iremos a la playa de vacaciones.")
for token in doc:
    print(token.text)

Este
año
,
como
hicimos
el
anterior
,
nos
iremos
a
la
playa
de
vacaciones
.


Antes de tokenizar, es posible que queramos separar en frases el texto.

In [18]:
import spacy

nlp = spacy.load("es_core_news_sm")
doc = nlp("Esto es una oración. Esto es otra oración. U.S.A. es un país. Esta es un frase final.")
for sent in doc.sents:
    print(sent.text)

Esto es una oración.
Esto es otra oración.
U.S. A. es un país.
Esta es un frase final.


Vamos a lematizar el texto usando Spacy.

In [16]:
import spacy

nlp = spacy.load("es_core_news_sm")
doc = nlp("Este año, como hicimos el anterior, nos iremos a la playa de vacaciones.")
for token in doc:
    print(token.text, "->", token.lemma_)

Este -> este
año -> año
, -> ,
como -> como
hicimos -> hacer
el -> el
anterior -> anterior
, -> ,
nos -> yo
iremos -> irer
a -> a
la -> el
playa -> playa
de -> de
vacaciones -> vacación
. -> .


Spacy no tiene la posibilidad de hacer stemming de palabras, pero podemos usar NLTK para ello.

In [5]:
import nltk
from nltk.stem.snowball import SpanishStemmer

# Crear una instancia del Snowball Stemmer para español
stemmer = SpanishStemmer()

# Lista de palabras para aplicar stemming
palabras = ["correr", "corriendo", "corredor", "corrió", "rápido"]

# Aplicar stemming a cada palabra
stems = [stemmer.stem(palabra) for palabra in palabras]

print(stems)


['corr', 'corr', 'corredor', 'corr', 'rap']


### **6. Etiquetado de partes del discurso (POS tagging)**

El POS tagging es un proceso que implica asignar a cada palabra en un texto una etiqueta que indica su parte del discurso. Las partes del discurso incluyen categorías gramaticales como sustantivos, verbos, adjetivos, adverbios, preposiciones, conjunciones, entre otros.

In [7]:
import spacy
import pandas as pd

nlp = spacy.load("es_core_news_sm")
doc = nlp("Este año, como hicimos el anterior, nos iremos a la playa de vacaciones.")

data = []

for token in doc:
    data.append([token.text, token.lemma_, token.pos_, token.tag_, token.dep_,
            token.shape_, token.is_alpha, token.is_stop])

df = pd.DataFrame(data, columns=['Text', 'Lemma', 'POS', 'Tag', 'Dep', 'Shape', 'is_alpha', 'is_stop']) 
print(df)

          Text     Lemma    POS    Tag      Dep Shape  is_alpha  is_stop
0         Este      este    DET    DET      det  Xxxx      True     True
1          año       año   NOUN   NOUN      obl   xxx      True    False
2            ,         ,  PUNCT  PUNCT    punct     ,     False    False
3         como      como  SCONJ  SCONJ     mark  xxxx      True     True
4      hicimos     hacer   VERB   VERB    advcl  xxxx      True    False
5           el        el    DET    DET      det    xx      True     True
6     anterior  anterior    ADJ    ADJ    nsubj  xxxx      True     True
7            ,         ,  PUNCT  PUNCT    punct     ,     False    False
8          nos        yo   PRON   PRON  expl:pv   xxx      True     True
9       iremos      irer   VERB   VERB     ROOT  xxxx      True    False
10           a         a    ADP    ADP     case     x      True     True
11          la        el    DET    DET      det    xx      True     True
12       playa     playa   NOUN   NOUN      obl  xx

### **7. Análisis sintáctico (parsing)**

En análisis sintáctico analiza la estructura gramatical de una oración. El análisis sintáctico asigna una estructura a una oración, como puede ser un árbol de dependencia o un árbol de constituyentes.

In [8]:
from spacy import displacy
displacy.serve(doc, style="dep")




Using the 'dep' visualizer
Serving on http://0.0.0.0:5000 ...

Shutting down server on port 5000.


Encontramos también las etiquetas "Dep" que indica la dependencia o relación sintáctica entre las palabras de una oración. Algunas de estas etiquetas son:

- **nsubj**: Sujeto nominal de la cláusula.
- **nsubjpass**: Sujeto nominal de una cláusula pasiva.
- **csubj**: Sujeto clausal de la cláusula.
- **csubjpass**: Sujeto clausal de una cláusula pasiva.
- **pobj**: Objeto de una preposición.
- **dobj**: Objeto directo.
- **iobj**: Objeto indirecto.
- **attr**: Atributo, como en "El cielo está azul", donde "azul" es un atributo de "cielo".
- **ROOT**: Palabra central de la oración, desde la que se origina la dependencia.
- **cc**: Conjunción coordinada.
- **conj**: Palabra conectada por una conjunción.
- **det**: Determinante.
- **amod**: Modificador adjetival.
- **advmod**: Modificador adverbial.
- **prep**: Preposición.
- **mark**: Marcador, generalmente una palabra que introduce una cláusula subordinada.
- **aux**: Verbo auxiliar.
- **neg**: Negación.
- **nummod**: Modificador numeral.
- **relcl**: Cláusula relativa.

La etiqueta "is_alpha" significa que el token es una palabra (no un signo de puntuación, número, etc.). La etiqueta "is_stop" significa que el token es una "stop word". 

---

### Ejercicio 2

Carga el archivo de texto con la novela "Cien años de soledad" y calcula:

- El número de palabras que tiene la novela.
- El número de palabras únicas que tiene la novela.
- El número de veces que aparece la palabra "Macondo" en la novela.
- Las 100 palabras más frecuentes de la novela, eliminando las palabras vacías (stopwords).

Ten en cuenta no diferenciar entre mayúsculas y minúsculas.

---


### **8. Reconocimiento de entidades nombradas (NER)**

El reconocimiento de entidades nombradas es una tarea muy común dentro del NLP. Consiste en extraer del texto las entidades que son de interés para el usuario, como por ejemplo nombres de personas, organizaciones, lugares, etc. Vamos a ver cómo hacerlo con la librería spaCy.

In [27]:
import spacy

nlp = spacy.load("es_core_news_sm")
doc = nlp("Madrid es la capital de España y donde vive mi amigo Juan Pérez.")

for ent in doc.ents:
    print(ent.text, ent.start_char, ent.end_char, ent.label_)

displacy.serve(doc, style="ent")

Madrid 0 6 LOC
España 24 30 LOC
Juan Pérez 53 63 PER





Using the 'ent' visualizer
Serving on http://0.0.0.0:5000 ...

Shutting down server on port 5000.


### **EXTRA: Byte Pair Encoding (BPE)**

https://github.com/openai/tiktoken


El **Byte Pair Encoding** (BPE) es una técnica de compresión de datos que también se ha adaptado para tokenizar texto en el procesamiento del lenguaje natural. Originalmente diseñado para representar datos de manera eficiente, BPE funciona identificando pares de bytes (o caracteres) consecutivos que aparecen con frecuencia y fusionándolos en una sola unidad o token. En el contexto del procesamiento del lenguaje natural, este método ayuda a construir un vocabulario de subpalabras, permitiendo que los modelos de lenguaje manejen palabras raras o desconocidas de manera más eficiente y mitiguen el problema de vocabulario abierto, descomponiendo las palabras en unidades más pequeñas que aún retienen significado semántico.


### Paso a Paso:

1. **Vocabulario Inicial**: Comienza construyendo un vocabulario inicial. Esto a menudo implica tomar cada palabra en el conjunto de datos y descomponerla en sus caracteres individuales.

2. **Conteo de Pares**: En cada iteración, cuenta todos los pares de símbolos/caracteres consecutivos (o pares de byte) en el conjunto de datos.

3. **Fusión de Pares más Frecuentes**: Encuentra el par de símbolos más frecuente y los fusiona para formar un nuevo símbolo. Este nuevo símbolo representa ahora una secuencia de caracteres que a menudo aparecen juntos.

4. **Iteración**: Se repite el paso 2 y 3 un número predefinido de veces o hasta que se alcance un tamaño de vocabulario deseado. 


In [9]:
import tiktoken
from tabulate import tabulate

txt = "Hola, me llamo Juan. ¿Cómo te llamas tú? Me llamo María."

# Convierte txt en una lista de tokens
enc = tiktoken.encoding_for_model("gpt-4")

# Convierte tokens en una lista de índices
ids = enc.encode(txt)

data = []

for id in ids:
    data.append([id, "'" + enc.decode([id]) + "'" ])
    
print(tabulate(data, headers=['id', 'token']))

   id  token
-----  --------
69112  'Hola'
   11  ','
  757  ' me'
 9507  ' ll'
21781  'amo'
29604  ' Juan'
   13  '.'
29386  ' ¿'
96997  'Cómo'
 1028  ' te'
 9507  ' ll'
29189  'amas'
90318  ' tú'
   30  '?'
 2206  ' Me'
 9507  ' ll'
21781  'amo'
83305  ' María'
   13  '.'


## **Vocabulario**

El **vocabulario** es el conjunto de todas las palabras o tokens únicas que se encuentran en un corpus. El tamaño del vocabulario es el número total de palabras únicas. El vocabulario se puede construir a nivel de documento, corpus o incluso a nivel de colección de corpus. 

Vamos a construir el vocabulario de la novela "Cien años de soledad".

In [10]:
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

def create_vocabulary(path):
    # Cargamos las palabras vacías (stopwords) en español
    stop_words = set(stopwords.words('spanish'))

    # Inicializamos un conjunto vacío para el vocabulario
    vocabulary = set()

    with open(path, 'r', encoding='utf-8') as f:
        texto = f.read()
        # Utilizamos NLTK para tokenizar el texto, es decir, dividirlo en palabras
        tokens = word_tokenize(texto, language='spanish')

        for token in tokens:
            # Convertimos a minúsculas y verificamos que no sea una palabra vacía ni solo puntuación
            word = token.lower()
            if word.isalpha() and word not in stop_words:
                vocabulary.add(word)

    return vocabulary

# Llamamos a la función con la ruta del archivo
file = 'novela.txt'  # Sustituye esto con la ruta de tu archivo
vocab = create_vocabulary(file)

# Mostramos el vocabulario
print(vocab)

# Mostramos el tamaño del vocabulario
print(len(vocab), "palabras")

{'estampidos', 'nubarrones', 'pudrir', 'mandamos', 'nacían', 'acostándola', 'plasmable', 'despierto', 'notado', 'subordinados', 'cuchicheo', 'relevó', 'comerse', 'sometían', 'modo', 'pastel', 'puerca', 'murieron', 'llevadero', 'confundido', 'hepática', 'digna', 'telegrafista', 'irresponsabilidad', 'adelante', 'puño', 'sucumbieron', 'cura', 'perplejo', 'llovizna', 'naranjos', 'amantes', 'violación', 'viciosa', 'apestaba', 'vertebral', 'detective', 'mataba', 'desapareció', 'cuidados', 'poderosos', 'proponer', 'encarcelado', 'escupido', 'terminadas', 'eco', 'conocerse', 'frasquito', 'integridad', 'exhaustiva', 'lacre', 'distanciado', 'oratorio', 'diciendo', 'pestilencia', 'lacrado', 'trono', 'traspasaba', 'desmontar', 'estremecieron', 'propagara', 'apropiado', 'agonizando', 'modestos', 'preocupa', 'margen', 'frialdad', 'picado', 'puntillas', 'oponerse', 'obligaban', 'tranquilizar', 'tolerancia', 'sustentaría', 'dejamos', 'clavijas', 'endiablada', 'iglesia', 'derrotarlos', 'rechazarlo', 'e

Veamos ahora el vocabulario ordenado por la frecuencia de cada palabra.

In [11]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from collections import Counter

def create_vocabulary(path):
    stop_words = stopwords.words('spanish')

    with open(path, 'r', encoding='utf-8') as f:
        texto = f.read().lower()
        tokens = word_tokenize(texto, language='spanish')
        vocab = Counter(tokens)

        for stop_word in stop_words:
            if stop_word in vocab:
                del vocab[stop_word]

        for word in list(vocab):
            if not word.isalpha():
                del vocab[word]

        return vocab
    
voc = create_vocabulary('novela.txt')

for word, count in voc.most_common(20):
    print(word, count)

aureliano 784
úrsula 488
arcadio 477
casa 458
josé 423
buendía 391
amaranta 305
coronel 304
segundo 303
tan 273
tiempo 268
entonces 267
después 228
vez 226
si 225
sino 219
fernanda 210
sólo 204
mientras 192
dos 191
