Eliminar etiquetas HTML de un Texto en Python

A principios de esta semana, cuando estaba automatizando tareas en chrome, necesitaba eliminar  etiquetas HTML de un texto, la cadena de texto ya estaba grabada con etiquetas HTML en la base de datos y uno de los requisitos especifica que como texto sin formato.

Sabía desde el principio que las expresiones regulares podían aplicarse a ese desafío, porque las he utilizado cuando  hago web scraping, pero como no soy un experto en expresiones regulares, busqué algunos consejos y luego encontré lo que realmente necesitaba.

Para realizar esta tarea primero tenemos que instalar el paquete que nos ayudará a eliminar las etiquetas html en un texto.

1. Instalar BeautyfulSoup

pip install bs4

2. Ejecucion

from bs4 import BeautifulSoup
soup = BeautifulSoup(html)
text = soup.get_text()
print(text)

Listo, happy Hacking 😉

Deja un comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.