Eliminar etiquetas HTML de un Texto en Python

A principios de esta semana, cuando estaba automatizando tareas en chrome, necesitaba eliminar etiquetas HTML de un texto, la cadena de texto ya estaba grabada con etiquetas HTML en la base de datos y uno de los requisitos especifica que como texto sin formato.

Sabía desde el principio que las expresiones regulares podían aplicarse a ese desafío, porque las he utilizado cuando hago web scraping, pero como no soy un experto en expresiones regulares, busqué algunos consejos y luego encontré lo que realmente necesitaba.

Para realizar esta tarea primero tenemos que instalar el paquete que nos ayudará a eliminar las etiquetas html en un texto.

1. Instalar BeautyfulSoup

pip install bs4

2. Ejecucion
from bs4 import BeautifulSoup soup = BeautifulSoup(html) text = soup.get_text() print(text)

Listo, happy Hacking 😉

Deja un comentario Cancelar la respuesta