A principios de esta semana, cuando estaba automatizando tareas en chrome, necesitaba eliminar etiquetas HTML de un texto, la cadena de texto ya estaba grabada con etiquetas HTML en la base de datos y uno de los requisitos especifica que como texto sin formato.
Sabía desde el principio que las expresiones regulares podían aplicarse a ese desafío, porque las he utilizado cuando hago web scraping, pero como no soy un experto en expresiones regulares, busqué algunos consejos y luego encontré lo que realmente necesitaba.
Para realizar esta tarea primero tenemos que instalar el paquete que nos ayudará a eliminar las etiquetas html en un texto.
1. Instalar BeautyfulSoup
pip install bs4
2. Ejecucion
from bs4 import BeautifulSoup
soup = BeautifulSoup(html)
text = soup.get_text()
print(text)
Listo, happy Hacking 😉