Table of Contents
A continuación veremos cómo eliminar las etiquetas HTML de una cadena de caracteres.
Con Python
Función encargada de eliminar las etiquetas HTML:
main.py
import re
def strip_tags(value):
return re.sub(r'<[^>]*?>', '', value)
Vamos a hacer una prueba un fragmento de HTML a la función strip_tags
:
main.py
import re
def strip_tags(value):
return re.sub(r'<[^>]*?>', '', value)
html_text = """
<!DOCTYPE HTML>
<html>
<head>
<title>Title</title>
</head>
<body>
<p>Paragraph</p>
</body>
</html>"""
print(strip_tags(html_text))
Si ejecutamos el script tenemos como resultado:
Title
Paragraph
Django
Django una ofrece función para esto: strip_tags.
Antes, solo hay que instalar la librería: pip install django
.
main.py
from django.utils.html import strip_tags
html_text = """
<!DOCTYPE HTML>
<html>
<head>
<title>Title</title>
</head>
<body>
<p>Paragraph</p>
</body>
</html>"""
print (strip_tags(html_text))