Eliminar etiquetas HTML

Cómo eliminar etiquetas HTML utilizando Python o más fácil aún, utilizando Django

02/10/2012
Python
Django
HTML
Table of Contents

A continuación veremos cómo eliminar las etiquetas HTML de una cadena de caracteres.

Con Python

Función encargada de eliminar las etiquetas HTML:

main.py
import re

def strip_tags(value):
    return re.sub(r'<[^>]*?>', '', value)

Vamos a hacer una prueba un fragmento de HTML a la función strip_tags:

main.py
import re

def strip_tags(value):
    return re.sub(r'<[^>]*?>', '', value)

html_text = """
    <!DOCTYPE HTML>
    <html>
        <head>
            <title>Title</title>
        </head>
        <body>
            <p>Paragraph</p>
        </body>
    </html>"""

print(strip_tags(html_text))

Si ejecutamos el script tenemos como resultado:

Title

Paragraph

Si con Python ha sido fácil, vamos a ver con Django.

Django

Django una ofrece función para esto: strip_tags.

Antes, solo hay que instalar la librería: pip install django.

main.py
from django.utils.html import strip_tags

html_text = """
    <!DOCTYPE HTML>
    <html>
        <head>
            <title>Title</title>
        </head>
        <body>
            <p>Paragraph</p>
        </body>
    </html>"""

print (strip_tags(html_text))