Eliminar etiquetas HTML

Python

Función encargada de eliminar las etiquetas HTML:

#main.py

import re

def strip_tags(value):
return re.sub(r'<[^>]*?>', '', value)

Suponiendo que tenemos el siguiente HTML

<!DOCTYPE HTML>
<html>
        <head>
                <title>Title</title>
        </head>
        <body>
                <p>Paragraph</p>
        </body>
</html>

Vamos a hacer una prueba pasandolo como parámetro de la función strip_tags:

#main.py

html_text = """
        <!DOCTYPE HTML>
        <html>
                <head>
                        <title>Title</title>
                </head>
                <body>
                        <p>Paragraph</p>
                </body>
        </html>"""

print strip_tags(html_text)

Si ejecutamos el script tenemos como resultado:

Title

Paragraph

Y si con Python ha sido fácil, vamos a ver con Django

Django

#main.py

from django.utils.html import strip_tags

html_text = """
        <!DOCTYPE HTML>
        <html>
                <head>
                        <title>Title</title>
                </head>
                <body>
                        <p>Paragraph</p>
                </body>
        </html>"""

print strip_tags( html_text )

Mucho más sencillo, porque la función ya está escrita.

Comments

Comments powered by Disqus