Estrarre il testo da una pagina HTML.

Autore dello script: Fabrizio | Sito Web: http://bash-script.b2com.org

Spesso mi succede di dover salvare delle pagine HTML contenenti del testo che voglio rielaborare, ovviamente ogni pagina HTML è piena dei relativi tag e attributi. Per poter estrarre comodamente il testo "ripulito" da tutti (o quasi) i tag ho creato il seguente script:

#!/bin/bash
input_file="$*"
output_file=${input_file}.txt
sed -e 's/<[^>]*>//g' ${input_file} > ${output_file}

Come potete vedere è uno script molto semplice, ma fa egregiamente il suo lavoro rimuovendo la maggior parte dei tag HTML.

Per utilizzarlo basta digitare in un terminale:

./html2text.sh file.html

e otterrò come risultato il file di testo file.html.txt pronto per essere elaborato.

Scarica lo script

Ti è piaciuto l'articolo? Se vuoi, scrivi un commento.

Inizio Pagina