Autore dello script: Fabrizio | Sito Web: http://bash-script.b2com.org
Spesso mi succede di dover salvare delle pagine HTML contenenti del testo che voglio rielaborare, ovviamente ogni pagina HTML è piena dei relativi tag e attributi. Per poter estrarre comodamente il testo "ripulito" da tutti (o quasi) i tag ho creato il seguente script:
#!/bin/bash
input_file="$*"
output_file=${input_file}.txt
sed -e 's/<[^>]*>//g' ${input_file} > ${output_file}
Come potete vedere è uno script molto semplice, ma fa egregiamente il suo lavoro rimuovendo la maggior parte dei tag HTML.
Per utilizzarlo basta digitare in un terminale:
./html2text.sh file.html
e otterrò come risultato il file di testo file.html.txt pronto per essere elaborato.