venerdi_12 ha scritto:Aggiungo che lanciando lo script a distanza di alcuni minuti la posizione dell'errore cambia: ad esempio ora l'errore dovrebbe essere in questo tag
Codice: Seleziona tutto
<a href="http://www.ilfattoquotidiano.it/2011/02/19/einsulto-i-rom-su-fb-verra-processato-a-breve/92909/?nocache">èinsultò i rom su fb verrà processato a breve…</a>
per la precisione la posizione indicata corrisponde al "?" prima di nocache
Alcuni minuti fa corrispondeva a questo codice:
Codice: Seleziona tutto
<p class="fleft w300" style="border-bottom:1px dashed #a9abae;"><span class="rosso maiuscolo grazie f12">PAGINA 16</span>
<span class="grigioscuro grazie f12"> | di <span class="italic">Paolo Ojetti</span></span></p>
per la precisione al ">" prima di Paolo Ojetti.
Non vedo il nesso tra le due segnalazioni, ma sono scarso in html
@
414N Aveva ragione; sono delle "è". Il problema e che non riesco ad intercettarle con una stringa di sostituzione che funziona in altre parti del testo.
Codice: Seleziona tutto
// browser Internet Explorer
// è necessario filtrare la versione 4
il problema è la "è" tra "//" (e la cosa mi puzza di problemi di escape) e "necessario".
Se faccio:
la sostituzione non avviene mentre se faccio:
la sostituzione avviene correttamente
Edit: la sostituzione sono riuscito a farla così:
.
Il problema ora è che nell'epub i caratteri accentati e gli apostrofi sono visualizzati male.
Assodato che:
- il mio script non è stato modificato
- il problema si presenta su tutti i miei pc (slackware e archlinux)
- il problema fino a venerdì non si presentava
- il problema si presenta anche per i numeri del giornale scaricati correttamente nei giorni scorsi
suppongo che sia stato modificato in qualche modo l'header html della pagina
http://www.ilfattoquotidiano.it/giornale-cartaceo/