Pues he intentado pasar un ebook en pdf a formato xhtml pero tengo problemas con las vocales acentuadas.
El proceso que he seguido es el siguiente (desde ubuntu):
Primero paso el archivo pdf a html con el comando: pdftotext -layout -htmlmeta ebook.pdf ebook.html
El archivo se crea bien, pero al visualizarlo en el mozilla las
palabras acentuadas se ven con caracteres distintos, aunque esto segun
he leido es normal puesto que html no es compatible con las vocales
acentuadas y hay que sustituirlas por un codigo.
Ahora intento pasar el archivo html a formato xhtml con el comando tidy: tidy -asxhtml -o ebook.xhtml ebook.html
Errores no me suelta ninguno, pero me suelta unos cuantos miles de warnings y al final del proceso pone esto:
Character codes 128 to 159 (U+0080 to U+009F) are not allowed in HTML;
even if they were, they would likely be unprintable control characters.
Tidy assumed you wanted to refer to a character with the same byte value in the
specified encoding and replaced that reference with the Unicode equivalent.
Me sustituye todas las vocales acentuadas por los caracteres unicode
(TÃtulo original). Tambien he probado añadiendole el argumento -latin1
al comando tidy pero no arregla nada. Y la verdad es que llevo un rato
googleando y no se que hacer.
¿¿Alguien puede ayudarme a pasar el ebook a xhtml con acentos??