Seção 3: Autores

Q 3.4: Como converter minha informação para o formato XML?

Escreva ou use um conversor em uma língua que entenda XML

Se a fonte de formato do arquivo tem algum tipo de consistência e estrutura reconhecível, até mesmo espaçamento e quebras de linha simples, é geralmente possível escrever séries de igualação de padrões em várias línguas a fim de isolar a informação que caia em tais padrões e fazer sua saída com tags ao seu redor.

XSLT2 tem uma sintaxe de igualação de padrões para fazer exatamente este tipo de ‘up-conversion’, e outros processadores tais quais os Omnimark oferecem perfis similares. Tais conversões podem criar um formato de ‘atalho’ temporário para o qual uma segunda conversão é aplicada a fim de criar o formato XML final.

Se os arquivos fonte estão em um formato reconhecível (CSV, por exemplo), talvez exista uma série disponível para download ou compra que pode criar formatos XML. Uma segunda conversão XML-para-XML pode então ser usada para criar o formato final requerido. .

Sistemas de gerenciamento de bancos de dados podem conter séries embutidas de ‘exportação-para-XML’ que podem criar formatos de ‘atalho’ similares para conversões subsequentes (veja Como fazer a entrada ou retirada do XML no meu banco de dados? por exemplo).

Se a informação for completamente desformatada, ou ruim ou formatada inconsistentemente que a conversão automatizada seja impossível, terá que ser editada à mão para o formato XML. Documentos Wordprocessor são exemplos clássicos disso. Existem companhias que se especializam neste tipo de trabalho, particularmente ao redor do Pacific Rim, que têm experiências longas com o manuseio em todos os tipo estranhos e incríveis de formatos, e podem enviar XML íntegro a você.

Os dois formatos frequentemente pedidos como fontes para melhor suporte:

L A T E X

Documentos L A T E X bem formados (aqueles que não usam macros homebrew, especialmente aqueles usando TEX simples ou comandos obsoletos) podem ser convertidos usando o pacote TEX4ht. Na época da escrita (2015) isto não é suportado desde a morte do seu autor, mas é inteiramente funcional.

T E X TEX4ht pode converter para HTML e ODF (formato ( OpenOffice de várias formas, então o resultado final pode ser facilmente aberto no OpenOffice e salvo como um arquivo .docx. Existem opções de linhas de comando para o programa oowriter (ou lowriter se você usa o Libre Office) o que permite conversão cheira roteirizada.

Microsoft Word

Arquivos Word ( .docx ) são arquivos Zip que contém documentos XML juntamente com imagens associadas e planilhas. Por padrão, documentos Word consistem apenas de parágrafos (x:p elementos) . Toda a metadata sobre a estrutura dos documentos é oferecida como fonte e informação de espaçamento, que pode apenas ser confiável se interpretada por um humano, tornando conversão significativa bastante difícil.

No entanto, se estilos nomeados (do menu embutido ou criado pelo autor) são usados consistentemente , é possível escrever um roteiro XSLT2 que os iguale e crie saídas de marcação XML mais usáveis.

Alguns editores (eg XMLMind , AbiWord ) e outros sistemas agora providenciam conversão do Word, ambos para um formato puramente visual (HTML), imitando a aparência do original, e para um vocabulário ‘semântico’ como o DocBook ou DITA, sem nenhuma formatação.

As rotas XSLT2 também se aplicam para OpenOffice|LibreOffice, os quais também armazenam XML num arquivo Zip. A marcação é diferente, mas pode ser convertida juntamente com as mesmas linhas.