Como já se disse, a diferença principal entre os projectos que a seguir se descrevem e os próximos, foi o ponto de partida. Nos projectos anteriores, tínhamos os documentos num formato e suporte digital. Nos que se apresentam a seguir apenas se possuía o documento em papel.
Tratavam-se de documentos com idade anterior à informatização do Arquivo pelo que haviam sido dactilografados. Mais grave ainda foi terem-se deixado esgotar os volumes então editados sem os reeditar ou mesmo converter num formato digital.
O ponto de partido foi portanto, uma versão fotocopiada do documento original.
Este projecto teve como finalidade recuperar e reproduzir para vários formatos electrónicos um livro que já não é editado e se encontra esgotado, de nome "Inventário das Cartas do Cabido de Braga", existente no Arquivo Distrital de Braga.
As etapas que constituíram o projecto foram:
Análise documental e elaboração de um DTD para o documento em causa.
Digitalização das páginas, recorrendo a um scanner.
Conversão da imagem digitalizada em texto: para o efeito utilizou-se um software de OCR ("Online Character Recognition") que permitia, entre outros, converter a imagem num documento no formato RTF, que foi o escolhido.
Conversão RTF → XML: foi necessário recorrer a um filtro desenvolvido em Omnimark por Rick Geimer para realizar esta conversão; depois de configurado, o filtro permitiu a passagem do documento para um XML bastante pobre (a estrutura era basicamente constituída por parágrafos que tinham, porém, dois atributos, estilo e tamanho de letra, com os quais se conseguia determinar uma estrutura mais rica).
Conversão XML → XML: conversão para o formato XML que está de acordo com o DTD definido na fase de análise (esta conversão só foi possível graças àqueles dois atributos; testando as combinações dos seus dois valores foi possível reconstruir uma estrutura com capítulos, secções, subsecções e parágrafos); o conversor foi desenvolvido em Omnimark.
Anotação manual dos elementos pertencentes aos índices: para os elementos constantes nos índices, nomes de pessoas e lugares, foi necessário anotar o documento caso a caso, usou-se para o efeito o XMetal.
Desenvolvimento dos conversores para as versões HTML e LaTeX (impressão em papel): utilizou-se de novo o Omnimark para o desenvolvimento destes conversores.
Os resultados deste projecto encontram-se no Arquivo. A versão HTML encontra-se já disponível na Internet: http://www.adb.pt.
Este projecto teve como finalidade recuperar e reproduzir para vários formatos electrónicos um livro que já não é editado e se encontra esgotado, de nome "Inventário da gaveta das Visitas e Devassas", existente no Arquivo Distrital de Braga.
Este projecto seguiu a mesma linha de acção do anterior pelo que ficaremos por aqui na sua descrição.
Relativamente aos resultados, o livro ainda não se encontra disponível porque a equipa que trabalhou no projecto ao anotar os elementos dos índices deparou com muitas incorrecções semânticas o que motivou uma grande revisão dos conteúdos do livro que está a ser realizada pelos seus autores. No entanto, o Arquivo está em posse de tudo o que é necessário para introduzir as correcções no documento XML final e gerar automaticamente as versões de distribuição.