Original Article: Approximate String Matches in the rongorongo Corpus
Author: rws.xoba.com

Correspondências aproximadas de cordas no Corpus rongorongo.

1. Sinopse

Sabe-se desde a década de 1940 que várias das ilhas de Páscoa existentes rongorongo comprimidos têm textos paralelos e, ao longo dos anos, vários novos jogos parciais paralelos foram encontrados (Barthel, 1958; Guy, 1985; Fischer, 1997; rongorongo, 2000).

O presente projeto tem como objetivo descobrir combinações parciais no corpus de comprimidos existentes usando técnicas aproximadas de correspondência de cordas. O método básico é calcular uma matriz de sufixos (Manber e Myers, 1993) em todo o corpus. Isso tem o efeito de agrupar todos os sufixos no corpus que começam com o mesmo glifo. Dentro de cada grupo de sufixos que começam com o mesmo glifo, calculamos uma correspondência aproximada de cordas usando o algoritmo descrito na introdução de Sankoff e Kruskal (1983). Como uma restrição adicional, tentamos combinar apenas cordas de certos comprimentos - nestas cadeias de encarnação de comprimento 5, 10, 15, ..., 120, 125, 130 - e insistimos em uma incompatibilidade máxima k de 20% do comprimento da base. Também insistimos que os dois últimos glifos nas duas cordas combinam. Assim, uma seqüência de comprimento 10 pode coincidir com uma seqüência de comprimento 9 que era uma distância de edição de duas (uma substituição e uma exclusão) da string original, desde que as duas seqüências começassem e finalizem com o mesmo glifo.

A motivação para insistir em cordas combinadas começando no mesmo glifo e terminando no mesmo glifo é reduzir a quantidade de pesquisa e o número de correspondências "duplicadas" retornadas. Claramente, se tivermos duas strings s1, s2 com tamanhos m = |s1| e n = |s2|, respectivamente, e se pelo menos (1-k)*m personagens, (1-k)*m >= 2, deve corresponder, então deve haver substrings s'1 and s'2, respectivamente, de modo que s'1[0] = s'2[0] e s'1[m'] = s'2[n'] onde m' = |s'1| e n' = |s'2|. Então, mesmo que os fósforos "verdadeiros" estejam entre s1 e s2, Poderemos encontrá-los através da inspeção, procurando nos contextos das partidas encontradas em s'1 e s'2.

Note-se que o comprimento mais longo que encontramos uma combinação aproximada nestas condições foi de 125 glifos, entre recto linha 2, glifo 36 da Grande Santiago e recto linha 2, glifo 0 do pequeno São Petersburgo.

Os dados para o corpus e as imagens foram recuperados do excelente rongorongo local na rede Internet. As correspondências foram calculadas em uma versão "reduzida" da Barthel set, que é essencialmente o conjunto de Barthel com os vários diacríticos removidos. Assim, uma string como:

600a-600.711-20cfy.246-50.711-606-1t.6

seria representado como:

600-600-711-20-246-50-711-606-1-6

Isso, obviamente, faz a suposição implícita de que as várias formas do glifo incluídas por Barthel sob o mesmo código numérico básico são, de fato, apenas variantes do mesmo glifo em vez de glifos separados.

2. Alguns resultados

  1. Veja aqui para uma listagem de partidas encomendadas por tablet (cerca de 197K: seja paciente, isso pode demorar um pouco para o seu navegador exibir).
  2. Veja aqui para uma listagem de partidas ordenadas pelo comprimento da partida (cerca de 197K: seja paciente, isso pode demorar um pouco para que o navegador seja exibido).
  3. Veja aqui (ou aqui para uma versão em PDF) para um gráfico que oferece uma sinopse das correspondências para todo o corpus. A chave para as abreviaturas do tablet pode ser encontrada aqui. No gráfico, as linhas vermelhas indicam divisões de tabelas e as linhas de turquesa indicam divisões de linha dentro do tablet (com o pedido assumido por Barthel, em vez de Fischer, que diferem para alguns comprimidos). Os pontos negros representam fósforos, com uma correspondência aproximada de, digamos, dez glifos sendo representados por uma linha composta de dez pontos. Os nomes dos tablets são indicados nos eixos horizontal e vertical, embora os nomes dos comprimidos mais curtos sejam infelizmente ocultos.

O enredo revela imediatamente as longas porções compartilhadas do Grande Santiago e dos Grandes e Pequenos São Petersburgo, discutidos em outros lugares, bem como os paralelos entre o pequeno Santiago e a mesa de Londres. Outros fatos mais curtos entre vários comprimidos também são revelados. Também é impressionante o fato de que o pessoal de Santiago parece ser um isolado, combinando com quase nada além de si próprio. A razão para isso é presumivelmente a abundância neste texto do glifo "phallus" (Barthel 76, duas formas das quais são: ), 83% dos tokens que ocorrem na equipe, e do separador vertical (codificado como 999), que não ocorre em nenhum outro lugar. O glifo "phallus" levou à afirmação de Fischer (1995) de que o texto na equipe de Santiago é um canto de procriação com fórmulas repetidas da forma X ki `ai ki roto `o Y: ka pu te Z `X copulou com Y: surgiu Z '. Ele já afirmou que outros textos também são cânticos de procriação, embora sem falo: veja, p. Ex. (Fischer, 1997, página 444), onde ele afirma que "poderia demonstrar que segmentos isolados no [Santiago pequeno, verso] eram cânticos de procriação". Se outros textos fossem como o pessoal de Santiago, pode-se esperar ver correspondências mais aproximadas. Fischer tem uma "explicação" para isso: ele assume que em muitos outros textos, o "falo" simplesmente foi omitido. Claro, com suposições suficientes sobre o que pode estar presente, qualquer string pode combinar com qualquer outra string, então não está claro como alguém poderia falsificar a afirmação da Fischer na ausência de provas independentes. Um está inclinado a concordar com a avaliação do Guy:

A falta de método de Fischer não pára por aí. Em outro artigo, publicado no Rapa Nui Journal, ele afirma ter identificado histórias de cópula semelhantes em "onze outros comprimidos, todos com falta de sufixo fálico". Em outras palavras, onde ele não viu um falo, ele forneceu um.

Como uma tentativa de teste para a hipótese de "omissão falha" de Fischer, calculamos as mesmas correspondências de cordas para uma versão do corpus onde o glifo 76, o símbolo falo, foi removido. Presumivelmente, se muitas partes dos outros comprimidos são realmente textos que são como o pessoal de Santiago, embora sem falante explícito, deve-se aumentar a chance de encontrar correspondências entre o pessoal e outros comprimidos removendo o membro ofensor. os resultados (Versão em PDF) foram os mesmos que para a versão não adulterada do corpus: a equipe de Santiago ainda aparece como um isolado.

Observe que as listagens em comp1.html e comp2.html não são o conjunto completo de fósforos em que apenas mantemos a combinação mais longa entre a linha n do tablet X e a linha m do tablet Y. Em geral, essas correspondências que não estão sendo mostradas são apenas subconjuntos dos que são mostrados.

(Estou encontrando alguns casos em que faltam porções da transcrição, devido ao processamento imperfeito do texto recuperado do website rongorongo.org. Estou no processo de corrigir esses erros.)

3. Lista parcial de referências

  1. Barthel, Thomas, 1958. Grundlagen zur Entzifferung der Osterinselschrift. Abhandlungen aus dem Gebiet der Auslandskunde 64. Reihe B. vol 36. Hamburg: Cram, de Gruyter & Co.
  2. Fischer, Stephen Roger. 1995. "Preliminary Evidence for Cosmogonic Texts in Rapanui's Rongorongo Inscriptions". Journal of the Polynesian Society. 104: 303-21.
  3. Fischer, Stephen Roger. 1997. rongorongo, The Easter Island Script: History, Traditions, Texts. Oxford University Press.
  4. Guy, Jacques. 1985. "On a fragment of the `Tahua' tablet." Journal of the Polynesian Society. 94:367-88.
  5. Manber, Udi and E. Myers. 1993. "Suffix arrays: a new method for on-line string searches." SIAM J. on Computing. 22(5):935--948
  6. rongorongo web site. 2000. http://www.rongorongo.org.
  7. Sankoff, David and Kruskal, Joseph. 1983. Time Warps, String Edits, and Macromolecules: The Theory and Practice of Sequence Comparison. CSLI Publications.


This page was last modified January 11, 2003.