Linguagem pivô

Content

Exemplos

Veja também: Tradução de máquina interlingual

Inglês, francês, russo e árabe são frequentemente usados como idiomas dinâmicos. A interlíngue tem sido usada como uma língua dinâmica em conferências internacionais e foi proposta como uma língua dinâmica para a União Europeia. O ESPERANTO foi proposto como um idioma pivô no projeto de tradução de idiomas distribuído e foi usado dessa maneira no Majstro TradukVortaro no site da Esperanto Majstro.com. A linguagem de rede universal é uma linguagem artificial projetada especificamente para uso como uma linguagem dinâmica.

Na computação

Veja também: Linguagem intermediária e conversão de dados § Conversão crucial

A codificação pivot também é um método comum de tradução de dados para sistemas de computador. Por exemplo, o protocolo da Internet, XML e idiomas de alto nível são codificações pivot de dados do computador, que geralmente são renderizados em formatos binários internos para sistemas de computador específicos.

O Unicode foi projetado para ser utilizável como uma codificação pivô entre várias codificações de caráter existentes, embora sua adoção generalizada como codificação por si só tenha tornado esse uso sem importância.

Na tradução da máquina

Os sistemas de tradução estatística de máquinas estatísticas (SMT) usam corpora paralela para (s) idiomas de origem (s) e destino (t) para obter seus bons resultados, mas boas corpora paralelas não estão disponíveis para todos os idiomas. Uma linguagem dinâmica (P) permite a ponte entre dois idiomas, para os quais os corpora paralelos existentes estão inteiramente ou parcialmente ainda não à mão.

A tradução do pivô pode ser problemática devido à potencial falta de fidelidade das informações encaminhadas no uso de diferentes corpora. Desde o uso de dois corpora bilíngues (S-P & P-T) para configurar a ponte S-T, os dados linguísticos são inevitavelmente perdidos. A tradução da máquina baseada em regras (RBMT) ajuda o sistema a resgatar essas informações, para que o sistema não dependa inteiramente de estatísticas, mas também em informações linguísticas estruturais.

Três técnicas básicas são usadas para empregar a linguagem pivô na tradução da máquina: (1) triangulação, que se concentra na frase paralela entre a fonte e o pivô (S-P) e entre pivô e alvo (P-T); (2) transferência, que traduz toda a frase do idioma de origem para uma linguagem dinâmica e depois para o idioma de destino; e (3) síntese, que constrói um corpus próprio para o treinamento do sistema.

O método de triangulação (também chamado de multiplicação de tabela de frases) calcula a probabilidade de correspondências de tradução e peso lexical em S-P e P-T, para tentar induzir uma nova tabela de frase S-T. O método de transferência (também chamado de estratégia de tradução de sentença) simplesmente transporta uma tradução direta de S para P e depois outra tradução de P em T sem o uso de testes probabilísticos (como na triangulação). O método sintético usa um corpus existente de S e tenta construir um corpus sintético próprio que é usado pelo sistema para se treinar. Em seguida, um corpus S-P bilíngue é sintetizado para ativar uma tradução P-T.

Uma comparação direta entre métodos de triangulação e transferência para sistemas SMT mostrou que a triangulação alcança resultados muito melhores do que a transferência.

Todas as três técnicas de linguagem pivô aprimoram o desempenho dos sistemas SMT. No entanto, a técnica sintética não funciona bem com a RBMT e os desempenhos dos sistemas são mais baixos do que o esperado. Os sistemas Hybrid SMT/RBMT alcançam melhor qualidade de tradução do que os sistemas SMT-SMT que dependem de corpora paralela ruim.

O papel principal dos sistemas RBMT é que eles ajudam a preencher a lacuna deixada no processo de tradução de S-P → P-T, no sentido de que esses paralelos estão incluídos no modelo SMT para S-T.