Charlotte Lecluze
GREYC & Université de Caen

Recherche d'une granularité optimale pour l'alignement multilingue : N-grammes de caractères ou N-grammes de mots ?

Abstract. In this paper, we present one of the main axes of our work in progress concerning multilingual and endogenous alignment of texts and text segments. We raise the question of the best granularity, characters N-grams or word N-grams, to bring out some semantic correspondences between documents translations of each others.

Résumé. Dans cet article, nous présentons un des principaux axes de nos travaux en matière d'alignement multilingue et endogène de textes et de segments de textes. Nous soulevons la question de la granularité optimale, N-grammes de caractères ou N-grammes de mots, pour mettre en évidence des correspondances sémantiques entre des documents traductions les uns des autres.