Technologies de l'information — Classement international et comparaison de chaînes de caractères — Méthode de comparaison de chaînes de caractères et description du modèle commun et adaptable d'ordre de classement
Onglets principaux
Le présent document définit une méthode de comparaison de référence. Cette méthode est applicable à deux chaînes de caractères ou plus pour déterminer leur ordre de classement dans une liste triée. La méthode peut être appliquée aux chaînes contenant des caractères du répertoire complet de l'ISO/IEC 10646. Cette méthode est également applicable aux sous-ensembles de ce répertoire pour produire des résultats de tri valides (après adaptation) pour un ensemble donné de langues pour chaque script. Cette méthode de référence utilise des tables de tri dérivées soit des tables-modèles communes de classement définies dans le présent document, soit d’une de leurs adaptations. Le format de la table-modèle commune est décrit en notation BNF (Backus-Naur Form, Forme de Backus-Naur). Son emploi est normatif dans le présent document;
Le présent document définit également les éléments de syntaxe pour adapter ces tables-modèles communes utilisées par la méthode de comparaison de référence.
De plus, il définit les exigences relatives à une déclaration des différences (delta) entre une table de tri et une table-modèle commune donnée, y compris les éléments d'adaptation.
Ces tables-modèles communes décrivent un ordre pour tous les caractères encodés dans les éditions actuelles et passées de l'ISO/IEC 10646, y compris les amendements. Elles permettent de spécifier un ordre complètement déterministe. Ces tables constituent le point de départ permettant de préciser un ordre de classement adapté aux règles de classement locales, sans qu’il soit nécessaire de connaître tous les systèmes d’écriture repris dans le jeu universel de caractères codés (JUC).
Toutes ces tables-modèles communes comportent des noms de référence qui sont liés à un stade particulier de développement de l'ISO/IEC 10646 relative au jeu universel de caractères codés ou d'une version particulière du standard Unicode. Ces noms et leur relation avec l'ISO/IEC 10646 ou le répertoire du standard Unicode sont spécifiés par un document de référencement externe: Unicode Technical Standard, UTS #10, Unicode Collation Algorithm.
Le présent document n'impose pas ce qui suit:
—
une méthode particulière de comparaison; toute méthode équivalente conduisant aux mêmes résultats est acceptable;
—
un format précis pour décrire ou pour adapter les tables dans une mise en œuvre donnée;
—
des symboles spécifiques à utiliser par les mises en œuvre;
—
un format interne particulier pour les clés intermédiaires utilisées dans les comparaisons ou pour la table de tri. L’utilisation de clés numériques n’est pas spécifiée non plus;
—
un ordre dépendant du contexte;
—
un prétraitement particulier des chaînes de caractères avant comparaison.
NOTE 1 Bien que ceci ne soit pas spécifié par le présent document, il s’avère courant de préparer les chaînes de caractères avant leur comparaison (voir l’Annexe C).
NOTE 2 L’Annexe D décrit les problèmes qui ont donné lieu au présent document avec leurs solutions anticipées.
- Connectez-vous ou inscrivez-vous pour publier un commentaire