2022-2023/1NSI/07_Representation_de_texte/1B_table_encodage.tex

90 lines
3.1 KiB
TeX

\documentclass[a4paper,10pt]{article}
\usepackage{myXsim}
\usepackage{minted}
\author{Benjamin Bertrand}
\title{Representation de texte - Cours}
\date{Février 2023}
\pagestyle{empty}
\begin{document}
\maketitle
Dans cette séquence, on traitera des différentes façons de faire correspondre un caractère (une lettre, un espace...) avec une représentation binaire.
\section{Table et encodage}
\begin{definition}[Table ASCII]
En 1960, la norme \textbf{ASCII} (American Standard Code for Information Interchange) a été crée pour uniformiser l'encodage des caractère par \textbf{l'ANSI} (American National Standards Institute).
Elle définit 128 codes, comprenant 95 caractères imprimables :
\begin{itemize}
\item les chiffres arabes de 0 à 9
\item les 26 lettres de l'alphabet latin en minuscules et en capitales
\item des symboles mathématiques et de ponctuation
\end{itemize}
Chaque caractère est codé sur 7 bits même si on le représente le plus souvent sur 8 bits (1 octet)
\end{definition}
\paragraph{Remarques:}
\begin{itemize}
\item Avantages de la table ASCII: \dotfill
\item Limitations: \dotfill
\end{itemize}
\begin{definition}[ISO-8859-1 ou Latin-1]
Pour rendre l'utilisation de la table ASCII plus universelle d'autres tables ont été créées.
L'ISO (Organisation internationale de normalisation) a proposé la norme ISO-8859 qui utilise le 8e bit pour ajouter 128 caractères supplémentaires pour un total de $2^8 = 256$ caractères.
Parmi les tables issues de cette norme, la table ISO-8859-1 (ou Latin-1) est celle qui a été le plus utilisée en occident car elle ajoute les caractères accentués et des nouveaux signes de ponctuation.
\end{definition}
\paragraph{Remarques:}
\begin{itemize}
\item Avantages de la table ISO-8859-1: \dotfill
\item Limitations: \dotfill
\end{itemize}
\begin{definition}[Unicode]
Pour assurer l'universalité de la représentation de caractères la norme \textbf{Unicode} découpe l'encodage en deux étape:
\begin{itemize}
\item Le point de code: association entre un caractère et un \textbf{point de code} codés sur 20 ou 21 bits
\item L'encodage du point de code (UTF-n où n est le nombre minimal de bit pour représenter un point de code).
\end{itemize}
Encodages les plus utilisés:
\begin{itemize}
\item UTF-8: le point de code est encodé sur 1 à 4 octets (ou 8 à 32 bits)
\item UTF-16: le point de code est encodé sur 2 à 4 octets (16 à 32bits)
\item UTF-32: le point de code est encodé sur 4octets (ou 32 bits)
\end{itemize}
\end{definition}
\paragraph{Encodage et décodage avec l'Unicode} (en vous aidant de \url{https://unicode-table.com/fr})
\begin{center}
\begin{tabular}{p{3cm}|p{3cm}|p{3cm}|p{3cm}}
Caractère & Point de code & UTF-8 & UTF-32 \\
\hline
a & & & \\
\euro & & & \\
$\aleph$ & & & \\
\end{tabular}
\end{center}
\paragraph{Remarques:}
\begin{itemize}
\item Avantages de l'Unicode: \dotfill
\item Limitations: \dotfill
\end{itemize}
\end{document}