Loading...

L'Empoisonnement Mental et la Numérisation des Fiches Dialectologiques : Deux Défis Distincts

Introduction

Cet article aborde deux sujets en apparence disparates, mais qui partagent une thématique commune de manipulation et de préservation de l'information : d'une part, l'endoctrinement idéologique des jeunes Iraniens à travers le système éducatif, et d'autre part, les défis liés à la numérisation des fiches dialectologiques de Gaston Dulong, un linguiste québécois.

L'Endoctrinement Idéologique en Iran : Un Empoisonnement Mental

La Manipulation de l'Éducation

De janvier à mars 2023, des collégiennes iraniennes ont été victimes d'empoisonnements collectifs à l'école. Cependant, l'empoisonnement des écoliers ne se limite pas à la sphère physique. Depuis plus de quarante ans, les élèves iraniens sont soumis à une forme d'empoisonnement mental insidieux.

Dans les écoles primaires, le temps consacré à l'enseignement du Coran surpasse largement celui alloué aux mathématiques, à l'histoire et à la littérature. Les enfants sont contraints de respecter les préceptes religieux, sous peine de culpabilisation en cas de transgression. Le mythe de l'enfer est présenté comme une réalité tangible, avec des descriptions horrifiantes de ce lieu de damnation éternelle où les pécheurs sont voués à être brûlés vifs. Ces images traumatisent les jeunes élèves, certains préférant même mourir jeunes pour s'assurer une place au paradis.

La Fabrication de Soldats et la Haine de l'Occident

L'objectif de l'enseignement est de former des soldats prêts à mourir pour défendre la République islamique. L'éducation est fondée sur la haine de l'Occident, considéré comme l'ennemi des musulmans du monde, avec les États-Unis et Israël en tête de liste. Qasem Soleimani, chef de l'armée des Pasdaran, est présenté comme un héros national, bien qu'il ait été reconnu comme terroriste par l'Union Européenne en 2019 et tué par les Américains en 2020.

La Répression des Femmes et la Banalisation de la Violence

Les manuels scolaires destinés aux filles véhiculent l'idée qu'elles sont différentes de leurs frères et qu'elles ne doivent pas se comparer à eux. Les dessins de jeunes filles au balai se multiplient, les écolières étant encouragées à faire le ménage chez leurs parents afin d'être prêtes pour le mariage. La mission la plus noble d'une femme est présentée comme celle de servir l'homme et d'élever ses enfants, dès que la nature le lui permet. Le but est de former des femmes obéissantes et passives.

Lire aussi: Exotique Berceuse : Analyse

Bien que certains observateurs soulignent que la République islamique a facilité l'accès des femmes à l'université (plus de 53% des étudiants étant du sexe féminin), ils omettent de mentionner qu'avant l'avènement de la République islamique, les femmes pouvaient accéder aux postes ministériels. Aujourd'hui, le taux de participation des femmes au marché du travail est de seulement 13%, contre 69% pour les hommes. Les manuels scolaires enseignent aux écolières qu'il y aura toujours du temps pour les études, mais que le temps pour avoir des enfants est limité pour une femme. Selon les chiffres officiels, du 1er mars au 1er septembre 2023, 791 enfants sont nés de mères âgées de 10 à 12 ans.

La situation est encore plus alarmante dans les livres extrascolaires destinés aux enfants de 0 à 6 ans, où la violence est banalisée à travers des bandes dessinées montrant des exécutions publiques. Ces images choquantes, comme des souris pendant un chat méchant sur la place publique ou un bourreau prêt à décapiter un vieillard, ont été contestées par plusieurs familles, en vain.

Un Système Cohérent de Répression

La répression sous la République islamique n'est pas exercée de manière improvisée. Elle est d'abord justifiée, puis banalisée. La force des ayatollahs réside dans leur capacité à mettre en place un système cohérent pour rendre acceptable l'exercice de la violence dans la société. La justification de la violence, la banalisation du mariage des enfants et l'enfermement des filles dans le rôle de la mère nourricière, tels que prônés par les manuels scolaires, initient la mentalité des plus jeunes et les habituent à la soumission. Plus une pratique sociale paraît banale, plus facilement elle est acceptée.

La Numérisation des Fiches Dialectologiques de Gaston Dulong : Un Défi de Préservation

Le Fichier Gaston Dulong et son Importance

Cet article présente les étapes ayant mené à la numérisation des fiches dialectologiques rédigées par Gaston Dulong sur la base d'enquêtes menées à travers le Québec à partir de la fin des années 1940. En raison de leur valeur patrimoniale et de leur intérêt scientifique, ces fiches sont versées au Fonds de données linguistiques du Québec (FDLQ). Le traitement de ce corpus soulève d'importants défis qui s'expliquent par le nombre élevé de documents à traiter, leur aspect matériel et la nature des données qu'ils contiennent.

Gaston Dulong : Un Pionnier de la Dialectologie Québécoise

Gaston Dulong (1919-2008) a été professeur de linguistique à l'Université Laval de 1949 à 1986. Ses activités de recherche ont porté sur l'histoire du français au Québec et sur sa variation régionale, ce dernier aspect ayant longtemps été délaissé dans la recherche portant sur le français québécois. Dulong a mené des enquêtes dialectologiques tout au long de sa carrière, aboutissant à l'Atlas linguistique de l'Est du Canada (ALEC), publié en 1980. Dès la fin des années 1940, il a commencé à sillonner les régions du Québec, et certaines régions acadiennes, pour enquêter sur les pratiques linguistiques locales.

Lire aussi: The Division 2 : Exploration de la culture à travers Berceuse 250

Les Fiches Dialectologiques : Un Trésor Linguistique

Les résultats de ces enquêtes, qui ont duré une vingtaine d'années, ont été soigneusement consignés sur des fiches dialectologiques, versées au Fichier Dulong. Celles-ci côtoient d'autres types de fiches qui contiennent des citations puisées dans des dictionnaires, des journaux, des œuvres littéraires ou des documents d'archives. L'ensemble de ces fiches, dont le nombre total est estimé à environ 150 000, sont triées par ordre alphabétique (certaines par ordre thématique) et réunies dans huit classeurs.

Les Défis de la Numérisation

Pour remédier au problème d'accessibilité, la décision a été prise de numériser les fiches. Seules les fiches dialectologiques ont été ciblées, en raison de leur intérêt pour la recherche sur le français québécois. Ce travail a été entrepris dans le cadre du Fonds de données linguistiques du Québec, développé au CRIFUQ depuis 2020 dans le but de préserver et de rendre accessibles les plus importantes collectes de données réalisées depuis le milieu du 20e siècle en vue d'étudier le français du Québec. En plus de pérenniser les corpus, la plateforme assure leur accessibilité et permet une plus grande découvrabilité, un enjeu de plus en plus important pour les contenus culturels et scientifiques produits en langue française. Le Fonds adhère aux principes FAIR, dont les principaux objectifs consistent à rendre les données de recherche faciles à trouver, accessibles, interopérables et réutilisables.

La Structure des Fiches

La plupart des fiches présentent une structure similaire. La première section ressemble au bloc-entrée d'un article de dictionnaire, comprenant la vedette de la fiche, généralement accompagnée d'une catégorie grammaticale et d'une transcription phonétique ajoutée à la main. La deuxième est consacrée à la définition du mot ou de l'expression en vedette. La troisième comprend les données dialectologiques qui permettent de contextualiser l'usage relevé, incluant le lieu et l'année d'observation ainsi que le nom de l'observateur. Certaines fiches regroupent une série de régionalismes. Les fiches contiennent essentiellement des particularismes lexicaux utilisés au Québec ou dans certaines de ses régions, mais certaines portent sur des aspects morphologiques et grammaticaux ou encore sur des phénomènes de prononciation.

La Chaîne de Traitement des Fiches

La chaîne de traitement des fiches comprend plusieurs étapes, dont le tri manuel, la numérisation, l'optimisation des images, l'océrisation et la révision. La présentation matérielle des fiches a une incidence directe sur la qualité des données extraites. Les fiches ont été dactylographiées à l'aide d'une machine à écrire, ce qui peut générer des problèmes d'alignement, d'espacement, des caractères superposés ou des positions problématiques de certains caractères ou signes diacritiques. À cela s'ajoute la présence de notes, de transcriptions ou de corrections faites à la main, que les logiciels d'océrisation reconnaissent mal. La couleur de fond des fiches et la couleur de l'encre varient d'une fiche à l'autre, ce qui est un défi pour le traitement en lot.

Un Équilibre entre Traitement Manuel et Automatique

Il est apparu rapidement qu'il était impensable de se contenter d'un traitement automatique en lot, dont le taux d'erreur serait trop élevé. En même temps, devant le nombre élevé de fiches à traiter, il n'était pas non plus envisageable de procéder à une saisie manuelle, jugée trop chronophage. Le défi était donc de trouver un équilibre permettant d'assurer la qualité des données tout en demeurant réalistes dans leur préparation. Pour y arriver, un outil a été développé pour toiletter, réviser et baliser aisément le contenu des fiches après l'extraction de texte.

Lire aussi: The Division 2 : Optimiser Berceuse 250

Le Respect du Texte Original

Le protocole tient compte d'un objectif d'exploitation des données pour la recherche. Le principe philologique adopté concerne le respect du texte original et de sa disposition sur les fiches. Cela dit, la transcription des fiches ne peut pas être considérée comme une édition diplomatique, car certaines interventions ont été jugées nécessaires pour éviter que des données demeurent invisibles. C'est le cas lorsque des fiches contiennent des coquilles évidentes, qui sont corrigées et indiquées par une balise .

Les Étapes de la Numérisation

Toutes les fiches ont été numérisées au format TIF, un format non compressé, ce qui permet de garder la qualité de l'image. Pour faciliter l'océrisation, les images ont été optimisées en lot avec le logiciel libre ImageMagick. Tesseract procède en deux étapes, segmentant d'abord les différentes lignes du texte avant de procéder à la reconnaissance des caractères formant les mots. Le texte extrait est sauvegardé au format hOCR puis converti au format XML-TEI grâce à un script ad hoc. Le fichier XML-TEI, qui constitue la base du travail d'édition assistée, est composé d'un en-tête TEI suivi du texte lui-même. L'en-tête comprend des informations sur la source (numéro d'identification de la fiche, cote du classeur, lien vers l'image numérisée, etc.) et sur les opérations qui ont mené à la création du fichier XML (date de numérisation, date d'océrisation, etc.).

tags: #the #division #2 #berceuse #250 #guide

Articles populaires:

Share: