Le célèbre modèle BERT a récemment été l’un des principaux modèles de langage pour le traitement du langage naturel. Le modèle de langage est adapté à un certain nombre de tâches NLP, celles qui transforment le flux d’entrée en un flux de sortie. BERT (Représentations d’encodeurs bidirectionnels de transformateurs) utilise un mécanisme d’attention de transformateur. Un mécanisme d’attention apprend des relations contextuelles entre des mots ou des sous-mots dans un corpus textuel. Le modèle de langage BERT est l’un des exemples les plus marquants des progrès de la PNL et utilise des techniques d’apprentissage auto-supervisé.
Avant de développer le modèle BERT, un modèle de langage analysait la séquence de texte au moment de la formation de gauche à droite ou de gauche à droite et de droite à gauche combinées. Cette approche à sens unique a bien fonctionné pour générer des phrases par prédiction du mot suivant, en l’attachant à la séquence, suivie d’une prédiction du mot suivant jusqu’à ce qu’une phrase complète et significative soit obtenue. Avec BERT, une formation bidirectionnelle a été introduite, offrant un sens plus profond du contexte et du flux linguistiques par rapport aux modèles linguistiques précédents.
Le modèle BERT original a été publié pour la langue anglaise. Par la suite, d’autres modèles linguistiques tels que CamemBERT pour le français et GilBERTo pour l’italien ont été développés. Récemment, une équipe de chercheurs de l’Université de Zurich a développé un modèle linguistique multilingue pour la Suisse. Appelé SwissBERT, ce modèle a été formé sur plus de 21 millions d’articles de presse suisses en allemand standard suisse, français, italien et romanche grischun avec un total de 12 milliards de jetons.
SwissBERT a été introduit pour surmonter les défis auxquels sont confrontés les chercheurs en Suisse en raison de l’incapacité d’effectuer des tâches multilingues. La Suisse a principalement quatre langues officielles : l’allemand, le français, l’italien et le romanche, et les modèles linguistiques individuels pour chaque langue particulière sont difficiles à combiner pour les tâches multilingues. De plus, il n’existe pas de modèle de langage neuronal distinct pour la quatrième langue nationale, le romanche. Étant donné que la mise en œuvre de tâches multilingues est quelque peu difficile dans le domaine du TAL, il n’existait pas de modèle unifié pour la langue nationale suisse avant SwissBERT. SwissBERT surmonte ce défi simplement en combinant des articles dans ces langues et en créant des représentations multilingues en exploitant implicitement des entités et des événements communs dans l’actualité.
Le modèle SwissBERT a été remodelé à partir d’un transformateur modulaire multilingue (X-MOD) qui a été pré-formé dans 81 langues. Les chercheurs ont adapté un transformateur X-MOD pré-entraîné à leur corpus en formant des adaptateurs de langage personnalisés. Ils ont créé un vocabulaire de sous-mots spécifique à la Suisse pour SwissBERT, et le modèle résultant se compose de 153 millions de paramètres.
L’équipe a évalué les performances de SwissBERT sur des tâches telles que la reconnaissance d’entités nommées dans l’actualité contemporaine (SwissNER) et la détection de position dans les commentaires générés par les utilisateurs sur la politique suisse. SwissBERT dépasse les valeurs de référence courantes et améliore XLM-R en matière de détection de posture. Lors de l’évaluation des capacités du modèle en romanche, il a été constaté que SwissBERT surpasse de loin les modèles qui n’ont pas été formés dans la langue en termes de transfert interlinguistique zéro coup et d’alignement des mots et des phrases entre l’allemand et le romanche. Cependant, le modèle n’a pas très bien fonctionné dans la reconnaissance des entités nommées dans les nouvelles historiques traitées par OCR.
Les chercheurs ont publié SwissBERT avec des exemples pour affiner les tâches suivantes. Ce modèle semble prometteur pour les recherches futures et même à des fins non commerciales. Avec une adaptation supplémentaire, les tâches ultérieures peuvent bénéficier du multilinguisme du modèle.
revoir le Papier, Blog et Modèle. Tout le mérite de cette recherche revient aux chercheurs de ce projet. N’oubliez pas non plus de vous inscrire notre sous-reddit 17k+ ML, canal de discordeet bulletin électroniqueoù nous partageons les dernières nouvelles sur la recherche en IA, des projets d’IA passionnants, et plus encore.
Tanya Malhotra est étudiante en dernière année à l’Université d’études pétrolières et énergétiques de Dehradun. Elle étudie le BTech en génie informatique avec une spécialisation en intelligence artificielle et en apprentissage automatique.
Elle est une passionnée de la science des données avec une bonne pensée analytique et critique, ainsi qu’un vif intérêt pour l’acquisition de nouvelles compétences, la direction de groupes et la gestion du travail de manière organisée.
“Fan général de zombies. Pionnier de la culture pop. Créateur. Accro à la bière. Défenseur de l’alcool. Penseur passionné.”