Fin de tableau et avancement sur le nuage de mots

1. Fin de tableau

Après avoir réalisé l’étape 2 de nos tableaux, nous nous intéressons à ajouter une colonne Contexte Html dans le tableau pour que le contexte autour soit sous la forme html, et aussi pour rendre le contexte plus lisible et numéroté.

Pour ce faire, nous avons besoin d’installer le programme minigrep-multilingue (téléchargement à partir du lien que le professeur nous a donné). Nous avons décompressé le fichier archives (je l’ai déplacé dans le répertoire PROGRAMME), puis idem pour l’archive nommé Unicode-String. À noté qu’il s’agit d’une environnement de perl, je travaille sur MacOS, donc la commande perl sur bash existe déjà.

Après cela, nous avons besoin d’un fichier de paramètre, ici je l’appelle parametre-motif-extraction.txt, dans ce fichier, j’ai écrit le motif avec une expression régulière [Ff]amille. Voici mon programme et le résultat obtenu :

1

2

 

Ce bloc indique la fonctionnement de minigrepmultilingue-macosx, et après avoir exécuté le programme, nous obtenons un beau tableau comme ci-dessous :

Screen Shot 2017-01-10 at 22.56.47

Screen Shot 2017-01-11 at 01.01.48

 

On a vu que tous les encodages sont bien transcodés à UTF-8, mais après la détection, il existe quand même les sites à changer, puisque l’occurrence de motif est 0 pour certains. J’étais coincée à ce niveau, parce que je n’ai pas pu obtenir de beaux contextes html mais sinon les lignes sont répétitives, après le professeur m’a aidé à trouver la raison. Lors de l’exécution de minigrep, je n’ai pas eu le même nom de fichier de paramètre dans le programme, après avoir corrigé cela, le fichier  »resultat-extraction.html » a bien roulé.

2. Avancement sur le nuage de mots

Pour analyser toutes les sites téléchargés et transformés en texte brut via lynx, et les contextes autour de notre motif, le professeur nous a proposé les logiciels, y compris le Trameur et d’autres outils en ligne, ceux qui nous permettent à trouver les n-cooccurrents de notre motif, ainsi, nous pouvons observer ces n-cooccurents et conclure la fonctionnement de notre motif dans des différents cultures.

J’ai eu un problème de l’installation de Trameur, donc j’ai travaillé sur iTrameur.

Avant tout, il fallait de concaténer tous les fichiers dans le répertoire DUMPS et ceux de CONTEXTES, pour ce faire, nous avons besoin d’un outil pour concaténer les fichiers (téléchargement via http://www.tal.univ-paris3.fr/download/pg-concat.zip). Je l’ai réalisé dans un système de windows puisqu’il ne supporte pas MacOS.

J’ai pris mon texte concaténé en entrée (le contenu de tous les sites en texte brut), et l’appliqué sur http://www.tal.univ-paris3.fr/plurital/outils/coocjs/  , après l’exécution, j’ai obtenu un graphe comme ceci :

Screen Shot 2017-01-10 at 22.21.20

Screen Shot 2017-01-10 at 22.21.29

Il est lisible et très utile, car nous pouvons voir le nombre d’occurrence de ses cooccurrents, cependant il y a une limite, puisque nous ne pouvons pas utiliser l’expression régulière là-dessus, donc il a apparu dans ce tableau de cooccurents, les mots comme Famille et FAMILLE.

J’ai travaillé aussi sur http://www.tal.univ-paris3.fr/plurital//outils/coocgen/index-regexp.html , après l’exécution, j’ai obtenu des graphes comme ci-dessous :

Screen Shot 2017-01-10 at 22.22.05

 

L’avantage de ce site est de nous permettre à utiliser l’expression régulière, comme ((F|f)amille|FAMILLE)s? , ceci permet de chercher le motif famille en 6 formes différents. Nous pouvons voir le résultat est ressemblé à celui du premier essai, mais plus riche. J’ai reçu 3 graphes dont l’un est pour le cas où famille au pluriel, et un autre est pour le cas où famille au signifier, mais le troisième est un brut, on va dire, parce que dans mon texte, il y a aussi quelques adresses de siteWeb contenant le motif, mais ce n’est pas ce qui nous intéresse, il faudra les nettoyer à la main.

Pour le moment, les mots les plus récoltés sont (sauf que les mots grammaticaux) :

notion, droit, sociologie, nombreuse (grande, élargie, étendues), définition, membres, recomposées, imbriquée, conjugale, monoparentale, etc.

Nous pouvons déjà faire une petite hypothèse, en français, quand on parle de ce mot, famille, c’est plutôt au niveau de sociologie, ou bien de la vie quotidienne, et aussi il est étendu à quelques phénomènes ou problèmes socials.

-Yunbei ZHANG

Publié dans : Non classé |le 11 janvier, 2017 |Pas de Commentaires »

Vous pouvez laisser une réponse.

Laisser un commentaire

Teckaki |
SimplicechoumeniDBA |
L'actualité des nouvel... |
Unblog.fr | Créer un blog | Annuaire | Signaler un abus | geolocalisation.info
| Florian dauphin
| Geolocalisation.info