Fin de tableau et avancement sur le nuage de mots

1. Fin de tableau

Après avoir réalisé l’étape 2 de nos tableaux, nous nous intéressons à ajouter une colonne Contexte Html dans le tableau pour que le contexte autour soit sous la forme html, et aussi pour rendre le contexte plus lisible et numéroté.

Pour ce faire, nous avons besoin d’installer le programme minigrep-multilingue (téléchargement à partir du lien que le professeur nous a donné). Nous avons décompressé le fichier archives (je l’ai déplacé dans le répertoire PROGRAMME), puis idem pour l’archive nommé Unicode-String. À noté qu’il s’agit d’une environnement de perl, je travaille sur MacOS, donc la commande perl sur bash existe déjà.

Après cela, nous avons besoin d’un fichier de paramètre, ici je l’appelle parametre-motif-extraction.txt, dans ce fichier, j’ai écrit le motif avec une expression régulière [Ff]amille. Voici mon programme et le résultat obtenu :

1

2

 

Ce bloc indique la fonctionnement de minigrepmultilingue-macosx, et après avoir exécuté le programme, nous obtenons un beau tableau comme ci-dessous :

Screen Shot 2017-01-10 at 22.56.47

Screen Shot 2017-01-11 at 01.01.48

 

On a vu que tous les encodages sont bien transcodés à UTF-8, mais après la détection, il existe quand même les sites à changer, puisque l’occurrence de motif est 0 pour certains. J’étais coincée à ce niveau, parce que je n’ai pas pu obtenir de beaux contextes html mais sinon les lignes sont répétitives, après le professeur m’a aidé à trouver la raison. Lors de l’exécution de minigrep, je n’ai pas eu le même nom de fichier de paramètre dans le programme, après avoir corrigé cela, le fichier  »resultat-extraction.html » a bien roulé.

2. Avancement sur le nuage de mots

Pour analyser toutes les sites téléchargés et transformés en texte brut via lynx, et les contextes autour de notre motif, le professeur nous a proposé les logiciels, y compris le Trameur et d’autres outils en ligne, ceux qui nous permettent à trouver les n-cooccurrents de notre motif, ainsi, nous pouvons observer ces n-cooccurents et conclure la fonctionnement de notre motif dans des différents cultures.

J’ai eu un problème de l’installation de Trameur, donc j’ai travaillé sur iTrameur.

Avant tout, il fallait de concaténer tous les fichiers dans le répertoire DUMPS et ceux de CONTEXTES, pour ce faire, nous avons besoin d’un outil pour concaténer les fichiers (téléchargement via http://www.tal.univ-paris3.fr/download/pg-concat.zip). Je l’ai réalisé dans un système de windows puisqu’il ne supporte pas MacOS.

J’ai pris mon texte concaténé en entrée (le contenu de tous les sites en texte brut), et l’appliqué sur http://www.tal.univ-paris3.fr/plurital/outils/coocjs/  , après l’exécution, j’ai obtenu un graphe comme ceci :

Screen Shot 2017-01-10 at 22.21.20

Screen Shot 2017-01-10 at 22.21.29

Il est lisible et très utile, car nous pouvons voir le nombre d’occurrence de ses cooccurrents, cependant il y a une limite, puisque nous ne pouvons pas utiliser l’expression régulière là-dessus, donc il a apparu dans ce tableau de cooccurents, les mots comme Famille et FAMILLE.

J’ai travaillé aussi sur http://www.tal.univ-paris3.fr/plurital//outils/coocgen/index-regexp.html , après l’exécution, j’ai obtenu des graphes comme ci-dessous :

Screen Shot 2017-01-10 at 22.22.05

 

L’avantage de ce site est de nous permettre à utiliser l’expression régulière, comme ((F|f)amille|FAMILLE)s? , ceci permet de chercher le motif famille en 6 formes différents. Nous pouvons voir le résultat est ressemblé à celui du premier essai, mais plus riche. J’ai reçu 3 graphes dont l’un est pour le cas où famille au pluriel, et un autre est pour le cas où famille au signifier, mais le troisième est un brut, on va dire, parce que dans mon texte, il y a aussi quelques adresses de siteWeb contenant le motif, mais ce n’est pas ce qui nous intéresse, il faudra les nettoyer à la main.

Pour le moment, les mots les plus récoltés sont (sauf que les mots grammaticaux) :

notion, droit, sociologie, nombreuse (grande, élargie, étendues), définition, membres, recomposées, imbriquée, conjugale, monoparentale, etc.

Nous pouvons déjà faire une petite hypothèse, en français, quand on parle de ce mot, famille, c’est plutôt au niveau de sociologie, ou bien de la vie quotidienne, et aussi il est étendu à quelques phénomènes ou problèmes socials.

-Yunbei ZHANG

Publié dans : Non classé | le 11 janvier, 2017 |Pas de Commentaires »

Avancé tableau URLS – 29/11/016

Pour notre projet, nous devions tout d’abord recolter une cinquantaine d’urls  parlant de notre thème dans un fichier texte.

Ensuite, nous devions créer à l’aide d’un scrit (partiellement donné par notre professeur) un tableau regroupant nos URLS, les pages aspirées de ces URLS, les textes bruts de ces URLS, l’encodage de la page, les occurrences de notre mot clef dans la page…

J’ai tout d’abord eu quelques petits problèmes avec la syntaxe  concernant les boucles « for ». Il fallait en effet que j’écrive un « : » après chaque »do » dans mon script (je travail sur windows 10 – bash ubuntu).

Ensuite, mon programme ne marchait toujours pas bien…il semblait faire l’ensemble des opérations que je lui demandais mais seulement sur la dernière ligne de mon fichier URLS. Le problème venait du fait que mes fichiers n’avaient pas le bon encodage. J’avais sauvegardé mes fichiers sous l’encodage Windows au lieu de l’encodage Unix. Les retours à la ligne posaient donc un problème lors de l’execution du script. Ce problème  a été reglé grace à la commande Dos2Unix du terminal.

voici à quoi ressemble désormais mon script et un aperçu de mon tableau :

Capture d’écran (4)

Capture d’écran (5)

 

Il reste encore quelques encodages que mon programme n’a pas su détecter.

-Sandra

Publié dans : Non classé | le 29 novembre, 2016 |Pas de Commentaires »

Première étape

Dans ce dernière séance du cours, on établit un tableau affiché sur une page html avec le script bash. Ce tableau est basé sur la liste des 50 pages d’Internet récupérées autour notre sujet – notion de famille, et doit contenir huit colonnes.

Le résultat du lancement du script est ci-dessous :

屏幕快照 2016-11-08 21.58.12

 

Il est constitué par deux grandes parties :

I. D’abord, une première partie du script concerne la lecture des paramètres, c’est-à-dire le input :

屏幕快照 2016-11-08 23.33.49

On utilise ici la commande «read» pour lire ce qui est tapé dans l’espace au-dessous.

屏幕快照 2016-11-08 23.49.21

屏幕快照 2016-11-08 23.59.20

 

II. Puis, une deuxième partie concernant l’affichage des tableaux vers le fichier html (TABLEAUX/TABLEAU-FINAL.html pour notre programme).

Ce partie compose deux circulation en utilisant l’expression «for…in…» pour traiter chaque fois un seul fichier dans le dossier / une seule ligne URLS dans dans un fichier, et chaque circulation un compteur (cpttableau, compteur) initialisé avec une valeur de 1, et y ajouté 1 après chaque fois de circulation avec la commande «let».

屏幕快照 2016-11-09 00.08.15

 

Dans les circulation c’est le traitement des données sur les URLs récupérés.

屏幕快照 2016-11-09 00.13.57

屏幕快照 2016-11-09 01.28.17

 

Le script suivant concerne le tri des pages non encodées en utf-8 (usage de «if…then…else…fi»), et pour les convetir en utf-8 plus tard…

屏幕快照 2016-11-09 00.29.08

屏幕快照 2016-11-09 01.30.06

 

Finalement, à propos de l’encodage du fichier html, un point à faire attention est l’affichage de «°». On le écrit en manière de «<sup>o</sup>» pour éviter le défaut de m’affichage possible.

 

 

 – LI Yixuan

Publié dans : Non classé | le 9 novembre, 2016 |Pas de Commentaires »

Exercises de la deuxième séance

 

Ici c’est les 2 exercises pour la deuxième séance du Projet encadré.

Exo 1. Ecrire un script (dans le dossier PROGRAMMES) permettant de générer dans le répertoire DUMP‐TEXT un fichier txt contenant 2 lignes (sur la première, votre nom, sur la seconde, le mot choisi pour votre projet)

le script Bash :

COURS_PROJET_ENCADRE_-_exo1 2016-10-18 21.38.13

 

Et voilà le résultat :

COURS_PROJET_ENCADRE_-_exo1 2016-10-18 21.39.11

 

 

Exo 2. Ecrire un script (dans le dossier PROGRAMMES) permettant de générer dans le répertoire TABLEAUX un fichier html contenant 1 tableaux avec 2 lignes (sur la première, votre nom, sur la seconde, le mot choisi pour votre projet)

La façon utilisée ici est de générer le fichier html en y mettant le code html écrit.

D’abord le code html :

COURS_PROJET_ENCADRE_-_exo2 2016-10-18 22.11.11

 

Puis l’écrit dans le fichier html avec le terminal :

COURS_PROJET_ENCADRE_-_exo2 2016-10-18 22.10.43

 

Le résultat :

COURS_PROJET_ENCADRE_-_exo2 2016-10-18 22.11.36

 

 

- LI Yixuan

 

 

Publié dans : Non classé | le 19 octobre, 2016 |Pas de Commentaires »

Compléments du travail du 18.10.2016

Nous avons vu en cours les commandes Unix qui nous permettent de manipuler des fichiers sans avoir besoin de travailler sur l’interface graphique mais via le terminal. Pour mieux connaître les commandes Unix, nous avons pu pratiquer les exercices après le cours …

1. Flux et redirection 

Les trois flux standards sont : l’entrée standard(clavier), la sortie standard(écran), la sortie standard des erreurs(écran). Nous pouvons rediriger ces trois flux vers d’autre sources autres que le clavier ou l’écran. ex : la redirection de la sortie dans un fichier <<qui>>.

Screen Shot 2016-10-18 at 23.26.05

>> peut ajouter nouveau contenu dans un fichier lorsque > remplace l’ancien contenu de fichier par le nouveau

Screen Shot 2016-10-18 at 23.34.02

 

2. Un peu d’exercices sur les commandes d’Unix

# mkdir permet de créer des répertoires sous le répertoire Document

Screen Shot 2016-10-18 at 23.51.38

# touch permet de créer des fichiers sous le répertoire TEST1 et TEST2

echopermet d’afficher le contenu tapé dans le fichier vide1.txt

# mv permet de renommer vide1.txt à jenesuisplusvide.txt 

# cp permet de copier le fichier fichier jenesuisplusvide.txt sous le répertoire TEST2, et copier le contenu de ce fichier dans moinonplus.txt

 

# cat permet d’afficher sur l’écran le contenu de moinonplus.txt

Screen Shot 2016-10-18 at 23.54.55

 

# ls > liste.txt permet d’écrire dans le fichier le contenu de répertoire courant

Screen Shot 2016-10-19 at 00.19.33

 

3. Application wc

1) Compter le nombre de fichier dans votre répertoire de travail

2) Compter le nombre de fichier dans le répertoire TEST1

Screen Shot 2016-10-19 at 00.33.45

 

Screen Shot 2016-10-19 at 00.39.15

 

il y 23 fichiers dans le répertoire de travail et 3 dans TEST1

4. Exécution séquentielle; regroupement; imbrication de commandes

# ; permet d’enchaîner des commandes, l’ordre d’effet est de gauche à droite

# ; ; ) les commandes entre la parenthèses est considérées comme une seule

commande

(date ; who) > qui -> écrit la date et l’information d’utilisateur dans le fichier qui

# ( ) permet aussi d’effectuer deux commandes de la manière imbriquée

echo je suis sous $(pwd) -> deux fois d’exécution : exécution de commande pwd qui dit le

nom de répertoire courant, et echo permet d’afficher une chaîne de caractères je suis sous +

nom de répertoire courant

Screen Shot 2016-10-19 at 00.43.22

Screen Shot 2016-10-19 at 00.50.44

 

Les commandes d’Unix donnent la facilité de manipuler des fichiers et des répertoires, il est accessible pour le système linux, windows et Mac OS(sur lequel je travaille), mais la commande rm est dangereux pour certains puisqu’il permet de supprimer des dossiers directement sous le terminal.

-Yunbei ZHANG

 

 

Publié dans : Non classé | le 19 octobre, 2016 |Pas de Commentaires »

Premières avancées 18.10.2016

COURS DU 5.10.2016

Lors de cette séance, nous avons eu une première approche avec un environnement UNIX (bash ubuntu). Nous avons notamment vu quelques unes des commandes comme par exemple ls (qui permet d’afficher la liste des fichiers/dossiers contenus dans un repertoire), cd (qui permet de nous deplacer dans l’environnement), mkdir (qui permet la création d’un dossier), man (qui sert de manuel d’instructions pour une commande donnée), touch (qui permet la création d’un fichier), cat (qui permet l’affichage du contenu d’un fichier), echo (qui permet l’affichage à l’écran d’une chaine de caractère), rm (qui permet la suppression d’un fichier), rmdir (qui permet la suppression d’un dossier), wd (qui permet le comptage des mots d’un fichier)…Nous avons aussi vu la redirection de flux de sortie d’une commande avec les symboles >; >> et | . Pour nous entrainer nous avons en classe créer un dossier, un fichier texte dans ce même dossier et écrit une phrase dans ce fichier.

PREPARATION COURS DU 19.10.2016

En premier lieu, j’ai du activer bash ubuntu sur mon ordinateur.

Tout d’abord, nous devions réussir à créer notre environnement de travail sur notre ordinateur, c’est à dire l’ensemble des dossiers et sous dossier qui nous permettrons d’organiser nos documents et nos recherches, à l’aide d’un script bash. Voici le résultat que j’ai obtenu :

14741129_10207490550159038_1231878113_n

14798752_10207490550319042_1585607906_n

14793928_10207490550239040_281369088_n

Nous pouvons voir que malgré des messages d’erreurs, les dossiers ont bien été créés.

Nous devions ensuite nous entraîner à manier le langage HTML et créer un petit tableau.:

14643102_10207490620520797_1387686122_n

14794013_10207490623520872_948242172_n

 

Pour finir, j’ai commencé à constituer un fichier contenant une cinquantaine d’urls traitant de notre sujet : la famille, en anglais.

- Sandra

Publié dans : Non classé | le 18 octobre, 2016 |Pas de Commentaires »

Introduction

Actuellement étudiantes en premières années en Master TAL et dans le cadre de notre cours de « projet encadré » nous avons décidé de nous pencher sur l’étude de la notion de « famille » dans les trois langues suivantes : Anglais, Chinois et Français et de voir les différentes significations que cette notion peut avoir dans ces  cultures à l’aide d’un corpus que nous constituerons et analysera au fils du semestre. Ce blog nous permettra de noter nos avancés lors de ce projet.

Publié dans : Non classé | le 18 octobre, 2016 |Pas de Commentaires »

Bonjour tout le monde !

Bienvenue sur unblog.fr, vous venez de créer un blog avec succès ! Ceci est votre premier article. Éditez ou effacez le en vous rendant dans votre interface d’administration, et commencez à bloguer ! Votre mot de passe vous a été envoyé par e-mail à l’adresse précisée lors de votre inscription. Si vous n’avez rien reçu, vérifiez que le courrier n’a pas été classé par erreur en tant que spam.

Dans votre admin, vous pourrez également vous inscrire dans notre annuaire de blogs, télécharger des images pour votre blog à insérer dans vos articles, en changer la présentation (disposition, polices, couleurs, images) et beaucoup d’autres choses.

Des questions ? Visitez les forums d’aide ! N’oubliez pas également de visiter les tutoriels listés en bas de votre tableau de bord.

Publié dans : Non classé | le 4 octobre, 2016 |1 Commentaire »

Teckaki |
SimplicechoumeniDBA |
L'actualité des nouvel... |
Unblog.fr | Créer un blog | Annuaire | Signaler un abus | geolocalisation.info
| Florian dauphin
| Geolocalisation.info