Note on lexical clustering analysis

Principle: the methodology of classification is based on the multiple associations between the words of texts supplied by each researcher. If in a set of documents, one often find the same words inside a segment of text, it is likely that they describe the same context. One does not know exactly what says the speaker but we know about what he speaks.

Method: the classification in subjects or in contexts is realized from a matrix of cooccurrence between the words. It is in a sense a statistical method which "imitates" the human work of classification. The method consists in calculating associations within a "window" of 10 or 15 words. When two keywords are close, it is likely that they are part of the same unit of sense. The software used to realize the analysis is WordMapper (http://www.grimmersoft.com).

Representation: the results appear as a graph in star representing the various contexts of use of a word. The studied word is in the center, the number situated on the line represents the frequency of cooccurrence between the 2 linked words. A word situated to the right and a word situated to the left does not share the same context with the central word.


    Note sur l'analyse lexicale

Principe : La méthodologie de classification est fondée sur les associations multiples entre les mots des textes rédigés et fournis par chaque différent chercheur.  Si dans un ensemble de documents, on trouve souvent les mêmes mots à l’intérieur d’un segment de texte, il est probable qu’ils décrivent un même contexte. On ne sait pas exactement ce qu’en dit le locuteur mais on sait de quoi il parle.

Méthode : La classification en thèmes ou en contextes est faite à partir une matrice de co-occurrence entre les mots. Il s’agit d’une méthode statistique qui «imite» en quelque sorte le travail humain de classement. La méthode consiste à calculer les associations au sein d'une "fenêtre" de 10 ou 15 mots. Lorsque deux mots clés sont proches, il est probable qu'ils font partie d'une même unité de sens. Le logiciel utilisé pour réaliser l’analyse est WordMapper (http://www.grimmersoft.com).

Représentation : Les résultats se présentent sous la forme d’un graphique en étoile représentant les différents contextes d’utilisation d’un mot. Le mot étudié est au centre, le chiffre situé sur le trait représente la fréquence de cooccurrence entre les 2 mots. Un mot situé à droite et un mot situé à gauche ne partage pas le même contexte avec le mot central.