6 questions clés à se poser avant d'adopter un outil d'analyse de données textuelles
Le nombre de solutions d'analyse de données textuelles (text mining) ne cesse d'augmenter, se pose désormais le choix de l'outil pour répondre à vos besoins. Faire le bon choix, ça tient pour les experts Ipsos en 6 questions...
Le sujet n'est pas simple, notamment en raison de la profusion de jargon et de terminologie dans le secteur. Entre les moteurs sémantiques (Natural Langage Processing) qui identifient les ‘patterns’ (patrons sémantiques) puis utilisent des règles pour créer des catégories, et les approches basées sur les probabilités/statistiques qui s'appuient sur la fréquence et la co-occurrence des mots pour produire des résultats, il est parfois difficile de s'y retrouver.
1. Votre but est-il d’explorer les données ou de les classifier afin de les quantifier ?
Certains outils proposent des résultats et des visuels sophistiqués pour étudier le contenu des données, en s'attachant peu à la quantification. D'autres outils sont plus performants dans la quantification. D'autres enfin combinent ces deux aspects. Le fait de déterminer précisément votre besoin facilitera le choix de l'outil.
2. Quel volume de données devez-vous traiter ?
Démarrer sur un corpus d'un demi-million de commentaires justifiera un investissement très différent de celui consenti pour le traitement de 5 000 commentaires / verbatims. Ainsi, les outils nécessitant un long set-up ne seront généralement adaptés que pour les volumes importants.
Il faut également garder en tête que la plupart des outils nécessite de travailler sur un corpus/échantillon de base minimum pour garantir une analyse correcte et précise.
3. Quel est le niveau de cohérence/comparabilité de l'analyse entre les vagues ou entre les projets ?
Pour garantir un traitement parfaitement cohérent vague après vague ou entre différentes sources, vous pouvez utiliser des solutions permettant d’enregistrer un modèle de catégorisation applicable. D’autres outils permettent d’adapter la catégorisation automatiquement en fonction du corpus de commentaires à analyser mais dans ce cas, les résultats sont moins comparables.
4. Quel niveau de flexibilité pour corriger la catégorisation ?
Certains outils permettent plus facilement d’aller jusqu’aux verbatim individuels et d'ajuster la catégorisation si nécessaire. D'autres outils plus automatisés et donc plus rapides sont plus opaques quant à la manière dont ils classent les commentaires et plus difficiles à mettre à jour si la catégorisation s'avère incorrecte.
5. Quelle est la source des commentaires (Question ouverte d’enquête, réclamations, réseaux sociaux) ?
Certains outils ont maintenant la capacité de ne conserver que les verbatim pertinents avant de procéder à l'analyse des données textuelles à proprement parler. Dans les autres, les analystes identifient les commentaires dénués de sens/hors de propos afin de les exclure du modèle d’analyse. Toutefois, dans certains cas, la présence de ‘bruit’ excessif dans les données peut compliquer l’analyse.
6. De quel niveau d’analyse (niveau de thème et sous-thèmes) avez-vous besoin ?
Nous entendons par granularité, le niveau de détail attendu pour l’analyse des commentaires. Tous les outils permettent d’identifier toutes les grandes thématiques présentes dans le corpus de verbatim. Certains outils aideront l’analyste à aller plus dans le détail des catégories. Cela sera utile pour approfondir un sujet ou thème spécifique.
Chaque approche présente des avantages et des inconvénients selon les cas d'utilisation. Ipsos s'appuie sur un portefeuille de solutions en fonction des besoins des clients. Notre approche est principalement basée sur la combinaison de moteurs sémantiques et d’outils statistiques (modèles non supervisés) pour extraire les idées et thèmes du corpus de verbatim et en créer une catégorisation structurée/hiérarchique. Pour une première analyse plus exploratoire, nous utilisons des modèles basés sur des méthodes probabilistiques.
Fiona Moss,
Associate Director in Ipsos Loyalty’s Global Client Solutions team