nike sb shoes jewellery uk mont blanc pens uk burberry trainers adidas zx flux uk asics trainers nike roshe uk new balance trainers nike huarache uk nike uk adidas gazelle uk new era uk lacoste trainers cheap oakleys uk Nike presto uk converse uk polo ralph lauren uk fila trainers

Un petit tour au zoo de la DataViz

 

Jeffrey Heer, Michael Bostock, et Vadim Ogievetsky de l'université de Stanford ont publié en juin 2010 dans la revue Communications of the ACM, 53(6), pp. 59-67, un article intitulé "A Tour through the Visualization Zoo" qui présente un classement des représentations graphiques utilisées en dataViz.

Cette traduction reprend la partie de l'article décrivant les graphiques les plus novateurs comparés à ceux plus connus utilisés dans les outils classiques d’analyse et de visualisation de données. Se reporter à l'article original pour une lecture exhaustive. Toutes les images sont issues de l'article disponible sur le site de Jeffrey Heer.

Introduction

Suite aux progrès de la détection, des réseaux, et de la gestion des données, notre société produit de l'information numérique à un rythme étonnant. Selon une estimation, nous allons générer pour la  seule année 2010, 1200 exaoctets (1018 octets), soit 60 millions de fois la Bibliothèque du Congrès Américain. Dans ce déluge de données réside une mine d'informations précieuses sur la façon dont nous menons nos entreprises, nos gouvernements, et nos vies personnelles. Pour bien utiliser l'information, nous devons trouver des moyens efficaces pour explorer, représenter, et communiquer les données.

Le but de la visualisation graphique est d’aider à comprendre et à analyser les données complexes en tirant parti de la capacité du système visuel humain à percevoir des modèles, à repérer des tendances, et à identifier des valeurs aberrantes. Des représentations visuelles bien conçues peuvent remplacer des calculs cognitifs avec de simples inférences perceptives et améliorer la compréhension, la mémoire et la prise de décision. En rendant les données plus accessibles et attrayantes, des représentations visuelles peuvent également aider à mobiliser et impliquer des publics plus diversifiés en matière d'exploration et d'analyse. Le défi consiste à créer des visualisations efficaces et graphiquement adaptées aux données à analyser.

Créer une visualisation nécessite un certain nombre de jugements nuancés. Il faut déterminer quelles sont les questions à se poser, identifier les données appropriées, et sélectionnez des codages visuels appropriés pour mapper les valeurs des données à des fonctions graphiques telles que la position, la taille, la forme et la couleur. Le défi est que, pour un ensemble de données disponibles,  le nombre de codages visuels - et donc l'espace des conceptions possibles de visualisation - est extrêmement important. Pour nous guider dans ce processus, les informaticiens, psychologues et statisticiens ont étudié la façon dont différents encodages facilitent la compréhension des types de données telles que les numéros, les catégories, et les réseaux. Par exemple, les expériences de perception graphique ont permis de montrer que la position spatiale (comme dans un nuage de points ou un graphique à barres) est la manière la plus précise pour décoder des données numériques, et est généralement préférable à des variables visuelles telle qu’un angle, une longueur 1D, une région 2D, un volume 3D, et une saturation des couleurs. Ainsi, il ne faut pas s'étonner que les représentations graphiques de données les plus courantes, y compris les diagrammes à barres, les graphiques linéaires et les diagrammes de dispersion, utilisent des codages en position. Cependant, notre compréhension de la perception graphique reste incomplète, et doit être complétée  de manière appropriée avec des considérations d’ordre esthétique et interactive.

L’article décrit une « zoologie » des représentations graphiques de données, zoologie reprise et enrichie par différents chercheurs du domaine, laboratoires spécialisés en ergonomie, design et analyse de données, et dont des exemples de représentations, issus de cette classification.

Les cartes

Bien que les cartes peuvent sembler un moyen naturel de visualiser les données géographiques, elles héritent d’un long historique. De nombreuses cartes sont basées sur une projection cartographique: une fonction mathématique qui fait correspondre à la géométrie 3D de la Terre une image 2D.  D'autres cartes faussent ou rendent volontairement abstraites les caractéristiques géographiques afin d’augmenter l’analyse des données ou mettre en évidence des données spécifiques.

Carte choroplèthe

Les données sont souvent collectées et agrégées par zones géographiques. Une approche standard pour communiquer ces données consiste à utiliser un codage de couleur de la zone géographique, ce qui crée une carte choroplèthe. L’exemple ci-dessous utilise un codage couleur pour communiquer la prévalence de l'obésité dans chaque État des États-Unis.

 

 

Carte symbolique

Une alternative à la carte choroplèthe est la carte symbolique qui met à la place des symboles sur une carte sous-jacente. Cette approche évite la confusion entre zone géographique et valeurs des données, et permet d’augmenter le nombre de dimensions pouvant être visualisées (par exemple, la taille des symboles, la forme et la couleur). En plus des formes simples telles que cercles, la carte symbolique peut utiliser des graphes complexes tels que les camemberts. Dans l’exemple ci-dessous, la taille totale des cercles concentriques représente la population d'un État, et chaque anneau indique la proportion de personnes ayant un indice de masse corporelle spécifique.

 

 

Les cartogrammes

Un cartogramme est une carte dont les régions géographiques sont déformées de sorte que les zones encodent directement les valeurs des données. Un exemple courant est de redessiner tous les pays du monde en les redimensionnant proportionnellement à la population ou le PIB, comme ci-dessous :

Source : Images of the social and economic world de Mark Newman

 

De nombreux types de cartogrammes ont été créés; l’exemple ci-dessous montre un cartogramme Dorling. Chaque région géographique est représentée avec un cercle d’une taille donnée, placée de manière à ressembler à la véritable configuration géographique. Les zones circulaires encodent le nombre total de personnes obèses par état et la couleur encode le pourcentage de la population totale qui est obèse.

 

Les représentations hiérarchiques

Alors que certaines données sont simplement une collection de nombres, la plupart des données peuvent être organisées en hiérarchies naturelles. Par exemple : entités spatiales, telles que les régions, les départements, les états et les pays, les structures de commandement pour les entreprises et les gouvernements ; les paquetages logiciels et les arbres phylogénétiques. Même pour les données sans hiérarchie apparente, des méthodes statistiques (par exemple, k-means) peuvent être appliquée pour organiser les données de façon empirique. Des techniques de visualisation spéciales existent pour les structures hiérarchiques, ce qui permet une analyse d’inférence rapide multi-échelles : micro-observations des différents éléments et macro-observations de grands groupes.

 

Les diagrammes nœuds-liens

Les arbres

Le mot «arbre» ​​est utilisé de manière interchangeable avec "hiérarchie", à l’image des branches d'un chêne fractal qui reflète l'imbrication des données. Si nous considérons une représentation plane à deux dimensions d'un arbre, le diagramme nœuds-liens est souvent le choix le plus utilisé. De nombreux algorithmes de représentation d'arbres ont été conçus ; l'algorithme Reingold-Tilford, utilisée ci-dessous sur une hiérarchie de classes de paquetages de logiciels, produit un résultat clair dans un minimum d’espace.

 

Les dendogrammes

Une représentation alternative est le dendrogramme (ou «cluster»), qui place les nœuds-feuilles de l'arbre au même niveau. Ainsi, dans le diagramme ci-dessous, les classes (les nœuds-feuilles en orange) sont sur ​​le diamètre du cercle, et les paquetages bleus (nœuds internes) à l'intérieur. Utiliser une représentation polaire plutôt que des coordonnées cartésiennes améliore l’esthétique du graphe tout en utilisant l'espace de manière plus efficace. La densité des données représentée est naturellement plus dense suivant l’éloignement du centre du cercle, ce qui est adapté à une structure de données hiérarchiques ou les feuilles sont de plus en plus nombreuses lorsqu’on s’éloigne de la racine.


Les arbres indentés

Il ne faut pas oublier les arbres indentés, utilisés de façon courante par les systèmes d'exploitation pour représenter les répertoires de fichiers, entre autres applications. Bien que les arbres indentés exigent un espace vertical important et ne facilitent pas l’analyse multi-échelles des inférences, ils  permettent une exploration efficace et interactive de l'arbre pour trouver un nœud spécifique. En outre, ils permettent une lecture rapide des étiquettes des nœuds, et les données multivariées telles que la taille des fichiers peut être affichée à côté de la hiérarchie.

 

Les diagrammes de proximité

Les diagrammes de proximité sont une variante des diagrammes nœuds-liens; plutôt que de dessiner un lien entre parent et un enfant dans la hiérarchie, les nœuds sont représentés par des zones solides (ou aussi des arcs ou des barres), et leur emplacement par rapport aux nœuds adjacents révèle leur position dans la hiérarchie.

La représentation « stalactite » ou « icicle »

La représentation en "stalactite" ou « Icicle » ci-dessous est similaire à la première représentation  des graphiques nœuds-liens, en ce que le nœud racine apparaît en haut, avec des nœuds enfants positionnés en dessous. Cependant, les nœuds étant représentés par des espaces de remplissage, on peut utiliser la longueur pour encoder la taille des classes logicielles et des progiciels. Cela introduit  une dimension supplémentaire qu’il serait difficile de visualiser dans un diagramme nœuds-liens.

 

Le diagramme en « rayons de soleil » ou « Sunburst »

La représentation "Sunburst" est équivalente à la représentation "icicle", mais en coordonnées polaires. Les deux sont mises en œuvre en utilisant une représentation en "partitions", qui peut également être utilisée pour générer des diagrammes nœuds-liens.

 

Les diagrammes de cloisonnement ou de compartimentage (« cluster » ou « Treemap »)

Les diagrammes de cloisonnement ou compartimentage, aussi nommés diagrammes « Cluster » ou « Treemap » utilisent également des représentations en espaces de remplissage à l’aide de structures compartimentés et emboitées plutôt que des structures contigües pour représenter la hiérarchie. Présenté par Ben Shneiderman en 1991, un TreeMap subdivise récursivement une zone en rectangles. Comme avec les diagrammes de contiguïté, la taille de n'importe quel nœud de l'arbre est rapidement mise en valeur. L'exemple ci-dessous utilise le contour des zones (en bleu) pour accentuer l’effet de compartimentage ; un codage alternatif utilisant les couleurs est parfois utilisé.

 

En utilisant un compartimentage avec des cercles au lieu de rectangles, nous pouvons produire un autre type de diagramme qui a un aspect quasi organique. Bien qu'il n'utilise pas l'espace aussi efficacement que dans un TreeMap, «l'espace gaspillé» du cercle d'emballage révèle efficacement les aspects de hiérarchie, et la taille des nœuds permet de rapidement comparer les régions.

 

 

Les réseaux

En plus des notions d'organisation, un aspect des données que nous pouvons explorer grâce à la visualisation graphique repose sur la notion de relation. Par exemple, pour un réseau social, il est intéressant d’analyser les relations du type : qui est ami avec qui ? Qui sont les acteurs principaux ? Existe-t-il des groupements? Qui sert d’intermédiaire entre des groupes disparates? Abstraitement, une hiérarchie est une forme spécialisée du réseau: chaque nœud a exactement un lien vers son parent, tandis que le nœud racine n'a aucun lien. Ainsi, les diagrammes nœuds-liens sont également utilisés pour visualiser les réseaux, mais la perte de la hiérarchie nécessite un algorithme différent pour positionner les nœuds.

Les mathématiciens utilisent le terme officiel «graphe» pour décrire un réseau. Un défi central dans la visualisation des graphes est le calcul d'une représentation et d’un positionnement efficace des nœuds. Les techniques utilisées cherchent généralement à positionner les nœuds étroitement liés (en termes de distance de graphe, tels que le nombre de liens entre les nœuds, ou d'autres indicateurs) proches dans le dessin; Il est important que les nœuds indépendants soient également  placés assez loin pour différencier les relations. Certaines techniques peuvent chercher à optimiser les autres caractéristiques visuelles, par exemple en réduisant au minimum le nombre de croisements entre les liaisons.

Le réseau orienté forces

Une approche commune et intuitive pour la configuration du réseau est de modéliser le graphique en tant que système physique : les nœuds sont des particules chargées qui se repoussent mutuellement, tandis que les liens sont des ressorts amortis qui tirent les nœuds liés ensemble. Une simulation physique de ces forces détermine ensuite les positions de nœuds ; les techniques d'approximation qui permettent d'éviter le calcul de toutes les forces mutuelles permettent de visualiser un grand nombre de nœuds. En outre, l'interactivité permet à l'utilisateur de diriger les nœuds et de les déplacer pour démêler certains liens. Ces représentations sont un bon point de départ pour comprendre la structure d'un graphe non orienté. Ci-dessous, un modèle orienté forces permet de visualiser les co-occurrences de caractères dans les chapitres du roman de Victor Hugo, Les Misérables.

 

Les diagrammes en arcs

Un diagramme en arcs utilise une disposition unidimensionnelle des nœuds, et des arcs de cercle pour représenter des liens. Bien que les diagrammes en arcs ne peuvent pas retranscrire la structure globale du graphe de manière aussi efficace que la disposition en deux dimensions, avec un bon ordonnancement des nœuds, il est facile d'identifier les regroupements et les ponts. Comme avec la représentation en arbres indentés, les données multivariées peuvent facilement être affichées à côté des nœuds. La problématique liée au tri des nœuds d'une manière à révèler la structure en cluster sous-jacente est appelée « sériation », et a des applications diverses en visualisation, en statistiques, et même en archéologie !

 

Les diagrammes matriciels

Les mathématiciens et les informaticiens pensent souvent à un graphe en fonction de sa matrice d'adjacence : chaque valeur à l’intersection d’une ligne i et d’une colonne j de la matrice correspond à la liaison entre le nœud i et le nœud j. Compte tenu de cette représentation, une visualisation est alors évidente : il suffit de montrer la matrice! L’utilisation de la couleur ou de la saturation au lieu du texte permet de percevoir plus rapidement les valeurs associées aux liens. Le problème de la « sériation » s'applique tout autant aux vues matricielles qu’aux diagrammes en arcs, l'ordre des lignes et des colonnes est important : ici, nous utilisons les groupements générés par un algorithme de détection de communautés pour ordonnancer l'affichage. Bien que le suivi des chemins est plus difficile dans une vue matricielle que dans un diagramme nœuds-liens, les matrices ont en compensation un certain nombre d'avantages. Lorsque les réseaux sont de taille importante et très connectés, les diagrammes nœuds-liens dégénèrent souvent en boules de poils géantes de lignes entrecroisées. Dans les vues matricielles, les croisements de lignes sont impossibles, et avec un tri efficace, on peut rapidement repérer les grappes (« clusters ») et les ponts. Permettre le groupement et la réorganisation interactive de la matrice permet même d'explorer de manière plus efficace la structure du réseau.

 

Les diagrammes en cordes ou rubans (diagrammes non présentés dans l'article original)

Les diagrammes en cordes ou rubans peuvent être utilisés pour transformer une table de données en représentation graphique. Dans cette approche, les colonnes et les lignes de la table sont représentées par des segments autour du cercle. Les cellules individuelles sont représentées comme des cordes ou des rubans qui relient les segments de la ligne et de la colonne correspondante (sources : Circos)

 

 

Conclusion

Bien que qu’un certain nombre de techniques de codage et de représentations visuelles aient été présentées, et que cette présentation ne soit pas exhaustive par rapport aux diagrammes actuellement disponibles dans les différentes librairies graphiques commerciales, du domaine libre ou Open Source, ou du domaine de la recherche, de nombreuses « espèces » de visualisation existent à l'état sauvage, et attendent d'être découvertes. Des domaines émergeants tels que la bioinformatique et la visualisation de texte (« Text Mining ») incitent sans cesse les chercheurs et les concepteurs à formuler de nouvelles représentations ou à trouver des moyens plus puissants pour améliorer les représentations classiques. Dans les deux cas, l'«ADN» qui sous-tend toutes les visualisations reste le même : le principe de représenter graphiquement et visuellement des données en utilisant des aspects visuels tels que la position, la taille, la forme et la couleur dans le but d’améliorer la perception des données, l’analyse et la prise de décision.

A propos de NeoViz

NeoViz est spécialiste en Architecture et Data Visualisation des Réseaux d'Information.

  • Data Science
  • Génie logiciel
  • Algorithmique scientifique et numérique
  • Ingénierie grands comptes
  • Ingénierie des systèmes d'informations
  • Analyse des données financières et stratégiques des entreprises et organisations

A propos de la DataViz

La Data Visualisation ou DataViz est l’art de transformer et d’organiser les données numériques sous forme graphique pour permettre de se repérer de manière rapide et intuitive dans une grande quantité d'information (BigData) interconnectée (Réseaux). La DataViz permet de simplifier l'analyse des bases de données complexes, de faciliter la navigation dans les données et d'améliorer les prises de décision (Business Intelligence).

Zapatillas nike zapatillas reebok nike air max blancas ropa abercrombie gafas ray ban zapatillas under armour gafas de sol ray ban Gafas carrea new balance hombre botas futbol zapatillas asics new balance mujer zapatos casuales Zapatillas air jordan nike sb nike corte zapatillas vans zapatos timberland zapatillas sport zapatos de mujer nike free puma zapatillas zapatos gucci botas de futbol nike presto gorras new era Gafas oakley bolsos louis vuitton Adidas Neo cinturones gucci zapatillas saucony zapatillas de moda Adidas Originals Adidas Yeezy nike air force
nike free puma zapatillas zapatos gucci botas de futbol nike presto gorras new era Gafas oakley bolsos louis vuitton Adidas Neo cinturones gucci zapatillas saucony zapatillas de moda Adidas Originals Adidas Yeezy nike air force polos lacoste Adidas Stan Smith Zapatos nike Adidas Gazelle pulseras pandora zapatillas converse
barbour kurtki peuterey kurtki barbour polska canada goose kurtka ugg buty ugg polska canada goose jakke belstaff danmark canada goose tilbud parajumpers dame belstaff jacket canada goose danmark canada goose jakke dame barbour jakke woolrich jakke canada goose b?rn jintropin preis somatropin kaufen hgh kaufen hygetropin kaufen jintropin kaufen jintropin hygetropin bestellen kamagra jelly australia kamagra australia