WEB2007 ALSO SPEAKS ENGLISH
06 44 00 14 84 (ou 0033644001484)

* Creation Carte De Visite Ambilly


Creation Carte De Visite Ambilly





Article:

l'exploration de données s'engage à utiliser un ensemble d'algorithmes provenant de disciplines scientifiques diverses telles que les statistiques, l'intelligence artificielle ou l'informatique, pour construire des modèles à partir des données, c'est-à-dire trouver des structures intéressantes ou des motifs selon des critères fixés au préalable, et d'en extraire un maximum de connaissances utiles à l'entreprise. La méthode CRISP-DM32 fait une répartition du processus de fouille de données en six étapes permettant d'organiser la technique et de l'ancrer dans un processus industriel. Plus qu'une théorie normalisée, c'est un processus d'extraction des connaissances métiers.
Phases du processus CRISP-DM
Il faut d'abord de maitriser le métier32 qui pose la question à l'analyste, formaliser le ème que l'organisation cherche à résoudre en ce qui concerne les données, comprendre les enjeux, connaître les critères de réussite du projet et mettre en place un plan initial pour réaliser cet objectif.
Ensuite, le chercheur fait recours à des données appropriées. Dès que l'équipe de projet sait ce qu'il faut faire, elle doit se mettre en quête des données, des textes et tout le matériel qui lui permettra de répondre au ème. Il lui faut ensuite en évaluer la qualité, découvrir les premiers schémas probables pour émettre des hypothèses sur les modèles cachés.
Les données que l'équipe de projet a réunies sont hétérogènes. Elles doivent être préparées32 en fonction des algorithmes utilisés, en supprimant les valeurs aberrantes, ou valeurs extrêmes, en complétant les données non renseignées, par la moyenne ou par la méthode des K plus proches voisins, en supprimant les doublons, les variables invariantes et celles ayant trop de valeurs manquantes, ou bien par exemple en discrétisant les variables si l'algorithme à utiliser le nécessite, comme c'est par exemple le cas pour l'analyse des correspondances multiples ACM, l'analyse discriminante DISQUAL, ou bien la méthode de Condorcet.
Une fois les données apportées, il faut les explorer32. La modélisation rassemble des classes de tâches pouvant être utilisées seules ou en complément avec les autres33 dans un but descriptif ou prédictif. La segmentation est la tâche consistant à découvrir des groupes et des structures au sein des données qui sont d'une certaine façon similaires, sans utiliser des structures connues a priori dans les données. La classification est la tâche de généralisation des structures maitrisées pour les appliquer à des données nouvelles.
La régression tente de trouver une fonction modélisant les données continues, c'est-à-dire non discrètes, avec le plus petit taux d'erreur, afin d'en prédire les valeurs futures. l'association recherche les relations entre des items. Par exemple un supermarché peut rassembler des données sur des habitudes d'achats de ses clients.






* Web2007 est le site d'un informaticien indépendant qui peut et veut travailler pour des entreprises partout en Europe.
Si besoin, Web2007 peut se déplacer dans toute la région Rhones-Alpes.
Pour info, j'habite personnellement à Gaillard-Haute Savoie et mon bureau est juste à coté à Genève-Suisse.