Non-fécondité du modèle statistique général de la classification automatique
Régnier, Simon
Mathématiques et Sciences humaines, Tome 84 (1983), p. 67-74 / Harvested from Numdam

Dans une perspective analogue à celle, classique, du modèle linéaire général commun aux analyses de variance, de covariance, de régression, l'auteur analyse un modèle statistique qui lui semble assez général pour englober toutes les problématiques classificatoires. Ce modèle comprend tout naturellement comme cas particulier le modèle le plus général de l'analyse discrimante, qui correspond au cas de figure «agréable» où le contenu des classes que l'on cherche à remplir est quelque peu connu a priori. A ce niveau de généralité, la seule méthode de traitement disponible est celle du maximum de vraisemblance. On montre alors que ce modèle conduit à des algorithmes très lourds mais pertinents dans des situations dites «paramétriques», où chaque classe à remplir est caractérisée par une loi de probabilité inconnue dépendant de quelques paramètres réels, dans une famine de lois a priori connue. Mais dans la situation non-paramétrique (à notre avis la plus courante, spécialement quand le champ des observations possible est fini) celle où les classes à construire sont a priori totalement indéterminées, on montre que le même modèle traité par le même principe du maximum de vraisemblance conduit à une classe de classifications «les plus vraisemblables» parfaitement dépourvues d'intérêt physique, parce qu'en dehors de certain cas très particulier où l'on obtient des classifications très pertinentes mais a priori évidentes, on obtient en général une classe de classifications globalement invariante par permutation des objets. Bref, le modèle ainsi traité conduit à partitionner le cardinal de l'ensemble d'objets, et non cet ensemble lui-même.

In a perspective similar to the classical approach through the general linear model common to variance, covariance, and regression analysis, the A. studies a statistical model that seems general enough to encompass all classification problems. This model naturally includes as a special case the more general model of discriminant analysis, which corresponds to the “pleasant” case where something is known a priori about the content of the classes that are being looked for At this level of abstraction, the only available method is that of maximum likelihood. The A. shows that this model leads to algorithms that are unwiedly, but operative in the so-called “parametric” situations, in which each of the classes to be found is characterized by an unknown law of probability - depending upon a few real parameters - among a set of laws known a priori. But in the non parametric case (to us, the most common, especially when the range of possible observations is finite), viz. the case when the classes that are looked for are a priori totally unknown, the same model, handled according to the same principle of maximum likelihood, leads to a class of “most likely” classifications that are devoided of any physical interest. The reason is that except for some very special cases in which highly relevant, but a priori obvious classes are obtained, the result is generally a class of classifications that remain wholly unvariant when objects are permuted. In brief, the model, when handled in this way, leads to partition the cardinal of the set of objects, instead of the set itself.

Publié le : 1983-01-01
@article{MSH_1983__82__67_0,
     author = {R\'egnier, Simon},
     title = {Non-f\'econdit\'e du mod\`ele statistique g\'en\'eral de la classification automatique},
     journal = {Math\'ematiques et Sciences humaines},
     volume = {84},
     year = {1983},
     pages = {67-74},
     mrnumber = {728767},
     language = {fr},
     url = {http://dml.mathdoc.fr/item/MSH_1983__82__67_0}
}
Régnier, Simon. Non-fécondité du modèle statistique général de la classification automatique. Mathématiques et Sciences humaines, Tome 84 (1983) pp. 67-74. http://gdmltest.u-ga.fr/item/MSH_1983__82__67_0/

De La Genière (Mme J.) et De La Vega (W.F.), 1968. - Analyse quantitative du mobilier funéraire de la fouille de Sala Consilina. Calcul et Formalisation dans les Sciences de l'Homme, C.N.R.S., Paris.

Kendall (M.G.), 1958 et seq. - The Advanced Theory of Statistics, 3 vol., Charles Griffin & Co., London.

Lerman (I.C.), 1970. - Les bases de la classification automatique. Gauthier-Villars, Collection « Programmation », Paris. | MR 349079 | Zbl 0199.51402

Régnier (S.), 1966. - Classification et analyse des expressions plastiques non figuratives de malades mentaux. Actes du Colloque International sur l'informatique, Toulouse.