Le raisonnement part de l'estimation de la probabilité d'absence d'un vocable dans un échantillon exhaustif prélevé dans un corpus, connaissant la distribution des fréquences des vocables qui constituent ce corpus. C'est la formule qui a été proposée il y a plus de vingt ans par Charles Muller et qui est ici comparée avec la loi hypergéométrique. Deux applications sont examinées : le calcul de l'accroissement du vocabulaire dans des corpus et le prélèvement aléatoire d'un grand nombre d'échantillons exhaustifs sur ces corpus. On démontre ainsi, théoriquement et empiriquement, que la formule de Muller représente une bonne approximation de la loi hypergéométrique. On montre également la nécessité d'associer aux valeurs calculées un écart type qui permettra d'estimer l'intervalle de confiance attaché aux valeurs obtenues grâce à cette formule de Muller.
Publié le : 1988-07-05
Classification:
accroissement du vocabulaire,
vocabulaire,
linguistique,
statistique,
loi hypergéométrique,
[MATH.MATH-ST]Mathematics [math]/Statistics [math.ST],
[STAT.TH]Statistics [stat]/Statistics Theory [stat.TH],
[SHS.LANGUE]Humanities and Social Sciences/Linguistics
@article{hal-00758060,
author = {Hubert, Pierre and Labb\'e, Dominique},
title = {Note sur l'approximation de la loi hyperg\'eom\'etrique par la formule de Muller},
journal = {HAL},
volume = {1988},
number = {0},
year = {1988},
language = {fr},
url = {http://dml.mathdoc.fr/item/hal-00758060}
}
Hubert, Pierre; Labbé, Dominique. Note sur l'approximation de la loi hypergéométrique par la formule de Muller. HAL, Tome 1988 (1988) no. 0, . http://gdmltest.u-ga.fr/item/hal-00758060/