Cependant, lorsque nous considérons les termes d`ordre supérieur dans l`expansion de la distribution de cet estimateur, il s`avère que θmle a un biais de l`ordre 1 ⁄ n. Alors qu`est-ce que cela signifie? Alors, Comment savons-nous quel estimateur nous devrions utiliser pour σ2? La cohérence signifie que si les données ont été générées par f (⋅; θ 0) {displaystyle f (cdot ,; Theta _ {0})} et nous avons un nombre suffisamment élevé d`observations n, alors il est possible de trouver la valeur de θ0 avec une précision arbitraire. S`il ya quelque chose qui n`est pas clair ou j`ai fait quelques erreurs dans le ci-dessus n`hésitez pas à laisser un commentaire. Note: le log-vraisemblance est étroitement lié à l`entropie d`information et à l`information de Fisher. Les pièces ont perdu leurs étiquettes, de sorte que celui qu`il était est inconnu. Et voilà, nous aurons nos valeurs MLE pour nos para mètres. Wilks a continué à améliorer la généralité du théorème tout au long de sa vie, avec sa preuve la plus générale publiée en 1962. Cet estimateur corrigé des préjugés est efficace en deuxième ordre (au moins dans la famille exponentielle incurvée), ce qui signifie qu`il a une erreur quadratique moyenne minimale parmi tous les estimateurs corrigés par biais de second ordre, jusqu`aux termes de l`ordre de 1 ⁄ n ². Appelez la probabilité de lancer une «tête» p. Supposons maintenant qu`il n`y avait qu`une seule pièce, mais sa p aurait pu être n`importe quelle valeur 0 ≤ p ≤ 1. C`est pourquoi la méthode est appelée la probabilité maximale et pas la probabilité maximale. Ainsi, la vraie cohérence ne se produit pas dans les applications pratiques.

Examinons maintenant un exemple qui implique une fonction de densité de probabilité conjointe qui dépend de deux paramètres. Si nous supposons en outre que le P antérieur (θ) {displaystyle P (Theta)} est une distribution uniforme, l`estimateur bayésien est obtenu en maximisant la fonction de vraisemblance f (x 1, x 2,…, x n ∣ θ) {displaystyle f (x_ {1}, x_ {2}, ldots, x_ {n} mid Theta)}. Nous avons juste à comprendre les valeurs de μ et σ qui se traduit par donner la valeur maximale de l`expression ci-dessus. Dans le prochain post, je prévois de couvrir l`inférence Bayésienne et comment il peut être utilisé pour l`estimation des paramètres. Par exemple, les paramètres MLE de la distribution log-normale sont les mêmes que ceux de la distribution normale ajustée au logarithme des données. Nous verrons un exemple de ces scénarios dans la section problèmes résolus (section 8. C`est en effet le maximum de la fonction, car c`est le seul point tournant dans μ et le deuxième dérivé est strictement inférieur à zéro.