Contre les droites de régression

Ben a déclaré dans son article  Une bien curieuse courbe dans “Science & vie” :

"Pour quiconque connaît un peu le sujet, cette courbe est curieuse, car on sait très bien en réalité que la somme des anomalies des banquises arctique et antarctique est assez stable au fil du temps, hors une légère baisse il y a quatre ans et résorbée depuis."

Immédiatement, des lecteurs ont dégainé leur droite de régression en commentaire.

J'appelle à la barre un statisticien. Je n'ai pas conservé le titre initial de son article. Il essaye de rester simple, et échoue parfois…

Il parle des températures dans l'arctique. Tout ce qu'il dit est applicable à la superficie de la banquise.

Nicias et Murps.

Real Climate Temperature “Trend” Article Gets It Wrong (Like So Many Do)

Par William M. Briggs

Tout ce qui pouvait dérailler dans l'analyse d'une série chronologique a brillamment déraillé dans l'article de Real Climate "Dernières tendances du réchauffement climatique : significatives, en pause, ou alors quoi ?". Il y a eu une telle quantité d'erreurs classiques commises que j'hésite à les démonter une par une même si cela en vaut la peine. Quoiqu'il en soit je vous enjoint d'aller au bout de l'article sous peine de blâme.

Le modèle n'est pas les données

Commençons par la figure 2, l'auteur l'a tracé à partir des "données hybrides HadCRUT4" [Cowtan & Way], qui "utilisent le protocole le plus sophistiqué pour combler les lacunes des données dans l'Arctique à l'aide des satellites". Déjà, passons pour cette histoire de "lacunes de données" tout en la laissant dans un petit coin de notre mémoire.

La Fig. 2 de Real Climate

La légende indique donc "température mondiale de 1998 à aujourd'hui et (à partir de la Fig. 1) ", les valeurs mensuelles sont matérialisées par des croix, la moyenne mobile [centrée] sur 12 mois par une ligne ligne rouge et la ligne de tendance linéaire avec l'incertitude est en bleue.

Sauf erreur ou malentendus (pour l'instant), ces croix en gris clair sont les températures. Ce sont elles la partie la plus importante de ce graphique, mais vous ne pouvez pas bien les voir parce qu'elles ont été remplacées par un modèle. Deux modèles, en fait, et tous les deux sont si vivement colorés et en gras qu'ils prennent beaucoup plus d'importance que la réalité de ces simples croix.

Les données représentent le passé, les modèles ne le représentent pas, ce passé. Cette ligne bleue n'a donc pas lieu d'être, pas plus que la ligne rouge, qui n'a rien à voir non plus avec la réalité. Elles sont fictions, fantaisies et fantasmes. Cette ligne rouge n'apporte pas d'information et aucun terme ne devrait lui être consacré, sauf pour annoncer sa présence ; d'ailleurs sa présence sur ce graphique est un mystère. Une distraction, un mensonge visuel. Il n'y a aucune raison au monde qui justifie une telle représentation de la réalité. En fait nous savions déjà ce qui était arrivé dans la réalité, grâce aux croix.

Pour la ligne bleue, c'est une autre paire de manche. Elle semblerait nous annoncer une tendance…

Une tendance n'est pas une tendance n'est pas une tendance [NdT : pas de faute de frappe]

Maintenant, concentrez vous sur les croix (oui, c'est difficile). La température mondiale, telle que définie ci-dessus, a-t-elle augmenté depuis 1998 ?
Oui.
Enfin, non. Ou plutôt, oui.
En fait, cela dépend de ce qu'on entend par "augmentation".

J'ai évoqué ce problème des douzaines de fois (voir the Netherlands Temperature Controversy : Or, Yet Again, How Not To Do Time Series pour un excellent exemple), mais il n'y a pas de mystère pour définir si oui ou non un paquet de données (supposé sans erreur) affiche ou non une tendance.
Pour l'annoncer, deux éléments doivent être vérifiés :
(1) Tout d'abord une définition de la "tendance" ou de "l'augmentation" puis
(2) un test pour s'assurer que cette définition a été respectée.

Il n'y a pas de définition "scientifique" unique d'une tendance à la hausse : ici les possibilités sont légions. L'une d'elle pourrait être que les données au cours de la deuxième moitié de notre jeu de données ont une moyenne arithmétique plus élevée que la première moitié. Une autre est que le dernier point dans le temps est plus élevé que le premier point. Une autre encore est qu'il y a plus de valeurs dans la seconde moitié (ou dernier quartile, ou autre) supérieures à une constante que dans la première moitié (premier quartile, etc.). On peut aussi imaginer que chaque point successif doit être égal à, ou plus grand, que les points précédents. Et il y a une foule d'autres interprétations.

Ainsi, la définition que vous choisissez n'a aucune importance, sinon qu'elle doit être cohérente avec les décisions à prendre relatives aux données : une fois la définition adoptée, tout ce qui reste à faire est de vérifier. La tendance sera ou ne sera pas ; le critère validant la définition ou non. C'est tout.

Le modèle ne représente pas les données

A présent voyez la ligne bleue. Deux courbes bleu clair l'accompagnent. D'où sortent-elles donc ? La ligne bleue, nous le savons, est une fiction. Elle est ce qui n'a pas eu lieu. Les croix par contre sont ce qui s'est produit. La ligne bleue est un "lissage", dans notre cas, une régression linéaire. Son but est de remplacer les données avec quelque chose qui n'est pas les données. Pourquoi ? Eh bien, cette chose-qui-ne-s'est-pas-produite peut être alors exprimée dans un langage statistique, ici une grammaire de l'obfuscation [NdT : hobby de programmeur consistant à rendre volontairement un code informatique illisible].

Nous arriverons aux courbes bleues clair, mais d'abord examinons le titre des courbes : on nous annonce "Tendance: 0,116 +/- 0.137 °C /décennie 2σ ". Cela semble indiquer que l'auteur s'est décidé sur une – pas la – définition d'une tendance, et a calculé sa valeur. Cette définition est la valeur du paramètre dans une régression linéaire simple avec un paramètre comme «constante de régression», un autre paramètre est attaché au temps comme une valeur croissant linéairement, et un troisième pour "l'écart-type" (le σ). Le paramètre attaché à temps est appelé "la tendance" (peu importe que cette tendance change en fonction des points de départ et points d'arrêt choisis, et que les bons choix font de belles histoires).

C'est là que ça devient vraiment retors. Si telle est la définition fonctionnelle de la tendance, alors sa valeur est 0,116 (sauf erreur de calcul). Il n'y a pas besoin du gadget "+/- 0,137". Soit la tendance est de 0,116 soit elle ne l'est pas. Que pourraient bien ajouter ces barres d'erreur avec des plus et des moins ? Elles n'ont pas plus de signification physique que la ligne bleue. Comme nous l'avons constaté, les données sont ce qui s'est passé, il ne peut donc y avoir de l'incertitude dans ce qui est arrivé aux données. Ces barres d'erreur ne sont que persiflage dans ce contexte.

Tout comme ces courbes bleu clair qui n'indiquent rien du tout. La ligne droite bleue étant non avenue comme ces cousines bleues clair, elles n'informent rien de plus que les données.. Les données parlent d'elles-mêmes.

L'auteur semble cependant avoir pris conscience de cela puisqu'il évoque des "intervalles de confiance".

N'ayez aucune confiance dans les intervalles de confiance

(Remarque : il est extrêmement rare que les gens comprennent le sens d'un intervalle de confiance correctement. Le "fréquentiste" devient instantanément "bayésien" [NdT : deux chapelles de statisticiens] lors d'une interprétation desdits intervalles. Si cette remarque ne vous parle pas, jetez un coup d'oeil à ceci, personnellement je vais adopter l'interprétation bayésienne pour la suite).

Les courbes bleues clair et leurs "plus-ou-moins" ci-dessus sont en rapport avec des intervalles de confiance. L'auteur, comme la plupart des auteurs, les comprend mal. Il annonce :

Vous voyez une tendance au réchauffement (ligne bleue) da 0.116°C par décennie, de sorte que l'affirmation selon laquelle il n'y a pas eu de réchauffement est erroné. Mais le réchauffement est-il significatif ? Les intervalles de confiance sur la tendance (+/- 0,137) suggèrent que non – ils semblent suggérer que la tendance des températures pourrait avoir été jusqu'à 0,25 °C, ou nulle, voir légèrement négative. Ainsi sommes-nous certain qu'il y ait une tendance au réchauffement ?
Conclure par la négative serait une erreur – ce serait tout simplement une mauvaise compréhension de la signification des intervalles de confiance. Ils ne sont pas des intervalles de confiance quant à savoir si un réchauffement a eu lieu – il a certainement eu lieu. Ces intervalles de confiance n'ont rien à voir avec les incertitudes de mesure, qui sont beaucoup plus petites [Sic Ndt : l'incertitude chez Hadcrut est officiellement de 0,1°C et probablement, je l'espère, encore plus grande avec la version "hybride" qui extrapole les données de l'arctique].
Plutôt, ces intervalles de confiance se réfèrent à la confiance avec laquelle vous pouvez rejeter l'hypothèse nulle que la tendance au réchauffement observée est seulement due à la variabilité aléatoire (où toute la variance au-delà de la tendance linéaire est traitée comme de la variabilité aléatoire). Ainsi, les intervalles de confiance (et les revendications de la signification statistique) ne nous disent pas si un vrai réchauffement a eu lieu, plutôt elles nous disent que le réchauffement qui a eu lieu est en dehors de ce qui serait arrivé par hasard.

Horrible confusion
D'abord, "significatif" n'a aucun rapport avec la réalité. Si la température, par exemple, avait augmenté de (disons) 20 degrés, cela aurait été significatif en bon français. Il aurait fait chaud ! Le terme "significatif" en statistique n'est pas le même que celui du langage courant. En particulier, beaucoup de choses qui sont statistiquement "significatives" sont en réalité triviales ou négligeables. La significativité statistique est ceci : qu'un certain paramètre dans le modèle, lorsque la variable d'entrée dans une fonction ad hoc est égalisée à une consigne, produit une p-valeur inférieure au nombre magique. La significativité repose donc sur deux choses (1) Une statistique [NdT : une méthode], dont beaucoup sont possibles pour ce modèle, et (2) un modèle. Deux statistiques dans le même modèle peuvent produire une "significativité" et une "non-significativité", comme on peut simplement échanger les modèles.

Ici, l'auteur a décidé qu'une tendance de régression linéaire était le modèle adéquat. Comment le sait-il ? Réponse : il ne sait pas. Le seul moyen de savoir si ce modèle est bon a quoi que ce soit est de l'utiliser pour prévoir les valeurs postérieures à 2014 et ensuite voir si ce modèle est "habile" ([Ndt "skill"] c'est un terme formel que je ne vais pas définir ici). Pour prouver qu'il bricole et non applique un modèle issu de la raison, regardez dans son article, où il applique différents modèles avec des dates différentes de départ, qui tous donnent différentes lignes bleues. Lequel est correct ? Peut-être aucun.

Deuxièmement, l'auteur dit que la tendance "était certainement" dans les données. Cela est vrai pour sa définition d'une tendance (voir l'article "Pays-Bas" [NdT : netherland] à nouveau). Ce ne l'est pas pour d'autres définitions. Mais l'auteur n'avait pas besoin de tests statistiques pour montrer que sa version d'une tendance tenait la route.

Troisièmement, l'erreur réelle de l'auteur est de ne pas comprendre que des modèles statistiques n'ont rien à voir avec les causes. Il a affirmé que son test était nécessaire pour exclure si les données ont été causées par (ou "en raison de") la "variabilité aléatoire". Cette expression est absurde, n'a littéralement aucun sens. Le hasard, comme je l'ai dit des milliers de fois, ne peut pas provoquer quoi que ce soit. Au lieu de cela, quelque chose a causé chaque donnée de température à prendre la valeur qu'elle a prise.

Je vous suggère d'approfondir vos réflexions sur ce sujet. Pour vous prouver à quel point la notion de l'auteur est bizarre : il a dessiné une ligne droite sur les données et a demandé si "la variabilité aléatoire" était la cause de la variation de la température. Oui, elle l'a fait, dit son test statistique : son test n'a pas atteint la signification statistique. Même l'auteur dit de la ligne bleue que c'est une chimère (il ne l'a pas l'effacé, cependant). Il nous demande d'admettre que rien n'a causé la variation de la température, parce que le hasard n'est pas une chose physique.

Maintenant supposons qu'un autre modèle, ou une autre analyse statistique à l'intérieur de son modèle, aurait produit une minuscule valeur p, qui a rejeté "l'hypothèse nulle" que rien n'a provoqué les variations des données (comme il l'a fait dans sa Fig. 1). Soit, supposons que ce fut le cas. Qu'est-ce donc qui est à l'origine des données si ce n'est pas la "variabilité aléatoire" ? Le modèle statistique lui-même ne pouvait pas le faire. La ligne droite ne l'a pas fait.
Les forces physiques l'ont fait. Quelqu'un croit-il quelque part que les forces physiques vont pousser les données à augmenter précisément au même rythme chaque années, comme dans une ligne droite ? Réponse : non, c'est bizarre.

Ainsi, significativité ou non, le modèle statistique est inutile aux fins pour lesquelles l'auteur l'utilise. Son seul intérêt est la prévision de nouvelles données. Le modèle dit alors, et seulement : "D'après moi, voici l'incertitude proposée pour les données futures". Nous pouvons alors vérifier sa pertinence.

Si l'auteur croit dans sa création, je l'invite à mettre son argent là où son modèle doit le mener. Des produits à terme reflétant les variations de la température sont côtés sur le Chicago Mercantile Exchange [NdT, Le CME s'occupe des matières premières agricole et on peut "s'assurer" contre le mauvais temps], il peut faire fortune si ça marche.

Mais avant de se lancer, il va falloir fournir un peu plus de travail. Ces "lacunes dans les données" sont-elles toujours dans un coin de votre mémoire ?

Attention aux lacunes

Supposons que la température moyenne globale (TMG) soit définie comme "La moyenne numérique des valeurs moyennes annuelles à des emplacements A, B, …, et Z". Ceci est compréhensible et défendable, au moins mathématiquement. Que cela ait une quelconque utilité pour tout décideur est une question à laquelle je ne répondrai pas maintenant, sauf pour dire : pas beaucoup.

Tant que les emplacements A-Z, et la manière avec laquelle les températures ont été calculées à chaque emplacement, restent constantes, alors rien de ce qui a été dit ci-dessus ne doit être modifié d'un iota. Mais, et ceci est un grand mais, si ces emplacements ou les méthodes de mesures ont changé, nous devrons nécessairement devenir moins catégoriques. Ce «nécessairement» est incontournable, car les [méta-] données HadCRUT4 ne sont pas constantes : les emplacements changent comme le font la manière dont les mesures sont prises (l'algorithme utilisé pour produire les mesures a changé, entres autres).

Par exemple, supposons que l'un des emplacements (par exemple, D) soit abandonné cette année. Cela rend toute comparaison avec la TMG cette année avec les années précédentes impossible. Ce serait comparer choux et carottes. C'est comme si, bien que d'une manière plus petite, nous disions que l'année dernière la GMT utilisait des endroits comme Cleveland et Vera Cruz et cette année seulement Vera Cruz [NdT : on peut remplacer Cleveland et Vera Cruz par Lille et Marseille pour se faire une idée]. Hé. On n'a jamais dit combien d'emplacements nous devions avoir, non?

Et bien, nous pourrions estimer ce que la température était en D avant que nous formions notre TMG. C'est acceptable. Mais, et c'est ce qui fait l'importance de ce mais, nous devons faire avancer partout l'incertitude qui accompagne cette proposition. Nous ne pouvons plus dire que la TMG de cette année est X, il faut dire qu'elle est de X +/- Y, où Y est une question épineuse, le chiffre sur lequel la plupart des auteurs se trompent.

Estimer la température à l'emplacement D nécessite un modèle statistique. Ce modèle sera une fonction mathématique fantaisiste avec un paramètre (ou des paramètres) associé avec la température. Nous ne connaissons pas la valeur de ce paramètre, mais il existe des techniques pour l'estimer. Nous pouvons même former un intervalle de confiance autour de cette estimation. Et puis, nous pouvons prendre cette proposition et l'intervalle de confiance et l'utiliser comme proxy pour D, et ensuite calculer la TMG, qui est maintenant X +/- Y.

La musique vous semble harmonieuse ? Il ne vaudrait mieux pas, parce que c'est une dissonnance. Qui dans le monde se soucie de certains paramètres imaginaires ! Nous voulions une estimation de la température en D, pas un paramètre douteux ! Cela signifie que nous devons construire des intervalles de confiance prédictifs (vraiment, crédibles) autour de la conjecture en D, qui sont aussi nécessairement plus grands que l'intervalle autour de la proposition du paramètre. Ce plus grand intervalle peut être introduit dans la formule de la TMG, qui va produire cette année (encore) un X +/- Y.

Après tout, les croix ne sont pas les données

Cela signifie que ces croix, en raison de la façon dont les données hybrides HadCRUT4 ont été cousues ensemble, ne sont pas les données que nous pensions qu'elles étaient. Au lieu de croix, nous devrions songer à des intervalles flous. Nous ne sommes même pas certain de l'exactitude de la valeur de la TMG pour une année donnée. Mettre en avant cette incertitude, est ou devrait être obligatoire, cela créerait une image floue et imprécise, mais au moins elle serait honnête.

Je l'ai dit ci-dessus, l'incertitude que nous avons dans la TMG doit être rappelée systématiquement je le pense sincèrement. L'auteur de la droite de régression bleue ne peut donc pas être sûr que la valeur de sa tendance est vraiment réelle. Les intervalles de confiance de l'auteur, qui sont erronés de toutes façons, ne sont pas fondés sur l'incertitude vraie et complète. Et cela signifie que son modèle, si il choisit de l'utiliser pour prédire de nouvelles données, aura des intervalles de prédiction qui sont trop étroits.

Et cela signifie qu'il est davantage susceptible de perdre son argent, argent dont je suis convaincu qu'il investira dans des contrats à terme sur les températures. (James Hansen a t-il fait fortune avec ceux-ci, Gav? [NdT, l'auteur de l'article est en fait "Stephan"]).

Ego te absolvo

Pourquoi un tel acharnement sur cet article ? Tout simplement parce que c'est celui, parmi tant d'autres, qui accumule les mêmes erreurs statistiques. Le fait est Mesdames et Messieurs que des statistiques dévoyées ont tellement déformé la réalité des faits, que nos chers décideurs ont détourné cet outil scientifique en un outil politique.

Le responsable de ces dérives ubuesques est – tenez vous bien – moi même ! Oui, moi ! Moi, ainsi que tous les autres statisticiens professionnels, responsables de tout ce que nous venons de voir, tout ce qui mine la science. Par contre, je ne peux pas accuser "Real Climate". L'auteur pensait bien faire. Mea maximums culpa. Qu'il soit absous.

Nos manuels sont mauvais ; ces erreurs que vous voyez partout y naissent et grandissent sans contrôle. Les professeurs, trop occupés à démontrer je ne sais quel théorème mathématique oublient qu'ils sont aussi enseignants; et quand on leur pose la question, ils répondent en jargonnant. Leur erreur la plus flagrante est de laisser partir des étudiants qui ont assimilé de travers la notion de causalité. C'est alors que nous pouvons lire des affirmations qui devrait faire rougir un statisticien comme "par l'effet du hasard" ou "le résultat n'est pas statistiquement significatif donc A n'est pas relié à B".

Quant à la manière de sortir de ce bourbier, j'accepte toutes les suggestions.

Share on FacebookTweet about this on TwitterEmail this to someone

28 Comments     Poster votre commentaire »

1.  Nicias | 1/08/2015 @ 7:10 Répondre à ce commentaire

C'était un peu long à traduire (merci Murps), mais je pense qu'il n'oublie rien.

Il faut vraiment faire cet exercice. Regarder les données sans tracer inconsciemment une droite qui nous force à nous projeter dans l'avenir, et ce poser la question "est que ça a vraiment augmenté ?" (ou baissé pour la banquise). C'est différent de "est ce que cela va augmenter ?".

Puis bien sur, il faut des barres d'erreur.

2.  Bernnard | 1/08/2015 @ 8:21 Répondre à ce commentaire

Exiger des courbes (souvent des droites) de tendance pour n’importe quoi est devenu une caractéristique de notre époque. On prévoit même des inflexions (comme le chômage), ce qui dans le cas de droite de tendance s’appelle une cassure.

statistiques dévoyées ont tellement déformé la réalité des faits, que nos chers décideurs ont détourné cet outil scientifique en un outil politique.

Le fait est que les statistiques ont gagné leur médaille avec la justesse des sondages politiques, tant est si bien, que quand un statisticien présente une courbe de tendance qui prévoit un résultat futuriste il est écouté comme un cartomancien de notre temps.
C’est un outil ( le tracé des droites de tendance) qu’il faut utiliser mais en étant conscient des limites ainsi que de leur significations sans chercher à leur en faire en dire plus que « la tendance ».
En économie , mais c’est transposable, une tendance est un mouvement d’ensemble, orientation qui se dégage de l’examen, de la comparaison d’un certain nombre de faits et de leur évolution, sur une période donnée, [définition du Centre de Ressources Textuelles et Lexicales] sans plus, et surtout il ne faut pas aller plus loin que l’orientation.

3.  Murps | 1/08/2015 @ 10:10 Répondre à ce commentaire

D’une manière générale (et au delà des inévitables erreurs de traduction ou d’interprétation), l’auteur n’y va pas avec le dos de la cuillère.

En fait c’est toute la climatologie qui fonctionne avec ces analyses statistiques fantaisistes.
De plus leurs présentation revêt un côté faussement rigoureux, technique et jargonnant.
Technique et jargonnant, ça l’est sans aucun doute, ça cache d’ailleurs la pauvreté du concept et l’absence de maîtrise de l’outil.
Le fait est que la formation en stats chez les scientifiques non statisticiens est assez sommaire, au moins en france mais je pense que c’est un peu partout comme cela.
On ne peut pas être grand spécialiste de physiologie végétale ET spécialiste en statistiques ou grand spécialiste de chimie des solutions ET spécialiste en statistiques, etc…

Or si on regarde d’un peu près, TOUTE la climatologie est basée sur des compilations de données, sur leur présentation statistique et leur modélisation numérique.
Jamais d’expérience, jamais de prévisions autres que foireuses.

4.  lemiere jacques | 1/08/2015 @ 10:12 Répondre à ce commentaire

pas d’importance, en climatologique il y a toujours ce moment magique où après avoir rappelé tous les problèmes, on les oublie et on « avance »..

5.  Nicias | 1/08/2015 @ 10:41 Répondre à ce commentaire

lemiere jacques (#4),

lol

Murps (#3),

l’auteur n’y va pas avec le dos de la cuillère.

Bah franchement il faut sortir la tronçonneuse.

Le blog du « climat réel » nous dit que la température augmente, au rythme de 0,116°C par décennie.
Je prend ma calculette, sur 15 ans, la température aurait augmenté de 0,174°C; Si j’en crois le graphique et compare la dernière croix à la première, c’est 10 fois moins. Si je lisse un peu la courbe (la courbe rouge n’est pas si vilaine que Briggs le dit), cela ne change pas grand chose.
Cette augmentation de la température de 0,116°C par décennie est une pure fiction.

Briggs a raison, la droite de régression sert à prédire. Et si jamais vous vous amusez à faire une prédiction la dessus, alors ne perdez pas de temps, mettez toute votre attention sur pourquoi cela ne va pas se passer comme la droite le prédit.

6.  Murps | 1/08/2015 @ 12:02 Répondre à ce commentaire

Je crois que c’est surtout the fritz qui semble contrarié quand je dis que ce genre de courbe ne vaut pas un rond.
Le pire c’est quand on les relie avec une courbe de CO2 moyen pareillement traitée. Et hop ! c’est corrélé ! mais attention hein, corrélation n’est pas causalité ! Quoiqu’on est certain à 95 % qu’il y a ait causalité finalement.

C’est cool comme ça, car si les 5 % qui restent ont raison, on pourra toujours dire que c’est la faute à pas de chance.

M’est avis qu’il y a 100 % de chance que les 95 % soient faux et les 5 % justes.
Vous me suivez ?

7.  phi | 1/08/2015 @ 12:06 Répondre à ce commentaire

Par pur esprit de contradiction, je m’étalerai sur quatre points :

1. Contre les droites de régression

Les droites de régression, c’est la linéarisation et sans linéarisation, pratiquement pas d’application de la science. Le problème n’est pas tant dans la régression linéaire en soi que dans l’oubli, presque systématique en climatologie, de la notion de domaine de validité.

2. Sur le rôle de la statistique

La statistique ne fait pas de prédictions, elle aide seulement les personnes avisées à améliorer les leurs.

3. Les marges d’erreurs

Inutile de réclamer systématiquement avec fifres et tambours l’ajout de marges d’erreurs dans les graphiques des climatologues. Les valeurs centrales, beaucoup plus faciles à définir, à calculer et à interpréter sont déjà en général épouvantablement mal maîtrisées.

4. Moyennes mobiles et lissages

Une moyenne mobile peut parfaitement mieux correspondre à une réalité physique qu’un nuage de points dans la mesure où la plupart des phénomènes naturels sont inertiels. Le problème est qu’une moyenne mobile n’est pas définie aux extrémités et les climatologues ont la fâcheuse tendance à inventer les tronçons stratégiques manquants selon leurs propres goûts.

8.  the fritz | 1/08/2015 @ 12:53 Répondre à ce commentaire

Murps (#6),
Qu’Est-ce que j’ai dit ?

9.  Murps | 1/08/2015 @ 14:03 Répondre à ce commentaire

the fritz (#8), là, rien. C’est juste un vieux fil ou on s’était un peu empaillé sur des courbes comme celles dont parle Briggs. Je crois que c’était à propos du thermomètre isotopique…

Mais la « polémique » était restée courtoise, comme d’habitude.

10.  CK66 | 1/08/2015 @ 18:39 Répondre à ce commentaire

Pour mieux voir le graphique , j’ai fait un pointage en noir .

11.  Nicias | 1/08/2015 @ 20:41 Répondre à ce commentaire

CK66 (#10),

Merci, je vais paraphraser Ben :
on sait très bien en réalité que la TMG est assez stable au fil du temps, hors une légère baisse en 1999-2000 lors d’un la nina exceptionnel et résorbée depuis.

12.  amike | 1/08/2015 @ 22:25 Répondre à ce commentaire

C’est une plaisanterie ce graphique :
– un la nina suit un el nino
– l’auteur du diagramme le sait bien, mais il veut faire une démonstration piège en prenant comme base l’année habituellement citée comme le point de départ du « hiatus »
– 1998 est l’année médiane d’el nino, en choisissant cette année, on coupe en 2 les points de température d’el nino. Il aurait fallu choisir 1996 pour compenser la nina.

Encore du cherry picking.

On peut aussi remarquer que dans l’article original de RealClimate, l’auteur s’abstient de comparer les 2 périodes autour d’el nino (grosso modo 20ans). Le résultat auraient été significatif, puisque quel que soient leurs erreurs avec la réalité, ils sont identiques.

13.  lemiere jacques | 3/08/2015 @ 9:07 Répondre à ce commentaire

de façon générale, on peut se fier aux stat pour sortir les caractéristiques un signal de forme  » connue » à l’inverse c’est un outil d’interprétation très faible sinon nul de la forme d’un signal.

14.  lemiere jacques | 3/08/2015 @ 9:09 Répondre à ce commentaire

lemiere jacques (#13), c’est simplement un choix de representation des données

15.  Murps | 3/08/2015 @ 22:29 Répondre à ce commentaire

lemiere jacques (#14), si j’ai bien compris, c’est d’ailleurs le sens de l’article…

16.  lemiere jacques | 3/08/2015 @ 23:01 Répondre à ce commentaire

Murps (#15), oui mais c’est plus court

18.  Nicias | 4/08/2015 @ 10:49 Répondre à ce commentaire

lemiere jacques (#14), lemiere jacques (#16),

Autrement dit on peu appliquer n’importe quelle transformation mathématique, c’est toujours représenter les données. Vous voulez quoi, que ça monte, que ça baisse, un éléphant ?
On a même pas besoin de données pour faire un dessin, un modèle statistique suffit.

C’est pas plus court, c’est un gag qui n’a rien à voir avec l’article.

19.  Nicias | 4/08/2015 @ 10:58 Répondre à ce commentaire

lemiere jacques (#17),

Mais là, une droite de régression peut se justifier. Elle sert à extrapoler en dehors de l’échantillon, c’est à dire à prédire.

5ur la méthode utilisée pour produire le graphique, bof…

20.  lemiere jacques | 4/08/2015 @ 18:15 Répondre à ce commentaire

Nicias (#19), non je ne crois pas, la prévision repose avant tout sur une hypothèse qui est, en général, la présomption de l’existence de causalité dans le bazar qui conduit à penser que ce qui va se passer ensuite est similaire avec ce qui s’est passé avant… et là ça se corse, le choix est libre si on pas d’hypothèse physique qui réduit les choix….

21.  Nicias | 4/08/2015 @ 19:04 Répondre à ce commentaire

lemiere jacques (#20),

Il y a ici (dans la courbe de Real Climate) une relation de causalité implicite qui est que le CO2 augmente avec le temps et donc que la température augmente avec le temps.
Dans le graphique de Eschenbach, le lien de causalité direct est fait entre le prix de l’électricité et les MW d’EnR installés.
Et on a des hypothèses physiques ou économiques pour « réduire les choix » (proposer des modèles plus sérieux ?).

22.  de Rouvex | 4/08/2015 @ 23:13 Répondre à ce commentaire

Bernnard (#2),

il est écouté comme un cartomancien de notre temps.

On oublie en général que la prédiction de l’avenir est interdite par la loi !!

23.  papijo | 16/08/2015 @ 10:15 Répondre à ce commentaire

Juste pour contredire l’article ci-dessus, une bien belle droite de régression sur le blog de Steven Goddard:

Les « ajustements » de température à posteriori (pour les USA) sont fortement corrélés avec le taux de CO2. Il y a certainement une explication à ce curieux phénomène !

24.  Nicias | 16/08/2015 @ 12:42 Répondre à ce commentaire

papijo (#23),

Je ne comprend pas comment il arrive à ce résultat. De son premier graphique on voit bien que la très grosse majorité des ajustements à lieu avant les années 90 (ce qui correspond à une réalité connue : le passage d’un type de thermomètre à un autre dans à partir des années 70).

Regardez bien le graphique, au début l’écart est de 1°F. Dans les années 90 il est beaucoup plus petit (beaucoup moins que la moitié de 1°F).
Dans sont deuxième graphique l’ajustement est de 06°F de 1920 à 1990, puis à nouveau de 0,6°F de 1990 à aujourd’hui. C’est clairement impossible. Ce deuxième graphique est une arnaque et conséquemment le graphique que vous reproduisez aussi.

25.  amike | 16/08/2015 @ 12:47 Répondre à ce commentaire

papijo (#23), La température n’est pas le problème. Le problème, c’est cette courbe du co2 qui explose ! Si au contraire cette dernière avait un peu flechie, il est fort probable que les relevés terrestres auraient été abandonnés, et une nouvelle affirmation aurait été que « il faut poursuivre les efforts qui aboutissent à cette stabilisation des TM, qui valident nos modèles ! « 

26.  amike | 16/08/2015 @ 12:47 Répondre à ce commentaire

papijo (#23), La température n’est pas le problème. Le problème, c’est cette courbe du co2 qui explose ! Si au contraire cette dernière avait un peu flechie, il est fort probable que les relevés terrestres auraient été abandonnés, et une nouvelle affirmation aurait été que « il faut poursuivre les efforts qui aboutissent à cette stabilisation des TM, qui valident nos modèles ! « 

27.  papijo | 16/08/2015 @ 13:46 Répondre à ce commentaire

Nicias (#24),
J’avoue ne pas comprendre votre commentaire. D’après l’article, la correction est de -1°F de 1920 à 1955 (environ) puis évolue graduellement jusqu’à -0,4 en 1990, et continue ainsi à 0°F en 2005 et jusqu’à +0,3 en 2015. Je ne vois pas à quel « retour à 0.6°F » vous faites allusion. Le passage à « zéro » vers 2005 (sur les 2 premiers graphiques) correspond à un taux de CO2 de 380 ppm, ce qui est conforme aux relevés à Mauna Loa.
Je reproduis ci-dessous le 1er graphique:

28.  jdrien | 16/08/2015 @ 13:50 Répondre à ce commentaire

Nicias (#24),

Dans sont deuxième graphique l’ajustement est de 06°F de 1920 à 1990, puis à nouveau de 0,6°F de 1990 à aujourd’hui.

bizarre, je n’arrive pas à voir ce que vous dites sur le 2ème graphique du lien donné par papijo en #23. Parle-t-on du même ?