Ciència

Pot un model estadístic predir amb exactitud el recompte de medalles olímpiques? | Ciència

Si algú us demanava predir el nombre de medalles que guanyarà cada país en els Jocs Olímpics d’aquest any, probablement provareu d’identificar els atletes afavorits en cada prova i, tot seguit, sumareu les victòries esperades de cada país per obtenir un resultat.

Tim i Dan Graettinger, els germans de la companyia de mineria de dades Discovery Corps, Inc. , tenen un enfocament bastant diferent. Ignoren completament els atletes.

En canvi, el seu model per als jocs de Sotxi es examina l'àrea geogràfica de cada país, el PIB per càpita, el valor total de les exportacions i la latitud per determinar quantes medalles guanyarà cada país. En cas que us ho pregunteu, prediu que els Estats Units sortiran al capdavant, amb 29 medalles en total.





Els Graettingers no són els primers a emprar aquest tipus d’enfocament basat en dades, de dalt a baix, per predir el recompte de medalles. Daniel Johnson , professor d'economia del Colorado College, va construir models similars per a les cinc olimpíades entre el 2000 i el 2008, aconseguint un 94% de precisió en la predicció del nombre de medalles de cada país, però no va crear un model per a Sotxi.

Dan i Tim són més nous en el joc. Dan, que normalment treballa en projectes de mineria de dades més convencionals, per exemple, predir els clients potencials d’una empresa, es va interessar per primera vegada en utilitzar models per predir competicions fa quatre anys, durant els Jocs Olímpics d’Hivern de Vancouver. 'Faig servir dades sobre el passat per predir el futur tot el temps', diu. 'Cada nit mostraven el recompte de medalles a la televisió i em vaig començar a preguntar si podíem predir-ho'.



Tot i que les actuacions dels atletes individuals poden variar de manera imprevisible, va raonar, podria haver-hi una relació general entre les característiques fonamentals d’un país (la seva mida, el clima i la quantitat de riquesa, per exemple) i el nombre de medalles que probablement es portaria a casa. Aquest tipus d’enfocament no seria capaç de dir quin competidor podria guanyar un esdeveniment determinat, però amb prou dades, podria predir amb precisió el recompte agregat de medalles de cada país.

Inicialment, ell i el seu germà es van posar a treballar desenvolupant un model preliminar per als jocs de Londres del 2012 . Per començar, van recopilar una àmplia gamma de diferents tipus de conjunts de dades, des de la geografia d’un país fins a la seva història, religió, riquesa i estructura política. Després, ho feien servir anàlisis de regressió i altres mètodes de comprovació de dades per veure quines variables tenien la relació més estreta amb les dades històriques de les medalles olímpiques.

oli de palma dolent per al medi ambient

Van trobar que, per als jocs d’estiu, un model que incorpora el producte interior brut, la població, la latitud i la llibertat econòmica global d’un país (mesurat pel Índex de la Fundació Heritage ) es va correlacionar millor amb el recompte de medalles de cada país per als dos Jocs Olímpics d’estiu anteriors (2004 i 2008). Però en aquest moment, el seu model preliminar només podia predir quins països guanyarien dues o més medalles, no el nombre de medalles per país.



Van decidir millorar-lo per als jocs de Sotxi, però no van poder confiar en el seu model anterior, perquè els països que tenen èxit a l'hivern difereixen molt de l'estiu. El seu nou model de Sotxi aborda el problema de predir el recompte de medalles en dos passos. Com que aproximadament el 90% dels països no han guanyat mai cap medalla dels Jocs Olímpics d’Hivern (cap atleta de l’Orient Mitjà, Sud-Amèrica, Àfrica o el Carib no ha guanyat mai), primer separa el deu% que és probable que guanyi almenys una, i després prediu quants cadascun guanyarà.

'Algunes tendències són gairebé el que s'esperava, ja que la població d'un país es fa més gran, hi ha més probabilitats que guanyi una medalla', diu Tim. 'Finalment, però, necessiteu una maquinària estadística més potent que pugui trencar moltes variables i classificar-les segons quines siguin les més predictives'.

Finalment, es van trobar amb algunes variables que separen amb precisió el noranta per cent dels països que no guanyen medalles del deu per cent que probablement guanyarà: inclouen la taxa de migració, el nombre de metges per càpita, la latitud, el producte interior brut i si el país tenia va guanyar una medalla en els jocs d'estiu anteriors (cap país havia guanyat mai una medalla d'hivern sense guanyar-ne l'estiu anterior, en part perquè el grup de guanyadors d'estiu és molt més gran que el d'hivern). En executar aquest model en els darrers dos Jocs Olímpics d’hivern, aquest model va determinar quines nacions es van endur una medalla amb un 96,5% de precisió.

Amb el 90% dels països eliminats, els Graettingers van utilitzar anàlisis de regressió similars per crear un model que predigués, retroactivament, quantes medalles guanyava cada país restant. La seva anàlisi va trobar que una llista lleugerament diferent de variables s’adaptava millor a les dades històriques de medalles. A continuació, es mostren aquestes variables i les prediccions dels jocs de Sotxi:

Imatge 4: Taula 2 de medalles predites: amb fronteres.png

Les prediccions del model per als jocs de Sotxi(Gràfic de cortesia Discovery Corps, Inc. )

Algunes de les variables que van resultar ser correlatives no són un gran xoc; és lògic que els països de latitud més alta funcionin millor en els esdeveniments jugats durant els jocs d’hivern, però algunes van ser més sorprenents.

'Vam pensar que la població, no la superfície terrestre, seria important', diu Dan. No saben per què l’àrea geogràfica acaba ajustant les dades històriques més de prop, però podria ser perquè alguns països d’alta població que no guanyen medalles d’hivern (com l’Índia i el Brasil) rebutgen les dades. En utilitzar la superfície terrestre, el model evita la influència excessiva d’aquests països, però encara manté una associació aproximada amb la població, ja que, en general, els països amb àrees més grans tenen una població més gran.

Per descomptat, el model no és perfecte, fins i tot per coincidir amb dades històriques. 'El nostre enfocament és l'enfocament de 30.000 peus. Hi ha variables que no podem tenir en compte ', diu Tim. Alguns països han superat repetidament les prediccions del model (inclosa Corea del Sud, que guanya una quantitat desproporcionada d’esdeveniments de patinatge de velocitat en pista curta), mentre que d’altres sempre tenen un rendiment inferior (com ara el Regne Unit, que sembla fer-ho molt millor en els esdeveniments estiuencs que s’esperava). potser perquè, malgrat la seva latitud, fa molta més pluja que neu).

A més, una excepció constant que han trobat a les prediccions del model és que el país amfitrió compta amb més medalles de les que no ho faria, basant-se simplement en les dades. Tant Itàlia (durant els jocs de Torí del 2006) com Canadà (durant els jocs de Vancouver del 2010) van superar el model, amb Canadà establint el seu rècord històric en guanyar 14 ors.

Tot i això, basant-se en el seu enfocament estadísticament rigorós, els Graettingers confien que, en general, el seu model predirà el recompte final de medalles amb un grau de precisió relativament alt.

Com es comparen les seves prediccions amb les de experts que utilitzen estratègies més convencionals ? Els experts no difereixen dràsticament, però sí que tenen uns quants països amb èxit tradicional (Noruega, Canadà, Rússia) que guanyen més medalles, juntament amb uns altres (Xina, Països Baixos, Austràlia) guanyant uns quants menys.

Fins ara, els Graettingers no han apostat per les seves prediccions, però tenen previst comparar la producció del seu model amb les probabilitats d'apostes just abans de començar els jocs. Si veuen discrepàncies que els agradaria explotar, podrien acabar posant els seus diners a la seva boca.





^