
Zitat von
Wolfgang2
Hallo Egbert,
ich erinnere mich nur dunkel an die Diskussion über das, was in die Berechnung nicht eingeht, glaube aber zu wissen, dass 20:0 oder 19:1 - Überlegenheiten dazu gehören.
Hallo Leute,
das ist ein interessantes Thema, wenngleich hier wohl ein bißchen off-topic

Ich mache trotzdem weiter!

Wenn's zu sehr ausufert, müssen wir den Kram vielleicht in einen anderen Thread verschieben.
Ich glaube mich nämlich ebenfalls dunkel daran zu erinnern, daß Micha mal so etwas erwähnt hat, daß extreme Vergleiche rausgenommen werden. Und auch mir ist so etwas im Grunde suspekt, weil die Statistik das theoretisch wieder einrenken sollte.
Aber spätestens, wenn man die Dokumentation zu
Bayeselo liest, kommt man darauf, daß es sich hier vielleicht nur um ein Problem des in unseren Listen verwendeten EloStat-Algorithmus handeln könnte.
Mir hat die Sache keine Ruhe gelassen, und ich habe mal, basierend auf den Szenarien aus dieser Diskussion, eine Test-PGN-Datei gemacht (zu finden im Anhang). Darin zu finden ist ein "Player X", von dem ich annehme, der hätte 2180 Elo. Dieser Spieler spielt 3 Matches a 20 Partien: Einmal 19:1 gegen einen 2000-Spieler (zu hoch), einmal 11:9 gegen 2145 (korrekt) und einmal 9:11 gegen 2215 (korrekt).
Mit EloStat ergibt sich daraus folgende "Liste":
Code:
Program Elo + - Games Score Av.Op. Draws
1 Player 2215 : 2316 80 31 20 55.0 % 2281 90.0 %
2 Player X : 2250 54 48 60 65.0 % 2142 63.3 %
3 Player 2145 : 2246 31 80 20 45.0 % 2281 90.0 %
4 Player 2000 : 1769 222 88 20 5.0 % 2281 10.0 %
Und hier ist die Auswertung von Bayeselo:
Code:
Rank Name Elo + - games score oppo. draws
1 Player 2215 2295 79 78 20 55% 2273 90%
2 Player X 2273 52 51 60 65% 2149 63%
3 Player 2145 2252 78 79 20 45% 2273 90%
4 Player 2000 1900 118 182 20 5% 2273 10%
Beide Male war als Offset 2180 eingestellt, aber die absoluten Ratings sind hier wohl eher nebensächlich.
Man sieht, daß mit Bayeselo die Spreizung nicht so groß ist. Beide Programme "erkennen" die Problematik des 19:1-Ergebnisses (allerdings eher als schlechtes Rating für den Verlierer), wobei EloStat das Rating des Verlierers gnadenlos runterzieht und in der Fehlerspanne zu erkennen gibt, daß das Programm vermutlich besser ist; Bayeselo hat eine höhere Zahl, aber dafür wird ein nach unten größeres Fehlerfenster geöffnet.
Da wir in der Praxis oft gar nicht in die offizielle Liste mit den Fehlerspannen, sondern nur in die Wiki-Liste gucken, ist mir persönlich der Bayeselo-Ansatz etwas sympathischer. Ob Micha wohl ganz auf das Ausfiltern der Ausreißer-Ergebnisse verzichten könnte, wenn man die Listen mit diesem Tool berechnen würde? Dazu brauchen wir vermutlich noch mehr Untersuchungen...
Viele Grüße,
Dirk
Edit: In diesem Fall fällt bei der EloStat-Auswertung auch negativ auf, daß der "Player X" nicht in der Mitte zwischen 2215 und 2145 liegt. Das 19:1-Ergebnis hat ihm also sogar geschadet! Das paßt bei Bayeselo besser.
Und nicht vergessen: Die "Ratings" für die "bekannten" Spieler sind dem Auswerteprogramm hier natürlich nicht bekannt; das Auswerteprogramm kennt natürlich nur die vorliegenden 60 Partien.