Einzelnen Beitrag anzeigen
  #234  
Alt 08.12.2015, 19:54
Benutzerbild von Supergrobi
Supergrobi Supergrobi ist offline
Revelation
 
Registriert seit: 12.07.2004
Ort: Hannover
Alter: 53
Land:
Beiträge: 702
Abgegebene Danke: 277
Erhielt 438 Danke für 112 Beiträge
Aktivitäten Langlebigkeit
0/20 20/20
Heute Beiträge
0/3 ssssss702
AW: Revelation II Begrüßungsturnier

 Zitat von Wolfgang2 Beitrag anzeigen
Hallo Egbert,
ich erinnere mich nur dunkel an die Diskussion über das, was in die Berechnung nicht eingeht, glaube aber zu wissen, dass 20:0 oder 19:1 - Überlegenheiten dazu gehören.
Hallo Leute,

das ist ein interessantes Thema, wenngleich hier wohl ein bißchen off-topic Ich mache trotzdem weiter! Wenn's zu sehr ausufert, müssen wir den Kram vielleicht in einen anderen Thread verschieben.

Ich glaube mich nämlich ebenfalls dunkel daran zu erinnern, daß Micha mal so etwas erwähnt hat, daß extreme Vergleiche rausgenommen werden. Und auch mir ist so etwas im Grunde suspekt, weil die Statistik das theoretisch wieder einrenken sollte.

Aber spätestens, wenn man die Dokumentation zu Bayeselo liest, kommt man darauf, daß es sich hier vielleicht nur um ein Problem des in unseren Listen verwendeten EloStat-Algorithmus handeln könnte.

Mir hat die Sache keine Ruhe gelassen, und ich habe mal, basierend auf den Szenarien aus dieser Diskussion, eine Test-PGN-Datei gemacht (zu finden im Anhang). Darin zu finden ist ein "Player X", von dem ich annehme, der hätte 2180 Elo. Dieser Spieler spielt 3 Matches a 20 Partien: Einmal 19:1 gegen einen 2000-Spieler (zu hoch), einmal 11:9 gegen 2145 (korrekt) und einmal 9:11 gegen 2215 (korrekt).

Mit EloStat ergibt sich daraus folgende "Liste":
Code:
    
Program                          Elo    +   -   Games   Score   Av.Op.  Draws

  1 Player 2215                    : 2316   80  31    20    55.0 %   2281   90.0 %
  2 Player X                       : 2250   54  48    60    65.0 %   2142   63.3 %
  3 Player 2145                    : 2246   31  80    20    45.0 %   2281   90.0 %
  4 Player 2000                    : 1769  222  88    20     5.0 %   2281   10.0 %
Und hier ist die Auswertung von Bayeselo:
Code:
Rank Name          Elo    +    - games score oppo. draws 
   1 Player 2215  2295   79   78    20   55%  2273   90% 
   2 Player X     2273   52   51    60   65%  2149   63% 
   3 Player 2145  2252   78   79    20   45%  2273   90% 
   4 Player 2000  1900  118  182    20    5%  2273   10%
Beide Male war als Offset 2180 eingestellt, aber die absoluten Ratings sind hier wohl eher nebensächlich.

Man sieht, daß mit Bayeselo die Spreizung nicht so groß ist. Beide Programme "erkennen" die Problematik des 19:1-Ergebnisses (allerdings eher als schlechtes Rating für den Verlierer), wobei EloStat das Rating des Verlierers gnadenlos runterzieht und in der Fehlerspanne zu erkennen gibt, daß das Programm vermutlich besser ist; Bayeselo hat eine höhere Zahl, aber dafür wird ein nach unten größeres Fehlerfenster geöffnet.

Da wir in der Praxis oft gar nicht in die offizielle Liste mit den Fehlerspannen, sondern nur in die Wiki-Liste gucken, ist mir persönlich der Bayeselo-Ansatz etwas sympathischer. Ob Micha wohl ganz auf das Ausfiltern der Ausreißer-Ergebnisse verzichten könnte, wenn man die Listen mit diesem Tool berechnen würde? Dazu brauchen wir vermutlich noch mehr Untersuchungen...

Viele Grüße,
Dirk

Edit: In diesem Fall fällt bei der EloStat-Auswertung auch negativ auf, daß der "Player X" nicht in der Mitte zwischen 2215 und 2145 liegt. Das 19:1-Ergebnis hat ihm also sogar geschadet! Das paßt bei Bayeselo besser.

Und nicht vergessen: Die "Ratings" für die "bekannten" Spieler sind dem Auswerteprogramm hier natürlich nicht bekannt; das Auswerteprogramm kennt natürlich nur die vorliegenden 60 Partien.
Angehängte Dateien
Dateityp: pgn elotest.pgn (7,2 KB, 41x aufgerufen)

Geändert von Supergrobi (08.12.2015 um 20:01 Uhr)
Mit Zitat antworten
Folgende 4 Benutzer sagen Danke zu Supergrobi für den nützlichen Beitrag:
Chessguru (11.12.2015), Egbert (08.12.2015), Solwac (09.12.2015), Wolfgang2 (09.12.2015)