|
|
|
Elo Turnier Liste
Stand: Liste 2024 |
|
Übersicht
Nach langem Warten ist es endlich wieder soweit, eine neue
Turnierliste wurde berechnet. Wir haben im Internet gestöbert, selbst
gespielt,
unzählige Partien aus der Schachcomputer.info Community (und
aus aller Welt!) bekommen, Partien von Formularen abgetippt und
eingescannt, dafür allen einen herzlichen Dank!
Die Liste enthält jetzt insgesamt 18122 (+5220) dublettenfreie
Partien, gespielt von 189 (+32) Geräten. Es gelten
folgende Aufnahme- bzw. Bewertungskriterien:
1.
Ein Gerät muß mindestens 15 Partien gegen 1 in der Liste geführten Gegner
gespielt haben, um eine Wertungszahl zu erhalten. Es wird dann mit P für
„vorläufig“ bewertet (engl. prelimnary)
bezeichnet.
2. Ein Gerät muß mindestens 50 Partien gegen 2 der in der
Liste geführten Geräte
gespielt haben, damit es als vollwertig bewertet in die Liste
aufgenommen wird (Bezeichnung F,
engl. full).
3. Ein Gerät, das 150 Partien gegen 5 der in der
Liste geführten Geräte gespielt hat wird
als Referenzgerät bezeichnet (Bezeichnung R, engl. reference).
4.
Ein Gerät, das 300
Partien gegen 10 der in der Liste geführten Geräte
gespielt hat wird als Meistergerät bezeichnet (Bezeichnung M, engl. master).
An dieser
Stelle wollen wir nach so langer Pause auch noch einmal die Gelegenheit
ergreifen und die Entstehung bzw. Berechnung unserer Liste genauer
erläutern. Die erste Liste aus dem Jahre 2004 startete mit 30
Geräten und etwas mehr als 1200 Partien. Wir entschieden uns
damals für die Berechnung mit dem Programm ELO-Stat von Frank
Schubert (aktuell in der Version 1.3) und gegen eine Berechnung nach
FIDE. Dies deshalb, weil die ELO-Stat-Methodik schneller und
für Computer besser anzuwenden ist, da man für
letztere annehmen kann, dass – anders als beim gelegentlich
schwächelnden Menschen - sich deren Spielstärke mit
der Zeit nicht verändert.
Elo-Stat benötigt im Idealfall einen sogenannten
„Cluster“ aus Geräten, die vereinfacht
ausgedrückt, alle „untereinander
verbunden“ sind. Mit anderen Worten, zwischen allen
Geräten gibt es entweder einen direkten (ein Spiel
gegeneinander) oder einen indirekten Zusammenhang (Computer A hat gegen
Computer B gespielt aber nicht gegen Computer C; Computer B wiederum
hat aber gegen Computer C gespielt). Das Programm führt mit
einem fiktiven, durch
den Anwender festzulegenden Startwert eine Berechnung
durch und wiederholt diese so lange bis alle ELO-Werte konstant sind
(in der Mathematik nennt man das Iterationsverfahren). Heraus kommt
eine Liste, die in erster Linie den Spielstärkezusammenhang
der Geräte untereinander ausgibt, d. h. ein Gerät A
ist um x ELO-Punkte stärker als ein Gerät B.
Hier steckt dann auch die Problematik dieser Herangehensweise,
nämlich die Wahl des Startwertes, denn durch
willkürliches Setzen dieser Zahl durch den Anwender kann man im Prinzip jeden
ELO-Wert generieren. Anders ausgedrückt, es fehlt
der Bezugspunkt oder eine Art Kalibrierung. Eine geeignete Methode
hierfür ist es zum Beispiel, ELO-Zahlen von Geräten
heranzuziehen, die sich menschlichen Turnieren eine Bewertung erspielt
haben. Dies wurde (auf nationalem schwedischen Niveau) z. B. von der
SSDF so gemacht.
Mangels dieser Kalibrier-Möglichkeit haben wir für
unsere erste Liste folgenden Ansatz gewählt: Wir haben die unkorrigierten Werte der
SSDF-Liste (d. h. vor der Absenkung um 100 Punkte im Jahr
2000!) aus dem Jahr 2004 für unsere ersten 30 Geräte
genommen, aus denen einen so genannten gewichteten Mittelwert errechnet
und diesen als Startwert für unsere Liste verwendet. Die
Gewichtung hat gegenüber der Verwendung des einfachen
Mittelwerts, der nur alle ELO-Zahlen aufaddiert und durch die
Gesamtzahl der Geräte dividiert, den Vorteil, dass die Anzahl
der Partien von einem in der Liste vorhandenen Gerät
berücksichtigt wird.
Ein Beispiel dazu: Die erste Liste enthielt, wie schon
erwähnt, 30 Geräte und es wurden insgesamt 1206
Partien gewertet. 132 Partien davon hat der TASC R30 V2.5 gespielt, der
in der SSDF seinerzeit mit 2375 Punkten bewertet wurde. Für
die Gewichtung des R30 wird daher dessen ELO-Zahl mit der Anzahl der
gespielten Partien multipliziert und dieser Wert dann durch die
Gesamtzahl der gewerteten Partien geteilt, d. h. (2375 x 132)/1206 =
260.
Diese Berechnung führt man für alle Geräte
durch und addiert die einzelnen Werte zum endgültigen
Startwert, der dann noch durch 2 geteilt werden muss, da man
die Partien ja sonst doppelt zählen würde. Im obigen
Beispiel hat der R30 also 260/2=130 Punkte zum gewichteten Startwert
der ersten Liste (2118) beigetragen. Auf diese Weise erhält
man nicht einen auf ein bestimmtes Gerät fixierten
Bezugspunkt, sondern es werden quasi alle 30 Geräte
gemäß ihres Beitrags berücksichtigt. Die
SSDF-Liste wurde nur für die allererste Berechnung
herangezogen, alle nachfolgenden Auswertungen bezogen sich immer auf
unsere eigene Liste. Der Effekt dieser Herangehensweise sei anhand der
Abbildung 1 veranschaulicht.

Unsere Liste war von Beginn an etwas „kopflastig“,
d. h. wir haben grundsätzlich mehr Partien von nominell
stärkeren Geräten erhalten und
berücksichtigt. Die Anzahl der Partien der Geräte aus
dem ersten Tabellendrittel blieb mehr oder weniger die ganze Zeit
über signifikant höher. Im Laufe der Zeit kamen aber
immer mehr Geräte aus dem so genannten „unteren
ELO-Bereich“ hinzu. Man wird erwarten, dass tendenziell
schwächer bewertete Geräte eine Liste „nach
unten“ ziehen. Wie man am Verlauf des Mittelwerts oder des
Medians1 erkennt,
würde die schlichte Verwendung dieser Werte
tatsächlich zu einer permanenten Abnahme des Startwerts
führen. Nicht so mit der gewichteten Methode, die es schafft,
den Startwert relativ konstant über die Zeit zu halten, da sie
die Partien von nominell stärkeren Geräten aufgrund
der höheren Anzahl stärker berücksichtigt.
1 Der Median ist die Zahl, die in
der Mitte einer nach Größe sortierten Zahlenreihe
liegt. Das heißt, die eine Hälfte der Zahlen hat
Werte, die kleiner sind als der Median, und die andere Hälfte
hat Werte, die größer sind als der Median.
Die Gewichtung und die jeweilige Anpassung des Startwerts an die in der
Liste vorhandenen Geräte ist eine Art Glättung und,
wie wir meinen, optimierte Kalibrierung gegenüber der Methode
des einfachen Mittelwerts oder Medians. Bis jetzt hat sie hervorragend
funktioniert, so dass wir keinen Anlass sehen, an der
Berechnung etwas zu ändern. Ein Nachteil liegt darin,
daß durch den sich ständig ändernden
Startwert auch Geräte, die keine neuen Partien spielen, einer
Änderung ihrer absoluten ELO-Zahl unterliegen können.
Dieser Effekt würde aber - bedingt durch das
Berechnungsverfahren - auch bei einem konstanten Startwert auftreten.
Es sollte noch angemerkt werden, dass im statistischen
„Idealfall“, bei dem alle Geräte die
gleiche Anzahl von Partien gegen jedes andere Gerät gespielt
haben, der gewichtete Mittelwert natürlich mit dem Mittelwert
identisch ist. Ob dies sinnvoll und erstrebenswert ist mag
dahingestellt sein. Wir halten es für fragwürdig, z.
B. einen TASC R30 gegen den armen Super Constellation antreten zu
lassen. Bei der SSDF hat man sich übrigens auch einen
Höchstabstand von 400 ELO-Punkten zwischen 2 Geräten
als Regel vorgegeben, wir wollen hier nicht ganz so streng sein.

(zum Vergrößern bitte Bild anklicken)
Zusammengelegte Geräte: s.h. dazu Klone im Schachcomputer.info Wiki
Beispiele:
Bei folgenden Geräten bzw.
Einstellungen von Geräten haben wir eine Zusammenlegung der
Partien durchgeführt, teilweise weil zu wenig Partien
vorlagen, teilweise weil die Unterschiede einfach zu gering sind und
natürlich dann wenn Geräte eine identische
Hardware-Ausstattung aufweisen (z. B. diverse Morsch-Clones). Sollten
eines Tages für bestimmte Konfigurationen genügend
Partien vorliegen, wird natürlich geprüft, ob eine
Unterscheidung sinnvoll ist, und folglich würden diese
Varianten gegebenenfalls getrennt gelistet.
· Saitek GK 2100 – President – Centurion
· Saitek GK 2000 – Travel Master
· Mephisto Atlanta – Magellan
· Mephisto Milano Pro – Senator – Master
Chess
· Fidelity Elite 68020 V6 - Mach IV 68020 - Designer 2325
· Fidelity Elite 68000 V2 bis V4 (unterscheiden sich nur
durch die Größe der Hashtabellen) - Mach III 68000 -
Designer 2265
· TASC Chessmachine 16 Bit Gideon 3.0 (14 MHz), Mephisto
RISC I 1 MB
· TASC Chessmachine 16 Bit Madrid 3.1 (14 MHz), Mephisto
RISC II 1 MB
· Saitek RISC 2500 mit 128K, 512K, 2MB und verschiedene
Einstellungen, ebenso beim Mephisto Montreux
· Extensions ON/OFF bei Novag Star Diamond, Diamond II und
Diamond
· Selektivitätseinstellungen (4 und 5) beim Novag
Super Forte C und B
· Verschiedene Einstellungen beim TASC R30 2.5
· Mephisto Supermodial II - Monte Carlo IV
· Mephisto Dallas 68000 - Mondial 68000 XL
· CXG Spinx Galaxy 2.04 - Dominator
· Bei den Geräten der Mephisto Modulreihe 68000,
68020 und 68030 ab Portorose sowie beim Mephisto Berlin und Berlin Pro
wird von der Grundeinstellung ausgegangen (andere Infos liegen nicht
vor) Diese Liste wird fortgeführt und für weitere
Hinweise in diese Richtung sind wir natürlich jederzeit
dankbar! |
Statistikteil
Gewertete
Partien
|
18122
|
|
|
White
Wins
|
7346 (40.5 %)
|
Black
Wins
|
6139 (33.9 %)
|
Draws
|
4637 (25.6 %)
|
|
|
White
Perf.
|
53.3
%
|
Black
Perf.
|
46.7
%
|
|
|
ECO
A
|
3932 Games (21.7 %)
|
ECO
B
|
3959 Games (21.8 %)
|
ECO
C
|
4683 Games (25.8 %)
|
ECO
D
|
4099 Games (22.6 %)
|
ECO
E
|
1449 Games ( 8.0 %)
|
Wer
nicht die Zeit bzw. Möglichkeit hat, sich
sämtliche Einzelheiten Online zu erschließen, kann
sich unsere Elo Liste + Erklärung auch als PDF-File downloaden.
Stefan
Ottow, Hans-Jürgen Schäfer,
Achim Pietig
&
Michael
Völschow
Im März 2024
|
|
|
|
|