Warum eine weitere Liste?
Sinn und Zweck der ELO-Liste von schachcomputer.info ist es nicht, das
Rad neu zu erfinden, bzw. eine neue Methode zur
Spielstärkebewertung von (Brett-)Schachcomputern zu
etablieren. Vielmehr soll es darum gehen, den interessierten
Schachcomputerfreunden eine Möglichkeit zu bieten, ihre
Geräte in Wettkämpfen gegeneinander antreten zu
lassen und die Vergleiche schließlich auch bewerten zu
können.
Grundsätzlich ist das natürlich nicht neu und wurde
erstmals von der SSDF etabliert, die über Jahre (Jahrzehnte?)
hinweg hervorragende Arbeit für das Computerschach geleistet
hat und nicht zu Unrecht als Referenz herangezogen wird, wenn es um die
Spielstärkebewertung von Schachprogrammen bzw.
Brettgeräten geht.
Dennoch gibt es auch einige kritische Ansatzpunkte, wenn man sich die
Bewertung der Brettgeräte anschaut. Bei der SSDF konzentriert
man sich heutzutage (sicher zu Recht) vornehmlich auf die PC-Programme,
Brettcomputer werden dort zwar noch geführt, aber es werden
kaum noch Partien mit deren Beteiligung gespielt. Die ständige
Spielstärkesteigerung der PC-Programme und die dadurch
entstandene hohe Diskrepanz zwischen diesen und den
Brettgeräten führte u. a. dazu, daß die
Liste im August 2000 um 100 Punkte abgesenkt wurde[1].
Aus unserer Sicht gibt aber diese Absenkung nicht die wahre
Spielstärke der Brettgeräte, z. B. gegen Menschen
wieder, weshalb wir zur weiter unten beschriebenen erstmaligen
Kalibrierung auch die „alten“ Werte herangezogen
haben.
Hinzu kommt noch, daß durch die ständige
Fortschreibung der SSDF in die dortige Bewertung der
Brettgeräte auch eine große Anzahl von Partien gegen
PC-Programme eingeflossen sind, es handelt sich mithin also nicht mehr
um einen reine Bewertung von Brettgeräten untereinander.
Weiterhin wurde auch verschiedentlich die Meinung
geäußert, daß bestimmte Geräte in
der Liste gepusht wurden und andere Geräte z. T. zu niedrig
eingestuft wurden, da möglicherweise nicht immer eine
Kontrolle auf Doubletten erfolgt ist[2].
Dies soll keine böswillige Kritik an der SSDF sein, sondern
nur darlegen, daß bei aller Sorgfalt und aufwendigen
Testarbeit in Schweden auch durchaus hinterfragende Stimmen zu
hören sind und waren.
Wie schon Eingangs erwähnt geht es primär darum, eine
Plattform für Brettgeräte zu bieten, wobei es auch
durchaus angedacht ist, daß ein und dasselbe Gerät
mit unterschiedlichen Spieleinstellungen aufgenommen wird.
[1] Die Sache ist in der
Realität noch deutlich komplizierter.
Interessierte Schachfreunde können sich u. a. in CSS 3-2004
den entsprechenden Artikel des Schachstatistiker Jeff Jonas zu Gemte
führen.
[2] Einige Geräte haben z.
T. recht kleine
Eröffnungsbibliotheken, was die Chance auf Doubletten
erhöht, besonders dann, wenn Partien von verschiedenen Testern
gespielt wurden. Man muß der SSDF aber zu Gute halten,
daß es in der Anfangszeit keine Datenbanken gab, die eine
schnelle Überprüfung erlaubt hätten. Wir
sind heutzutage sehr verwöhnt...
Es ist geplant, 2 Listen zu führen, eine Liste
enthält ausschließlich Turnierpartien mit einer
Bedenkzeit von 40 Zügen/2 Stunden[3].
Eine weitere Liste
basiert auf sogenannten Schnellschachpartien für die eine
Bedenkzeit von 30 min/Gerät für die gesamte Partie
gewählt wurde.
Regeln
zur Aufnahme in die Liste
Wir haben uns erlaubt, einige einfache
Regeln aufzustellen, die
Voraussetzung für die Aufnahme in die ELO-Liste sind:
Bewertungseinschätzung (Rating Evaluation (RE) - s.h. Elo
Liste)
P = Preliminary rated computer (>= 15 games vs. 1 opponent)
F = Fully rated computer (>= 50 games AND 2 opponents)
R = Reference rated computer (> 150 games AND 5 opponents)
M = Master rated computer (> 300 games AND 10 opponents)
Die Partien müssen aufgezeichnet sein (bevorzugt elektronisch
als pgn, ChessBase oder Chess Assistant kompatible Formate) und dem
Auswerter vorliegen, um eine Kontrolle auf Doubletten
durchführen zu können. Doppelt vorhandene Partien
zwischen zwei Geräten werden nur einmal gewertet.[4]
Der
Bewertungsansatz
Zu Beginn steht man immer vor der Frage, welchen Bewertungsansatz man
verwenden soll. Nach lang andauernden Diskussionen und
Überlegungen haben wir schließlich davon Abstand
genommen, die Bewertung einzelner Wettkämpfe
gemäß des FIDE-Bewertungssystems vorzunehmen. Statt
dessen wurde eine Auswertung basierend auf dem Programm ELO Stat 1.3
von Frank Schubert verwendet. Wichtige Voraussetzung ist, dass alle in
der Liste erfassten Computer in einem sogenannten Cluster zusammen
hängen, d. h. jedes Gerät der Liste ist direkt oder
indirekt über einen anderen Gegner mit jeden anderen Computer
in Liste „verbunden“.
Abschließend muß noch die Frage des sogenannten
ELO-Startwertes geklärt werden, den man für die
Einordnung der Spielstärke der Geräte
benötigt. Bekanntlich liefet das Programm ELO-Stat 1.3 zwar
eine Liste, die die relative Spielstärke der Geräte
untereinander wiedergibt, eine absolute Spielstärke
läßt sich aber nur unter Zuhilfenahme einer
Kalibrierung mit eben diesem ELO-Startwert angeben.
[3] Für die weiter unten
dargelegte Berechnung wurden auch
Partien herangezogen, bei denen z. B. nach dem 60. Zug die
Zeitkontrolle angepaßt wurde (, z. B. auf 60 sec/Zug).
Grundsätzlich sollen aber in die Liste nur Partien
gemäß den Standardturnierbedingungen aufgenommen
werden.
[4] Hintergedanke ist
natürlich die
größtmögliche Transparenz zu bieten. Dies
wird auch dadurch gewährleistet sein, dass sämtliche
zur Auswertung herangezogenen Partien jederzeit auf
https://www.schachcomputer.info einsehbar bzw., herunterladbar sein
werden.
Der
erste Startwert
Für die Erstberechnung wird ein
einfacher, aber wie wir
denken, sehr plausibler Ansatz, der mehreren Aspekten Rechnung
trägt:
1. Es wird die Gesamtzahl N der
Geräte im auszuwertenden Cluster ermittelt
2. Es wird die Gesamtzahl aller Partien
der im Cluster enthaltenen Geräte G ermittelt
3. Es wird die Gesamtzahl aller Partien,
die von einem einzelnen im Cluster vorhandenen Gerät gespielt
wurden, GN ermittelt
4. Der zu ermittelnde Startwert S wird
unter Berücksichtigung des SSDF-ELO Wertes ESSDF für
ein Gerät N berechnet.[5]
Die Berechnung des ELO-Startwertes S erfolgt durch Aufsummieren der
einzelnen gewichtetet ELO-Werte SN gemäß:
Ein Beispiel für die fiktive Ermittlung eines ELO-Startwertes
ist in Tabelle 1 dargestellt.
Tabelle 1:
Fiktives Beispiel einer ELO-Startwertberechnung für
das Programm ELO-Stat anhand eines Clusters bestehend aus 9
Geräten.
Eine derartige Berechnung erlaubt es einzelne Ergebnisse noch nicht
vollständig beendeter Turniere/Matches sofort
einfließen zu lassen. Des weiteren ist man quasi
unabhängig vom zeitlichen Ablauf der Turniere, eine
Fortschreibung der Liste ergibt sich einfach durch Hinzufügen
neuer Partien bzw. die Aufnahme eines neuen Gerätes.
Schließlich dient als Referenz/Kalibrierung die international
anerkannte Liste der SSDF, allerdings wird nicht ein bestimmtes
Gerät herangezogen, sondern sozusagen ein der mitspielenden
Geräte angepaßter gewichteter Wert verwendet, der
den größtmöglichen statistischen
Rückhalt gewährleistet.
In die reale 1. Liste sind schließlich 1144 Partien, gespielt
von 31 Geräten, eingeflossen. Damit wird eine breite Grundlage
für das Austragen weitere Matches und Turniere bereitgestellt.
[5] Es handelt sich um den
unkorrigierten SSDF-Wert der Liste vom
22.04.2004, also die dort aufgeführten Werte +100 Punkte.
Die
fortlaufende Listenberechnung
Für die weitere Berechnung wird die erste erstellte Liste
herangezogen. Dabei wird genauso vorgegangen, wie in vorigen Abschnitt
beschrieben, nur mit dem Unterschied, daß jetzt für
die Startwertermittlung nicht mehr die SSDF Werte verwendet werden.
Statt dessen kommt der ELO-Wert der Geräte aus der jeweils
aktuellen Liste zur Anwendung. Die Formel zur Berechnung bleibt daher
grundsätzlich erhalten, es ändert sich nur der
Referenzwert für das jeweilige Gerät:
Die Neuberechnung der Liste erfolgt also jeweils für alle
Geräte. Dadurch kommt es zwangsläufig auch zu
geringen Veränderungen des ELO-Wertes auch bei
Geräten , die eventuell keine neuen Partien gespielt haben.
Test haben aber ergeben, daß diese Änderungen
vernachlässigbar gering sind. Viel wichtiger erscheint es uns
in diesem Zusammenhang noch einmal darauf hinzuweisen, daß
das Programm ELO-Stat 1.3 eben eine sehr genaue Differenzliste zwischen
Geräten erstellt. Uns erscheint primär dieser Punkt
wichtig und nicht so sehr die Frage, ob ein Gerät X nun 2200
oder 2205 Punkte hat.
Stefan Ottow &
Michael Völschow
Im August 2004.
|