
Zitat von
Solwac
Hi!
Eines vorweg: Du schreibst, es würde Spaß machen und das ist auch das wichtigste! Ohne Spaß wäre ein Hobby auch fehl am Platz.
Aber ich hoffe, Du legst dich nicht zu sehr auf das Ergebnis in Form einer Elozahl fest. Denn beim nach spielen mit verschiedenen Computern testest Du nicht die Spielstärke, Du testest die Übereinstimmung mit dem 3000+-Schachprogramm. Diese ergibt sich bei ganzen Partien aber nicht nur aus kritischen Stellungen sondern auch aus Stellung mit mehreren praktisch gleichwertigen Zügen. Bei solchen Zügen ist die Übereinstimmung aber nicht unbedingt an die Spielstärke gekoppelt.
Ein Beispiel zur Erläuterung: Die Partie bestehe aus fünf Zügen, von denen vier jeweils auch Alternativen haben und einer eine Gewinnkombination einleitet. Das Schachprogramm gibt fünf Züge vor, darunter auch die Kombination. Schachcomputer A wählt jetzt die ersten vier Züge gleich und findet die Kombination nicht – macht 80%. Schachcomputer B wählt bei den ersten vier Zügen Alternativen, findet aber die Kombination – macht 20%. Ist A jetzt stärker als B?
Eine Idee zur Verbesserung, von der ich das Ergebnis nicht abschätzen kann: Du erstellst für soundso viele Stellungen (diese können einer Partie entspringen, besser aber eher unabhängige Positionen) eine Liste der Alternativen mit der Bewertung durch das starke Schachprogramm. Dazu kann der Multivariantenmodus genutzt werden. Die Schachcomputer suchen dann jeweils mit der gewünschten Stufe (z.B. Turnierstufe) in jeder Stellung ihren besten Zug. In die Wertung geht dann jeweils die Differenz der Bewertungen des Schachprogramms für die beiden Züge (Referenz des Schachprogramms und gewählter Zug des Schachcomputers). Wieder ein Beispiel: In der Eröffnungsstellung gibt das Schachprogramm folgende Bewertungen zurück: e4 (0,10), d4 (0,09), Sf3 (0,08), … , h3 (-0,12). e4 ist also der vom Schachprogramm gewählte Zug und die Alternativen sind bis 0,22 schlechter. Folgt ein Schachcomputer jetzt den Zügen des Programms, dann wird ein solcher Zug mit 0 in die Auswertetabelle eingetragen. Im Beispiel würde für die Alternative d4 also -0,01 eingetragen, weil dies der Differenz zwischen 0,10 und 0,09 entspricht. Auf diese Art werden geringe Abweichungen auch mit nur einem kleinen Malus gewertet, Fehler hingegen schlagen kräftig zu Buche. Diese Auswertetabelle enthält jetzt die Rohdaten, für die genaue Bewertung der Ergebnisse müsste man sich die Daten noch einmal getrennt anschauen. Ebenso müsste man bei Mattankündigungen eine Entsprechung finden, denn eigentlich bedeutet Matt ja nach der Spieltheorie einen Wert von unendlich. Die Praxis der Schachprogramme ist natürlich pragmatischer. Aber diese Auswertung kann man schnell mit Excel machen, der Aufwand steckt in der Ermittlung der Rohdaten.
P.S. Einen Vorteil für die Durchführung der Tests sehe darin, dass es nur um den gewählten Zug eines Schachcomputers in einer bestimmten Stellung auf einer bestimmten Stufe geht. Es geht nicht um die exakte Lösungszeit, was ja bei manchen Geräten nur durch absolute Aufmerksamkeit feststellbar ist. Auch entspricht die Auswahl des Zuges genau dem, was als Unterschied bei unterschiedlich getakteten Versionen eines Schachcomputers beobachtet wird – in manchen Stellungen wird ein anderer Zug gefunden.
Hallo Solwac,
Ja, das problem ist ich moechte auch ein CC1 als Beispiel vergleichen koennen. (CC1 is eigentlich ein scherz er kann ja nicht zugruckgaben machen

)
Man sollte nicht vergessen das ich einen Test suche fuer saemtlichen Brettschachcomputers als aller erste, daher ist es nicht moeglich ins Baumstamm zu schauen bei den Meissten alten schwachen Schachcomputers. Wie in meine obigen Beispiele, da spielt ein CXG 3000, CC9, MK12 und Constellation Junior.
Daher den Weg du erwaehnst geht hier nicht so richtig ausser ich mache das nur fuer die Top Brettcomputers und dann Lohnt sich das nicht mehr.
Der Trick ist man muss einige solche Spiele machen ein Test Spiel reicht nicht aus.
Ich habe schon zum Teil 6 spiele Random Bewertet und ich weiss das es Spiele gibt wo der eine Programmierer oder der andere besser abschneidet. Aber im gross und ganzen gleicht sich das wieder aus und die besten programme liegen oben und die schwachen unten.
Man soll auch nicht eins vergessen in den obigen ersten Test Spiel, der RS2250 Brute Force spielt zu 81% den besten Zug in 24 Zuegen. Das ware insgesamt um 81% zu erreichen kein Zufall mehr

Wenn man das jetzt mal 10diversen Spielen rechnet waeren das insgesamt ca 250 Zuege die gespielt sind und Bewertet sind und so wird sich das auch ausgleichen.
Ein Morsch spielt sehr Aktiv und das obige Spiel zeigt nur das der Gegner von Botvinnik mit so einen Spiel Stil auch gegen ein Morsch verlieren wuerde
Hier sind die Spiel arten die ich mit den naechsten Testspielen dazufuegen werde:
Aktiv Zentrum 2 Spiele
Positionell 3 Spiele
Angriff 2 Spiele
Verteidigung 3 Spiele
Kombination 2 Spiele
Endspiel 2 Spiele
Insgesamt 14 Spiele * ca 25 Zuege = 350 Zuege = ca 1120 Punkte.
Zum Schluss wird es auch fuer Brettcomputers ausgeglichen sein und sie werden gegeneinander vergleichbar sein.
Das mit den ELO macht Spass, aber daneben stehen auch die Punkte und der Prozentsatz. Hier gibt es 3 wege fuer einen Vergleich. Punkte, % und Nick's ELO
ps Ich habe schon 6 Tests fast zu ende Bewertet mit 11 Computers und es klappt hervorragend jedes mal.
Viele Gruesse,
Nick