Hi!
Eines vorweg: Du schreibst, es würde Spaß machen und das ist auch das wichtigste! Ohne Spaß wäre ein Hobby auch fehl am Platz.
Aber ich hoffe, Du legst dich nicht zu sehr auf das Ergebnis in Form einer Elozahl fest. Denn beim nach spielen mit verschiedenen Computern testest Du nicht die Spielstärke, Du testest die Übereinstimmung mit dem 3000+-Schachprogramm. Diese ergibt sich bei ganzen Partien aber nicht nur aus kritischen Stellungen sondern auch aus Stellung mit mehreren praktisch gleichwertigen Zügen. Bei solchen Zügen ist die Übereinstimmung aber nicht unbedingt an die Spielstärke gekoppelt.
Ein Beispiel zur Erläuterung: Die Partie bestehe aus fünf Zügen, von denen vier jeweils auch Alternativen haben und einer eine Gewinnkombination einleitet. Das Schachprogramm gibt fünf Züge vor, darunter auch die Kombination. Schachcomputer A wählt jetzt die ersten vier Züge gleich und findet die Kombination nicht – macht 80%. Schachcomputer B wählt bei den ersten vier Zügen Alternativen, findet aber die Kombination – macht 20%. Ist A jetzt stärker als B?
Eine Idee zur Verbesserung, von der ich das Ergebnis nicht abschätzen kann: Du erstellst für soundso viele Stellungen (diese können einer Partie entspringen, besser aber eher unabhängige Positionen) eine Liste der Alternativen mit der Bewertung durch das starke Schachprogramm. Dazu kann der Multivariantenmodus genutzt werden. Die Schachcomputer suchen dann jeweils mit der gewünschten Stufe (z.B. Turnierstufe) in jeder Stellung ihren besten Zug. In die Wertung geht dann jeweils die Differenz der Bewertungen des Schachprogramms für die beiden Züge (Referenz des Schachprogramms und gewählter Zug des Schachcomputers). Wieder ein Beispiel: In der Eröffnungsstellung gibt das Schachprogramm folgende Bewertungen zurück: e4 (0,10), d4 (0,09), Sf3 (0,08), … , h3 (-0,12). e4 ist also der vom Schachprogramm gewählte Zug und die Alternativen sind bis 0,22 schlechter. Folgt ein Schachcomputer jetzt den Zügen des Programms, dann wird ein solcher Zug mit 0 in die Auswertetabelle eingetragen. Im Beispiel würde für die Alternative d4 also -0,01 eingetragen, weil dies der Differenz zwischen 0,10 und 0,09 entspricht. Auf diese Art werden geringe Abweichungen auch mit nur einem kleinen Malus gewertet, Fehler hingegen schlagen kräftig zu Buche. Diese Auswertetabelle enthält jetzt die Rohdaten, für die genaue Bewertung der Ergebnisse müsste man sich die Daten noch einmal getrennt anschauen. Ebenso müsste man bei Mattankündigungen eine Entsprechung finden, denn eigentlich bedeutet Matt ja nach der Spieltheorie einen Wert von unendlich. Die Praxis der Schachprogramme ist natürlich pragmatischer. Aber diese Auswertung kann man schnell mit Excel machen, der Aufwand steckt in der Ermittlung der Rohdaten.
P.S. Einen Vorteil für die Durchführung der Tests sehe darin, dass es nur um den gewählten Zug eines Schachcomputers in einer bestimmten Stellung auf einer bestimmten Stufe geht. Es geht nicht um die exakte Lösungszeit, was ja bei manchen Geräten nur durch absolute Aufmerksamkeit feststellbar ist. Auch entspricht die Auswahl des Zuges genau dem, was als Unterschied bei unterschiedlich getakteten Versionen eines Schachcomputers beobachtet wird – in manchen Stellungen wird ein anderer Zug gefunden.