AW: Testellungen Ratings fuer Schachcomputers
Ein Test, der mit einigen Dutzend oder auch 100 Stellungen ein Schachprogramm bzw. -Computer zuverlässig bewertet kann es nicht geben. Dafür sind die Möglichkeiten einfach zu groß.
Bis auf wenige Einzelfälle können Stellungen nicht eindeutig bewertet werden, es bleibt also nur die heuristische Bewertung einer begrenzten Zahl von Eigenschaften einer Stellung. Hier kann der Programmierer immer nur Kompromisse eingehen und das Programm mit den am besten abgestimmten Kompromissen ist das stärkste.
Übrig bleiben aber so viele Faktoren, dass sie mit wenigen Teststellungen nicht abgedeckt werden können. So z.B. entfernte Freibauern. Ein Programm ohne das direkte Wissen kann trotzdem taktisch einfach durch Suchen bei Teststellungen die richtige Lösung finden, verpasst sie aber im Spiel wo nach einem forcierten Abtausch nicht mehr genügend Rechentiefe übrig bleibt. Oder umgekehrt weiß das Programm zwar um die Kraft eines entfernten Freibauerns, aber diese Bewertungsfunktion ist langsamer als die eines Konkurrenten. Dadurch sinkt die kombinatorische Schlagkraft und das schlauere Programm verliert zu oft bevor das Wissen einen Vorteil bringt.
Ein Test bringt auch ein festes Resultat (was ja auf den ersten Blick auch erstrebenswert ist), aber dadurch wird die "Wirklichkeit" nicht gut abgebildet. Bei einem Schachprogramm wird nämlich das Ergebnis in einer Rangliste sehr stark von der Auswahl der Gegner gesteuert. Dies kann man sehr schön bei der Liste des SSDF sehen. Manche Programme haben Wettkämpfe zu 20 Partien bestritten, oft wurde aber auch von der 20 abgewichen. Dadurch werden solche Matches über- oder unterschätzt. Zusammen mit den Unwägbarkeiten der Eröffnungsbibliothek schätze ich den "Fehler" (es ist eher einfach Unsicherheit) auf bis zu 100 Elo ein. Das ist schon eine ganze Menge und kommt noch auf den statischen Fehler, der nach 10.000den von Partien wenigstens auf +-5 zurück geht.
|