|
||||||||||||
Rating Tests - Dritter Versuch
Hier ist mein Dritter und hoffentlich Letzter versuch einen guten Test zu erarbeiten fuer alle meine Schachprogramme.
Um was richtiges zu machen, da gibt es leider kein kurzer Weg. Mein erster Versuch bei Stellungstests da scheitert es wegen der schwierigkeit gute Stellungen zu finden die fuer alle schachcomputer passen. Mein zweiter Versuch miit den Barden Test da ist es auch nicht gerade so einfach weil der Herr Barden leider sehr viele Stellungen sehr schlecht Bewertet hatte. So jetzt beim dritten Test da bleibe ich bei der Idee ganze Spiele zu Bewerten und weiterhin werde ich die Spiele benuetzen aus den Barden Test. Diesmal habe ich aber jeden Zug 21 Ply Tief selber Bewertet mit einer der Staerksten Programme die es Heute gibt. Fuer jeden Zug habe ich auch jedes mal die besten 10 Zuege bewertet und die Punkte mit eine Formel angepasst. So gibt es hier kein schaetzen wie der Herr Barden es machte in sein Buch. Test Spiel 1 M. BOTVINNIK - H. GROB Zurich, Switzerland, 1956
1. Nf3 Nf6 2. c4 d5 3. cxd5 Nxd5 4. e4 Nf6 5. Nc3 e6 6. d4 c5 {Test Start}
[Event "Leonard Barden Test Game 1"]
[Site "Zurich 1956"] [Date "????.??.??"] [Round "?"] [White "Botvinnik, M."] [Black "Grob, H."] [Result "1-0"] [ECO "D06"] [Annotator ",Microsoft"] [PlyCount "59"] [EventDate "1956.??.??"] 1. Nf3 Nf6 2. c4 d5 3. cxd5 Nxd5 4. e4 Nf6 5. Nc3 e6 6. d4 c5 {Test Start} 7. d5 {7. d5 2.5; 7. Bf4 3.0; 7. Be2 2.3; 7. Bb5+ 1.8; 7. Be3 1.1; 7. a3 1. 1; 7. Bg5 1.1; 7. e5 1.0} a6 8. Bg5 {8. Bg5 1.6; 8. Bf4 3.0; 8. d6 2.0; 8. Bd3 1.9; 8. a4 1.8; 8. Qa4+ 1.1; 8. g3 1.0} Qb6 9. Bxf6 {9. Bxf6 1.0; 9. Bc4 3.0; 9. Bd3 2.6; 9. Qa4+ 2.2; 9. Qc2 1.9; 9. Qd2 1.7; 9. Qe2 1.7; 9. Be2 1.6; 9. Rc1 1.2; 9. Ne5 1.2} gxf6 10. Qd2 {10. Qd2 2.6; 10. Qc2 4.0; 10. a3 3.1; 10. Rb1 2.2; 10. Qc1 1.6; 10. Qe2 1.1; 10. Nd2 1.1; 10. Qb1 1.0} h5 11. Be2 {11. Be2 3.0; 11. Bc4 3.0; 11. Rd1 3.0; 11. a4 2.4; 11. Qc2 1.6; 11. Bd3 1.0; 11. g3 1.0} Nd7 12. O-O {12. 0-0 3.0; 12. Rd1 2.4; 12. dxe6 1.7; 12. a4 1.3; 12. Qc2 1.1; 12. h4 1.0} h4 13. a4 {13. a4 1.1; 13. Rad1 3.0; 13, Rfd1 2.8; 13, h3 2.7; 13. Rfe1 2.0; 13. dxe6 1.4; 13. a3 1.2; 13. Qc2 1.0} Bh6 14. Qc2 {14. Qc2 2.0; 14. Qd3 1.2} Bf4 15. a5 { 15. a5 1.4; 15. dxe6 2.0; 15. Rfd1 1.3; 15. h3 1.0} Qc7 16. Rfd1 { 16. Rfd1 1.2; 16. e5 3.0; 16. h3 1.4; 16. Na4 1.2; 16. dxe6 1.0} Ne5 17. Nxe5 {17. Nxe5 1.6; 17. h3 3.0; 17. Na4 2.7; 17. Nd2 1.2; 17. g3 1.0} Bxe5 18. h3 {18. h3 3.0; 18. Kh1 3.0; 18. Na4 2.4; 18. dxe6 1.0} Bd7 19. Na4 { 19. Na4 3.0} Bxa4 20. Rxa4 {20. Rxa4 2.1; 20. Qxa4 3.0} Rc8 21. Rc4 { 21. Rc4 4.0; 21. Bg4 2.3; 21. b3 2.1; 21. Ra3 2.0; 21. dxe6 1.9; 21. Kf1 1.5; 21. Qd2 1.5; 21. Bc4 1.4; 21. Qc1 1.4; 21. Qb3 1.0} Qxa5 22. b4 { 22. b4 4.0; 22. dxe6 2.1; 22. Qc1 1.0; 22. Bg4 1.0} Qa3 23. Rxc5 { 23. Rxc5 4.4; 23. dxe6 5.0; 23. bxc5 1.8; 23. Bg4 1.6; 23. Qd2 1.5; 23. d6 1.3; 23. Kh1 1.0; 23. Kf1 1.0; 23. Rd2 1.0} Rd8 24. dxe6 {24. dxe6 4.0} Bd6 25. Rxd6 {25. Rxd6 3.2; 25. exf7+ 5.0; 25. e5 4.7; 25. Rc8 2.3; 25. Rh5 2.2; 25. Rc4 2.0; 25. Bh5 2.0; 25. Rcd5 1.9; 25. Rc3 1.3; 25. Rf5 1. 0} Rxd6 26. Rc8+ {26. Rc8+ 4.0; 26. exf7+ 2.0} Ke7 27. Qc7+ { 27. Qc7+ 2.0; 27. Rc7+ 3.0; 27. Rxh8 1.0} Kxe6 28. Bg4+ { 28. Bg4+ 4.0; 28. Rxh8 4.0; 28. Bc4+ 2.0; 28. Qc4+ 1.0} f5 29. Bxf5+ { 29. Bxf5+ 3.0; 29.exf5+ 2.0} Ke5 30. Qc5+ { 30. Qc5+ 3.0; 30. Qe7+ 3.0; 30. f4+ 2.0; 30. Rxc8 1.0} 1-0 Test Spiel 1 Ratings - Ergebnisse Die Bewertung ist jetzt naturlich 3000 ELO maximal. Das ist ja auch so in etwa richtig weil das Programm was die Stellungen bewertet hatte ja auch eine staerke von 3000 ELO Plus. Herr Botvinnik war ja auch Bewertet und wenn ich die zur Zeitigen Resultate liste dann is es so: 1. Radioshack 2250XL Brute Force = ELO 2453 2. Herr Botvinnik = ELO 2426 3. Saitek Travel Champion 2100 = ELO 2351 4. Tasc CM 512K – 15 MHZ – KING 2.54 = ELO 2333 5. Radioshack 2250XL Selective = ELO 2306 6. Mephisto TM Vancouver 68030 36 MHz = ELO 2288 7. Novag Jade 2 = ELO 2138 8. CXG 3000 = ELO 1800 9. Saitek MK 12 Trainer LV 5 90S/Zug = ELO 1594 10. Fidelity Sensory 9 = ELO 1553 11. Novag Constellation JR = ELO 1470 12. Saitek MK 12 Trainer LV 4 15S/Zug = ELO 1361 Wow wer haette es gedacht. Ich weiss nicht ob ich irgendwo ein Tippfehler machte. Ich glaube aber nicht. Der Radioshack 2250XL mit Brute Force spielte dieses Spiel wie ein Weltmeister und schlaegt sogar einen Weltmeister !! Jeder spielt 30 Sekunden pro Zug oder 60/30 (40/20) ausser die Programme die solche Spielstufe nicht haben. Um auch zu Beweisen das es hier nicht mit Zufaelle ablauft. Hier ist ein Spiel was ich neulich dann sofort spielte um zu schauen ob der MK12 Trainer tatsachlich den CC9 schlagen koennte. Der MK12 Trainer kann nicht Pondern der CC9 kann Pondern. Der CC9 spielte mit 30S pro Zug (Info 1559 ELO) Der MK12 mit 2 Minuten pro Zug:
[Event "Test Game"]
[Site "Pelham, Alabama, USA"] [Date "2013.05.19"] [Round "1"] [White "Saitek MK 12 Trainer, 120S."] [Black "Fidelity CC9, 30S."] [Result "1-0"] [ECO "D53"] [WhiteElo "1284"] [BlackElo "1559"] [Annotator ",Microsoft"] [PlyCount "83"] [EventDate "2013.05.19"] [EventType "match (rapid)"] [EventRounds "1"] [EventCountry "USA"] 1. d4 d5 2. c4 e6 3. Nc3 Nf6 4. Bg5 Be7 5. e3 O-O { Saitek MK 12 Trainer out of book} 6. Qf3 {Fidelity CC9 out of book} Nbd7 7. O-O-O Nb6 8. c5 Nbd7 9. Nh3 h6 10. Bf4 g5 11. Qg3 Nh5 12. Qf3 Ndf6 13. g4 Nxf4 14. exf4 e5 15. Rg1 exd4 16. Rxd4 Bxc5 17. Rd3 Bxg4 18. Rxg4 Nxg4 19. Qxg4 c6 20. fxg5 hxg5 21. Nxg5 f5 22. Qg2 Qe7 23. Ne6+ Kf7 24. Nxf8 Kxf8 25. Rf3 Qe1+ 26. Kc2 Qe5 27. Qh3 f4 28. Qh6+ Kg8 29. Qxf4 Qxf4 30. Rxf4 Rf8 31. Rxf8+ Bxf8 32. Bd3 d4 33. Bc4+ Kg7 34. Ne4 Kg6 35. Kd3 c5 36. Bd5 b6 37. b4 a5 38. bxa5 b5 39. a6 Kf5 40. a7 Ke5 41. a8=Q c4+ 42. Kc2 1-0 Das der MK12 Trainer hoeher liegt in den ersten Rating Test als der CC9 hat er jezts glaube ich gezeigt das es Moeglich ist. Hier ist die Opentext Datei fuer Rating Test 1. Ich habe es vorbereitet das man nur die Zuege und Schachcomputer Information eingeben muss. Die Tabelle wird das Ergebniss automatisch rechen Ihr muesst nur den Zug eingeben und die Punkte fuer den Zug. Wenn der Zug nicht Links in der Tabelle gelistet ist dann bekommt der gespielte Zug garnichts und man muss es in der Roten Reihe angeben mit 0 Punkte. Bitte keine weiteren Zuege in der Tabelle dazufuegen weil die restlichen Zuege die nicht angezeigt sind alle Schrott sind und bekommen keinen Punkt. http://spacious-mind.com/forum_repor...test_final.ods Hier ist auch das PGN Spiel: http://spacious-mind.com/forum_repor...test_game1.pgn So Ich hoffe noch ca 9 - 12 weitere Spiele in diesen Rating Test dazufuegen und das wird auch den Schlussrating zum Schluss fuer alle Computers ausgleichen. Bitte probiert mal den Test!! Es Macht Spass !!!! Viele Gruesse, Nick Geändert von spacious_mind (28.05.2013 um 16:17 Uhr) |
|
||||||||||||
Re: AW: Rating Tests - Dritter Versuch
Hi!
Eines vorweg: Du schreibst, es würde Spaß machen und das ist auch das wichtigste! Ohne Spaß wäre ein Hobby auch fehl am Platz. Aber ich hoffe, Du legst dich nicht zu sehr auf das Ergebnis in Form einer Elozahl fest. Denn beim nach spielen mit verschiedenen Computern testest Du nicht die Spielstärke, Du testest die Übereinstimmung mit dem 3000+-Schachprogramm. Diese ergibt sich bei ganzen Partien aber nicht nur aus kritischen Stellungen sondern auch aus Stellung mit mehreren praktisch gleichwertigen Zügen. Bei solchen Zügen ist die Übereinstimmung aber nicht unbedingt an die Spielstärke gekoppelt. Ein Beispiel zur Erläuterung: Die Partie bestehe aus fünf Zügen, von denen vier jeweils auch Alternativen haben und einer eine Gewinnkombination einleitet. Das Schachprogramm gibt fünf Züge vor, darunter auch die Kombination. Schachcomputer A wählt jetzt die ersten vier Züge gleich und findet die Kombination nicht – macht 80%. Schachcomputer B wählt bei den ersten vier Zügen Alternativen, findet aber die Kombination – macht 20%. Ist A jetzt stärker als B? Eine Idee zur Verbesserung, von der ich das Ergebnis nicht abschätzen kann: Du erstellst für soundso viele Stellungen (diese können einer Partie entspringen, besser aber eher unabhängige Positionen) eine Liste der Alternativen mit der Bewertung durch das starke Schachprogramm. Dazu kann der Multivariantenmodus genutzt werden. Die Schachcomputer suchen dann jeweils mit der gewünschten Stufe (z.B. Turnierstufe) in jeder Stellung ihren besten Zug. In die Wertung geht dann jeweils die Differenz der Bewertungen des Schachprogramms für die beiden Züge (Referenz des Schachprogramms und gewählter Zug des Schachcomputers). Wieder ein Beispiel: In der Eröffnungsstellung gibt das Schachprogramm folgende Bewertungen zurück: e4 (0,10), d4 (0,09), Sf3 (0,08), … , h3 (-0,12). e4 ist also der vom Schachprogramm gewählte Zug und die Alternativen sind bis 0,22 schlechter. Folgt ein Schachcomputer jetzt den Zügen des Programms, dann wird ein solcher Zug mit 0 in die Auswertetabelle eingetragen. Im Beispiel würde für die Alternative d4 also -0,01 eingetragen, weil dies der Differenz zwischen 0,10 und 0,09 entspricht. Auf diese Art werden geringe Abweichungen auch mit nur einem kleinen Malus gewertet, Fehler hingegen schlagen kräftig zu Buche. Diese Auswertetabelle enthält jetzt die Rohdaten, für die genaue Bewertung der Ergebnisse müsste man sich die Daten noch einmal getrennt anschauen. Ebenso müsste man bei Mattankündigungen eine Entsprechung finden, denn eigentlich bedeutet Matt ja nach der Spieltheorie einen Wert von unendlich. Die Praxis der Schachprogramme ist natürlich pragmatischer. Aber diese Auswertung kann man schnell mit Excel machen, der Aufwand steckt in der Ermittlung der Rohdaten. P.S. Einen Vorteil für die Durchführung der Tests sehe darin, dass es nur um den gewählten Zug eines Schachcomputers in einer bestimmten Stellung auf einer bestimmten Stufe geht. Es geht nicht um die exakte Lösungszeit, was ja bei manchen Geräten nur durch absolute Aufmerksamkeit feststellbar ist. Auch entspricht die Auswahl des Zuges genau dem, was als Unterschied bei unterschiedlich getakteten Versionen eines Schachcomputers beobachtet wird – in manchen Stellungen wird ein anderer Zug gefunden. Ja, das problem ist ich moechte auch ein CC1 als Beispiel vergleichen koennen. (CC1 is eigentlich ein scherz er kann ja nicht zugruckgaben machen ) Man sollte nicht vergessen das ich einen Test suche fuer saemtlichen Brettschachcomputers als aller erste, daher ist es nicht moeglich ins Baumstamm zu schauen bei den Meissten alten schwachen Schachcomputers. Wie in meine obigen Beispiele, da spielt ein CXG 3000, CC9, MK12 und Constellation Junior. Daher den Weg du erwaehnst geht hier nicht so richtig ausser ich mache das nur fuer die Top Brettcomputers und dann Lohnt sich das nicht mehr. Der Trick ist man muss einige solche Spiele machen ein Test Spiel reicht nicht aus. Ich habe schon zum Teil 6 spiele Random Bewertet und ich weiss das es Spiele gibt wo der eine Programmierer oder der andere besser abschneidet. Aber im gross und ganzen gleicht sich das wieder aus und die besten programme liegen oben und die schwachen unten. Man soll auch nicht eins vergessen in den obigen ersten Test Spiel, der RS2250 Brute Force spielt zu 81% den besten Zug in 24 Zuegen. Das ware insgesamt um 81% zu erreichen kein Zufall mehr Wenn man das jetzt mal 10diversen Spielen rechnet waeren das insgesamt ca 250 Zuege die gespielt sind und Bewertet sind und so wird sich das auch ausgleichen. Ein Morsch spielt sehr Aktiv und das obige Spiel zeigt nur das der Gegner von Botvinnik mit so einen Spiel Stil auch gegen ein Morsch verlieren wuerde Hier sind die Spiel arten die ich mit den naechsten Testspielen dazufuegen werde: Aktiv Zentrum 2 Spiele Positionell 3 Spiele Angriff 2 Spiele Verteidigung 3 Spiele Kombination 2 Spiele Endspiel 2 Spiele Insgesamt 14 Spiele * ca 25 Zuege = 350 Zuege = ca 1120 Punkte. Zum Schluss wird es auch fuer Brettcomputers ausgeglichen sein und sie werden gegeneinander vergleichbar sein. Das mit den ELO macht Spass, aber daneben stehen auch die Punkte und der Prozentsatz. Hier gibt es 3 wege fuer einen Vergleich. Punkte, % und Nick's ELO ps Ich habe schon 6 Tests fast zu ende Bewertet mit 11 Computers und es klappt hervorragend jedes mal. Viele Gruesse, Nick Geändert von spacious_mind (28.05.2013 um 14:35 Uhr) |
|
||||||||||||
Re: Rating Tests - Dritter Versuch
Hallo Solwac,
Noch ein paar weitere bemerkungen zu dein Post. 1) Unabhaengige Positionen. Hier wuerde ich keinen Weiteren Test machen. Ich habe es ja schon versucht. Das klappt nicht gut fuer Brett Computers. Ich habe ca 50 volle Tests die man damals gemacht hat, von BT 2450, 2630, 2830. Fine Test Kaufmann Test usw usw. Keiner von den Funktioniert richtig weil alle mit der Hand ausgwaehlt wahren und bestimmte Programme haben daher Ihre Vorteile und bestimmte Programme Ihre nachteile. Ausserdem die Stellung ist die geschmack sache der Person und nichts mehr. 2) Baumstamm analysieren Ich finde das auch nicht der Richtige Weg. Ich versuche mal zu erklaeren wieso. Alte Schachcomputers leben fuer Heute und nicht fuer Morgen. Damit meine ich das ein Zug wird gerechnet und der Computer entscheidet sich fuer seinen besten Zug und die meissten rechnen nur innerhalb 30 sekunden 4 ply Tief. Daher so wie ein Mensch muessen sie sich entscheiden welcher der beste Zug ist. In Ihren Kopf haben sie auch zum teil die analyse fuer diese entscheidung. Der computer der pondert hat dann hier seinen Vorteil und manchmal auch seinen Nachteil wenn er zu selektiv rechnet. Der Gegner spielt jetzt sein gegen Zug und der Computer muss ploetzlich wieder von neu Rechnen weil zu 80% (wenn er die Pondern faehigkeit hat) spielt der Gegner ein Zug was er nicht in sein Gehirn erwartet hatte. Und so nach einer Rechnenzeit, entscheidet er sich wieder fuer was er meint der beste Zug ist. Den Baumstamm zu Analysieren hat hier kein Sinn weil der Brettcomputer Zug fuer Zug neu Rechnet (zu 80%) und wieder Entscheidet was fuer Ihn der Beste Zug ist. Es ist diese entscheidung (diesen Fakt) die ich in mein Rating Test bewerte und nicht was die Zukunft vielleicht bringt oder nicht bringt. 3) Computer Analyse. Ich habe absichtlich ein Programm genommen was viel staerker ist als ich damit ich keine selbst entscheidung hier mache. Das gleiche mit der 21 Ply. Ich nehme an das die besten Zuege Bewertet sind und mit dieser Bewertung werden die Computers verglichen. Auch mein Punkt System ist Haar genau gerechnet (siehe unten). Ich koennte auch 5 von den besten Programme nehmen und den Durchschnitt deren 10 Besten Zuege rechnen. Das waere vielleicht noch genauer aber wuerde dann 5 mal so lange dauern um vielleicht 0,1 (ein Zehntel) zu aendern in der bewertung. Wie die obige Bewertungtabelle es auch Zeigt. Die Computers finden schon gute Zuege die auch eine Belohnung bekommen. viele Gruesse, Nick Geändert von spacious_mind (28.05.2013 um 15:39 Uhr) |
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Re: Rating Tests - Dritter Versuch
Ich habe soeben das Top Engine was ich benuetzte fuer die Bewertungen diesen Test spielen lassen und auch den MChess Pro 5.0 auf einen Pentium P75.
Hier sind jetzt die Ergebnisse: viele Gruesse, Nick |
|
||||||||||||
AW: Re: Rating Tests - Dritter Versuch
Hm, ich habe mich wohl nicht deutlich genug ausgedrückt. Es scheint einige Missverständnisse zu geben.
Ja, das problem ist ich moechte auch ein CC1 als Beispiel vergleichen koennen. (CC1 is eigentlich ein scherz er kann ja nicht zugruckgaben machen )
Man sollte nicht vergessen das ich einen Test suche fuer saemtlichen Brettschachcomputers als aller erste, daher ist es nicht moeglich ins Baumstamm zu schauen bei den Meissten alten schwachen Schachcomputers. Wie in meine obigen Beispiele, da spielt ein CXG 3000, CC9, MK12 und Constellation Junior. Daher den Weg du erwaehnst geht hier nicht so richtig ausser ich mache das nur fuer die Top Brettcomputers und dann Lohnt sich das nicht mehr. Spielt man eine Partie nach, so können sogar Schachcomputer ohne Stellungseingabe verwendet werden wenn ein Zug zurückgenommen werden kann. Es braucht noch nicht einmal eine nummerische Bewertung, es reicht der ausgewählte Zug auf einer Stufe. 1) Unabhaengige Positionen.
Hier wuerde ich keinen Weiteren Test machen. Ich habe es ja schon versucht. Das klappt nicht gut fuer Brett Computers. Ich habe ca 50 volle Tests die man damals gemacht hat, von BT 2450, 2630, 2830. Fine Test Kaufmann Test usw usw. Keiner von den Funktioniert richtig weil alle mit der Hand ausgwaehlt wahren und bestimmte Programme haben daher Ihre Vorteile und bestimmte Programme Ihre nachteile. Ausserdem die Stellung ist die geschmack sache der Person und nichts mehr. 2) Baumstamm analysieren
Ich finde das auch nicht der Richtige Weg. Ich versuche mal zu erklaeren wieso. Alte Schachcomputers leben fuer Heute und nicht fuer Morgen. Damit meine ich das ein Zug wird gerechnet und der Computer entscheidet sich fuer seinen besten Zug und die meissten rechnen nur innerhalb 30 sekunden 4 ply Tief. Daher so wie ein Mensch muessen sie sich entscheiden welcher der beste Zug ist. In Ihren Kopf haben sie auch zum teil die analyse fuer diese entscheidung. Der computer der pondert hat dann hier seinen Vorteil und manchmal auch seinen Nachteil wenn er zu selektiv rechnet. Der Gegner spielt jetzt sein gegen Zug und der Computer muss ploetzlich wieder von neu Rechnen weil zu 80% (wenn er die Pondern faehigkeit hat) spielt der Gegner ein Zug was er nicht in sein Gehirn erwartet hatte. Und so nach einer Rechnenzeit, entscheidet er sich wieder fuer was er meint der beste Zug ist. Den Baumstamm zu Analysieren hat hier kein Sinn weil der Brettcomputer Zug fuer Zug neu Rechnet (zu 80%) und wieder Entscheidet was fuer Ihn der Beste Zug ist. Es ist diese entscheidung (diesen Fakt) die ich in mein Rating Test bewerte und nicht was die Zukunft vielleicht bringt oder nicht bringt. Den Effekt guter Vorhersagen und damit erfolgreicher Ponderei ist schwer zu erfassen. Da hier das Timing der gegnerischen Züge entscheident ist, würde ich das nur im direkten Vergleich testen. Stellungstest können das nicht. 3) Computer Analyse.
Ich habe absichtlich ein Programm genommen was viel staerker ist als ich damit ich keine selbst entscheidung hier mache. Das gleiche mit der 21 Ply. Ich nehme an das die besten Zuege Bewertet sind und mit dieser Bewertung werden die Computers verglichen. Auch mein Punkt System ist Haar genau gerechnet (siehe unten). Ich koennte auch 5 von den besten Programme nehmen und den Durchschnitt deren 10 Besten Zuege rechnen. Das waere vielleicht noch genauer aber wuerde dann 5 mal so lange dauern um vielleicht 0,1 (ein Zehntel) zu aendern in der bewertung. Vielleicht sollte das Testverfahren noch ein wenig besprochen werden und dann erst mit der Sammlung von Daten begonnen werden? Das würde ermöglichen, dass möglichst viel vom Aufwand auch wirklich am Ende genutzt werden kann. |
Folgender Benutzer sagt Danke zu Solwac für den nützlichen Beitrag: | ||
spacious_mind (29.05.2013) |
|
||||||||||||
Re: AW: Re: Rating Tests - Dritter Versuch
Hm, ich habe mich wohl nicht deutlich genug ausgedrückt. Es scheint einige Missverständnisse zu geben.
Ein Schachcomputer muss nur folgendes können: In einer Stellung einen Zug bei gegebener Zeiteinstellung (z.B. für Turnierspiel) auswählen. Das können alle Schachcomputer! Spielt man eine Partie nach, so können sogar Schachcomputer ohne Stellungseingabe verwendet werden wenn ein Zug zurückgenommen werden kann. Es braucht noch nicht einmal eine nummerische Bewertung, es reicht der ausgewählte Zug auf einer Stufe. Die von Dir angeführten Stellungstests versuchen alle Schlüsselzüge zu finden und sind deshalb ausgewählt worden. Leider ist dieses Auswahlverfahren sehr schwer für einen Menschen. Deswegen meine Idee um auch Stellungen ohne den einen Schlüsselzug verwenden zu können. Die Gewichtung solcher Stellungen ergibt sich automatisch. Hat man dann Ergebnisse einiger Schachcomputer, dann kann man für einzelne Stellungen die Relevanz überlegen. So macht es wahrscheinlich keinen Sinn, wenn alle Schachcomputer dieselben Züge auswählen wie das Referenzprogramm oder maximal unbedeutende Abweichungen produzieren. Weichen einige Schachcomputer aber stärker ab, so scheint die Stellung zur Unterscheidung der Schachcomputer nützlich zu sein. Das verstehe ich nicht. Was meinst Du mit "Baumstamm analysieren"? Den Effekt guter Vorhersagen und damit erfolgreicher Ponderei ist schwer zu erfassen. Da hier das Timing der gegnerischen Züge entscheident ist, würde ich das nur im direkten Vergleich testen. Stellungstest können das nicht. Richtig, für den Anfang dürfte ein sehr starkes Program ausreichen. Ob man später noch mal weitere Programme mit in die Vorgaben einbeziehen sollte? Man kann es ja probieren, die Hauptarbeit mit den Schachcomputern bleibt davon ja unabhängig. Es werden also keine Ergebnisse ungültig, was ich für sehr wichtig halte. Man steckt halt einmal den Aufwand in die Analyse mit dem Schachprogramm und kann danach beliebig viele Schachcomputer testen. Schick wäre die Verwendung von frei verfügbaren Programmen, weil dann alle ohne finanziellen Aufwand den kompletten test nachvollziehen können. Dies hilft Fehler leichter zu erkennen und ermöglicht die Arbeitsteilung indem jeder Tester selber Teststellungen bzw. Testpartien beisteuern kann. Vielleicht sollte das Testverfahren noch ein wenig besprochen werden und dann erst mit der Sammlung von Daten begonnen werden? Das würde ermöglichen, dass möglichst viel vom Aufwand auch wirklich am Ende genutzt werden kann. Ja, danke jetzt verstehe ich besser. 1) Ein Schachcomputer muss nur folgendes koennen. Stimmt der Computer muss nur die faehigkeit haben Zugrueckgaben zu erlauben und es Funktioniert dann. Dass waeren dann 99% aller alten Brettcomputers und 100% alle anderen Schachprogramme so wie DOS, Palm, Pocket PC usw. 2) Die von Dir angeführten Stellungstests. Ja die Richtung wo ich mich hier lehne ist einen bestimmten Punktsatz per Analyse zu verteilen. Es gibt sicherlich andere Wege und wie du Richtig sagst vielleicht spaeter wenn Ich genuegend Spiele Analysiert habe und Bewertet habe dann koennte man ja aus der Analyse vielleicht bessere oder alternative Wege finden. Ich werde diese aber erst zum Schluss machen sonst lasse ich mich wieder Ablenken Das Programm habe ich schon gezeigt Critter 1.6a, ja mein gedanke ist der gleiche es muss ein programm sein was jeder auch hat damit auch alles Durchsichtlich ist. Du kannst wenn du lust und Zeit hast die Gleichen Spiele sehr gerne anders versuchen zu Bewerten und dann haetten wir hier 2 Bewertungsmoeglichkeiten fuer den Schlussvergleich. Die analyse kann ich dir zur verfuegung Stellen. Fuer andere Spiele die ich noch Analysieren muss waere ich auch dankbar wenn jemand Lust haete ein Spiel durch Arena laufen zu lassen mit 15 PV oder 10 PV und minimum 21/22 ply tief. 3) Baumstamm Analysieren Vielleicht habe ich dich falsch verstanden ich dachte dein Vorschlag war das man nicht nur den Computer gewaehlten Zug aber auch die dahinterstehende analyse des Computers Bewertet und damit bin ich nicht einverstanden weil diese nicht moeglich waere fuer die meissten alten schwaecheren Brettcomputers. Zitieren:
Vielleicht sollte das Testverfahren noch ein wenig besprochen werden und dann erst mit der Sammlung von Daten begonnen werden? Das würde ermöglichen, dass möglichst viel vom Aufwand auch wirklich am Ende genutzt werden kann.
Gruss Nick Geändert von spacious_mind (30.05.2013 um 01:33 Uhr) |
|
||||||||||||
AW: Rating Tests - Dritter Versuch
Ja, Critter 1.6a sollte (z.B. unter Arena) alle Möglichkeiten bieten!
Ich weiß nicht, ob ich am Wochenende die Zeit und Muße finde um einmal eine Partie nach meinen Vorstellungen aufzubereiten und zur Verfügung zu stellen. Mal sehen. |
|
||||||||||||
Re: AW: Rating Tests - Dritter Versuch
Gruss Nick |
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Re: Rating Tests - Dritter Versuch
Das zweite Test Spiel ist ein Spiel aus 1957. Diesmal tun sich eigentlich alle Brettcomputers schwer. Es gibt einige Stellungen wo der Schachcomputer gewaehlte Zug eigentlich von eine gewonnene Stellung zu eine verlorene Stellung umwandelt. Diesmal ist es David Kittinger mit Jade 2 was dieses Spiel am besten versteht. Der King 2.54 ist erstaunlich schlecht, er versteht hier fasst garnichts.
Test Spiel 2 A. MANGINI - A. KOTOV Mar del Plata, Argentina 1957
Der Alexander Kotov spielte dieses Spiel mit einer analysierte Staerke von ELO 2629. Critter 1.6a (unten nicht Angezeigt) schaffte es mit ELO 2828 und P75 - MChess Pro 5 (unten nicht Angezeigt) mit auch nur eine schwache Bewertung von ELO 1751. Ausser Critter 1.6a, saemtliche bis jetzt getesteten Programme haetten in dieses Spiel ganz klar gegen den Alexander Kotov verloren! 1. e4 c5 2. Nf3 d6 3. d4 cxd4 4. Nxd4 Nf6 5. Bd3 Nc6 6. c3 {Start Test}
[Event "Leonard Barden Test Game 2"]
[Site "Mar del Plata, 1957"] [Date "????.??.??"] [Round "?"] [White "Mangini, A."] [Black "Kotov, A."] [Result "0-1"] [ECO "B55"] [Annotator ",Microsoft"] [PlyCount "56"] [EventDate "1957.??.??"] 1. e4 c5 2. Nf3 d6 3. d4 cxd4 4. Nxd4 Nf6 5. Bd3 Nc6 6. c3 {Start Test} e5 { 2.5 = 6. /\ e5; 3.0 = 6. /\ g6; 2.6 = 6. /\ e6; 1.7 = 6. /\ Bd7; 1.7 = 6. /\ Ne5; 1.7 = 6. /\ Qc7; 1.5 = 6. /\ h6; 1.5 = 6. /\ Rb8; 1.3 = 6. /\ a6; 1.2 = 6. /\ Qd7; 1.2 = 6. /\ Bg4; 1.2 = 6. /\ Qb6; 1.1 = 6. /\ Qa5; 1.0 = 6. /\d5} 7. Nc2 d5 {4.0 = 7. /\ d5; 1.7 = 7. /\ Bg4; 1.3 = 7. /\ Be7; 1.0 = 7. /\ Be6} 8. exd5 Nxd5 {3.0 = 8. /\ Nxd5; 2.2 = 8. /\ Qxe5; 1.0 = 8. /\ e4} 9. O-O Be6 { 4.0 = 9. /\ Be6; 2.8 = 9. /\ Be7; 2.8 = 9. /\ Bc5; 1.9 = 9. /\ h5; 1.8 = 9. /\ Nf6; 1.5 = 9. /\ a6; 1.0 = 9. /\h6} 10. Qf3 Bd6 {1.9 = 10. /\ Bd6; 4. 0 0. /\ Qd7; 3.9 = 10. /\ Qf6; 3.1 = 10. /\ Nf6; 2.7 = 10. /\ a6; 2.5 = 10. /\ Qc8; 2. 5 = 10. /\ Rc7; 2.5 = 10. /\ Rc8; 2.5 = 10. /\ Bc5; 2.1 = 10. /\ Be7; 1.9 = 10. /\ Nb6; 1.6 = 10. /\ Qh4; 1.4 = 10. /\ h5; 1.3 = 10. /\ g6; 1.0 = 10. /\ Qb6} 11. Ne3 Nxe3 { 4.0 = 11. /\ Nxe3; 1.7 = 11. /\ Nf4; 1.0 = 11. /\ e4; 1.0 11. /\ Qf6} 12. Bxe3 O-O {4.0 = 12. /\ 0-0; 4.0 = 12. /\ f5; 1.1 = 12. /\ Qc7; 1.0 = 12. / \ Qd7; 1. 0 = 12. /\ Qe7} 13. Nd2 f5 {4.0 = 13. /\ f5; 2.4 = 13. /\ Be7; 1. 4 = 13. /\ Qc8; 1.3 = 13. /\ Qh4; 1.0 = 13. /\ Ba3} 14. Bc4 Qe7 {4.0 = 14. /\ Qe7; 3.6 = 14. /\ Qd7; 3.1 = 14. /\ Qf6; 2.6 = 14. /\ Qe8; 2.0 = 14. /\ Bf7; 2.0 = 14. /\ Qc8; 1.0 = 14. /\ Bxc4} 15. Bxe6+ Qxe6 {1.0 = 15. /\ Qxe6} 16. b4 e4 { 4.0 = 16. /\ e4; 3.1 = 16. /\ Rac8; 3.0 = 16. /\ a5; 2.7 = 16. / \ Bc7; 2.0 = 16. /\ Be7; 1.9 = 16. /\ Rad8; 1.7 = 16. /\ Rfe8; 1.7 = 16. / \ Rfd8; 1.6 = 16. /\ h6; 1.6 = 16. /\ Rfc8; 1.5 = 16. /\ Rae8; 1.4 = 16. / \ Rf6; 1.3 = 16. /\ a6; 1.1 = 16. /\ Kh8; 1.0 = 16. /\Rf7} 17. Qe2 Qe5 {1.0 = 17. /\ Qe5; 4.0 = 17. /\ Be5; 3.3 = 17. /\ Kh8; 3.0 = 17. /\ Ne5; 2. 6 = 17. /\ Rfe8; 2.6 = 17. /\ Rae8; 2.5 = 17. /\ Rac8; 2.2 = 17. /\ Ne7; 1. 8 = 17. /\ Rfd8; 1.5 = 17. /\ Rf7; 1.5 = 17. /\ Bc7; 1.3 = 17. /\ Rfc8; 1. 3 = 17. /\b6} 18. Qc4+ Kh8 { 2.0 = 18. /\ Kh8; 1.0 = 18. /\ Rf7} 19. g3 Rac8 {4.0 = 19. /\ Rac8; 2.9 = 19. / \ Qf6; 1.5 = 19. /\ Qe7; 1.5 = 19. /\ f4; 1. 0 = 19. /\ Qe8} 20. Rfd1 Qf6 { 4.0 = 20. /\ Qf6; 2.0 = 20. /\ Qe7; 1.5 = 20. /\ Bb8; 1.2 = 20. /\ b5; 1.0 = 20. /\ Be7} 21. Qb3 Be5 {4.0 = 21. /\ Be5; 3. 6 = 21. /\ b6; 1.6 = 21. /\ Bc7; 1.5 = 21. /\ Rcd8; 1.2 = 21. /\ Ne5; 1.0 = 21. /\ Rfe8; 1.0 = 21. /\ Bb8} 22. Nc4 f4 {4.0 = 22. /\ f4; 1.7 = 22. /\ b6; 1.0 = 22. /\ b5} 23. Bc5 e3 { 1.7 = 23. /\ e3; 4.0 = 23. /\ Na5; 2.4 = 23. /\ Rfe8; 1.0 = 23. /\ Qf5} 24. Bxf8 exf2+ {4.0 = 24. /\ exf2+; 3.8 = 24. /\ fxg3} 25. Kg2 Rxf8 { 3.0 = 25. /\ Rxf8; 1.3 = 25. /\ fxg3} 26. Rd3 fxg3 { 3.0 = 26. /\ fxg3; 2.5 = 26. /\ f3} 27. Nd2 gxh2 {2.0 = 27. /\ gxh2} 28. Nf1 Qg6+ {1.0 = 28. /\ Qg6+; 3.0 = 28. /\ h1Q+; 3.0 = 28. /\ h1B+; 2.0 = 28. / \ h1R+; 1.0 = 28. /\ Qg5+; 1.0 = 28. /\ Qh4} 0-1 Test Spiel 2 Ratings - Ergebnisse Test Spiel 2 Platzierung Der Durchschnittwert nach 2 Testspiele sieht so aus: Durchschnitt nach 2 Testspiele http://spacious-mind.com/forum_repor...test_final.ods Hier ist auch das PGN Spiel: http://spacious-mind.com/forum_reports/tests/spacious_mind_test_game1.pgn Viele Gruesse, Nick Geändert von spacious_mind (01.06.2013 um 15:44 Uhr) |
|
|
Ähnliche Themen | ||||
Thema | Erstellt von | Forum | Antworten | Letzter Beitrag |
WIKI ELO Rating For Resurrection Fruit 05?? | Steveb | Teststellungen und Elo Listen / Test positions and Elo lists | 0 | 14.12.2005 16:46 |
Frage: gibt es Tests oder Turniere oder Partien mit dem Mephisto Master Chess ? | mclane | Die ganze Welt der Schachcomputer / World of chess computers | 7 | 18.04.2005 21:34 |