Test: Rating Tests - Dritter Versuch - Schachcomputer.info Community

		Schachcomputer.info Community > Schachcomputer / Chess Computer: > Teststellungen und Elo Listen / Test positions and Elo lists
Test: Rating Tests - Dritter Versuch

Seite 1 von 2

Themen-Optionen

Ansicht

28.05.2013, 06:42

spacious_mind spacious_mind ist offline

Lebende Foren Legende

Dabei seit 18 Jahren, 4 Monaten und 2 Tagen.

Registriert seit: 29.06.2006

Ort: Alabama, USA

Land:

Beiträge: 2.170

Abgegebene Danke: 594

Erhielt 1.008 Danke für 448 Beiträge

Rating Tests - Dritter Versuch

Hier ist mein Dritter und hoffentlich Letzter versuch einen guten Test zu erarbeiten fuer alle meine Schachprogramme.

Um was richtiges zu machen, da gibt es leider kein kurzer Weg.

Mein erster Versuch bei Stellungstests da scheitert es wegen der schwierigkeit gute Stellungen zu finden die fuer alle schachcomputer passen.

Mein zweiter Versuch miit den Barden Test da ist es auch nicht gerade so einfach weil der Herr Barden leider sehr viele Stellungen sehr schlecht Bewertet hatte.

So jetzt beim dritten Test da bleibe ich bei der Idee ganze Spiele zu Bewerten und weiterhin werde ich die Spiele benuetzen aus den Barden Test. Diesmal habe ich aber jeden Zug 21 Ply Tief selber Bewertet mit einer der Staerksten Programme die es Heute gibt. Fuer jeden Zug habe ich auch jedes mal die besten 10 Zuege bewertet und die Punkte mit eine Formel angepasst. So gibt es hier kein schaetzen wie der Herr Barden es machte in sein Buch.

Test Spiel 1

M. BOTVINNIK - H. GROB
Zurich, Switzerland, 1956

1. Nf3 Nf6 2. c4 d5 3. cxd5 Nxd5 4. e4 Nf6 5. Nc3 e6 6. d4 c5 {Test Start}

[Event "Leonard Barden Test Game 1"]
[Site "Zurich 1956"]
[Date "????.??.??"]
[Round "?"]
[White "Botvinnik, M."]
[Black "Grob, H."]
[Result "1-0"]
[ECO "D06"]
[Annotator ",Microsoft"]
[PlyCount "59"]
[EventDate "1956.??.??"]

1. Nf3 Nf6 2. c4 d5 3. cxd5 Nxd5 4. e4 Nf6 5. Nc3 e6 6. d4 c5 {Test Start} 7.
d5 {7. d5 2.5; 7. Bf4 3.0; 7. Be2 2.3; 7. Bb5+ 1.8; 7. Be3 1.1; 7. a3 1.
1; 7. Bg5 1.1; 7. e5 1.0} a6 8. Bg5 {8. Bg5 1.6; 8. Bf4 3.0; 8. d6 2.0; 8.
Bd3 1.9; 8. a4 1.8; 8. Qa4+ 1.1; 8. g3 1.0} Qb6 9. Bxf6 {9. Bxf6 1.0; 9.
Bc4 3.0; 9. Bd3 2.6; 9. Qa4+ 2.2; 9. Qc2 1.9; 9. Qd2 1.7; 9. Qe2 1.7; 9.
Be2 1.6; 9. Rc1 1.2; 9. Ne5 1.2} gxf6 10. Qd2 {10. Qd2 2.6; 10. Qc2 4.0;
10. a3 3.1; 10. Rb1 2.2; 10. Qc1 1.6; 10. Qe2 1.1; 10. Nd2 1.1; 10. Qb1
1.0} h5 11. Be2 {11. Be2 3.0; 11. Bc4 3.0; 11. Rd1 3.0; 11. a4 2.4; 11.
Qc2 1.6; 11. Bd3 1.0; 11. g3 1.0} Nd7 12. O-O {12. 0-0 3.0; 12. Rd1 2.4;
12. dxe6 1.7; 12. a4 1.3; 12. Qc2 1.1; 12. h4 1.0} h4 13. a4 {13. a4 1.1;
13. Rad1 3.0; 13, Rfd1 2.8; 13, h3 2.7; 13. Rfe1 2.0; 13. dxe6 1.4; 13.
a3 1.2; 13. Qc2 1.0} Bh6 14. Qc2 {14. Qc2 2.0; 14. Qd3 1.2} Bf4 15. a5 {
15. a5 1.4; 15. dxe6 2.0; 15. Rfd1 1.3; 15. h3 1.0} Qc7 16. Rfd1 {
16. Rfd1 1.2; 16. e5 3.0; 16. h3 1.4; 16. Na4 1.2; 16. dxe6 1.0} Ne5 17.
Nxe5 {17. Nxe5 1.6; 17. h3 3.0; 17. Na4 2.7; 17. Nd2 1.2; 17. g3 1.0} Bxe5
18. h3 {18. h3 3.0; 18. Kh1 3.0; 18. Na4 2.4; 18. dxe6 1.0} Bd7 19. Na4 {
19. Na4 3.0} Bxa4 20. Rxa4 {20. Rxa4 2.1; 20. Qxa4 3.0} Rc8 21. Rc4 {
21. Rc4 4.0; 21. Bg4 2.3; 21. b3 2.1; 21. Ra3 2.0; 21. dxe6 1.9; 21. Kf1
1.5; 21. Qd2 1.5; 21. Bc4 1.4; 21. Qc1 1.4; 21. Qb3 1.0} Qxa5 22. b4 {
22. b4 4.0; 22. dxe6 2.1; 22. Qc1 1.0; 22. Bg4 1.0} Qa3 23. Rxc5 {
23. Rxc5 4.4; 23. dxe6 5.0; 23. bxc5 1.8; 23. Bg4 1.6; 23. Qd2 1.5; 23.
d6 1.3; 23. Kh1 1.0; 23. Kf1 1.0; 23. Rd2 1.0} Rd8 24. dxe6 {24. dxe6 4.0}
Bd6 25. Rxd6 {25. Rxd6 3.2; 25. exf7+ 5.0; 25. e5 4.7; 25. Rc8 2.3; 25.
Rh5 2.2; 25. Rc4 2.0; 25. Bh5 2.0; 25. Rcd5 1.9; 25. Rc3 1.3; 25. Rf5 1.
0} Rxd6 26. Rc8+ {26. Rc8+ 4.0; 26. exf7+ 2.0} Ke7 27. Qc7+ {
27. Qc7+ 2.0; 27. Rc7+ 3.0; 27. Rxh8 1.0} Kxe6 28. Bg4+ {
28. Bg4+ 4.0; 28. Rxh8 4.0; 28. Bc4+ 2.0; 28. Qc4+ 1.0} f5 29. Bxf5+ {
29. Bxf5+ 3.0; 29.exf5+ 2.0} Ke5 30. Qc5+ {
30. Qc5+ 3.0; 30. Qe7+ 3.0; 30. f4+ 2.0; 30. Rxc8 1.0} 1-0

Test Spiel 1 Ratings - Ergebnisse

Die Bewertung ist jetzt naturlich 3000 ELO maximal. Das ist ja auch so in etwa richtig weil das Programm was die Stellungen bewertet hatte ja auch eine staerke von 3000 ELO Plus.

Herr Botvinnik war ja auch Bewertet und wenn ich die zur Zeitigen Resultate liste dann is es so:

1. Radioshack 2250XL Brute Force = ELO 2453
2. Herr Botvinnik = ELO 2426
3. Saitek Travel Champion 2100 = ELO 2351
4. Tasc CM 512K – 15 MHZ – KING 2.54 = ELO 2333
5. Radioshack 2250XL Selective = ELO 2306
6. Mephisto TM Vancouver 68030 36 MHz = ELO 2288
7. Novag Jade 2 = ELO 2138
8. CXG 3000 = ELO 1800
9. Saitek MK 12 Trainer LV 5 90S/Zug = ELO 1594
10. Fidelity Sensory 9 = ELO 1553
11. Novag Constellation JR = ELO 1470
12. Saitek MK 12 Trainer LV 4 15S/Zug = ELO 1361

Wow wer haette es gedacht. Ich weiss nicht ob ich irgendwo ein Tippfehler machte. Ich glaube aber nicht. Der Radioshack 2250XL mit Brute Force spielte dieses Spiel wie ein Weltmeister und schlaegt sogar einen Weltmeister !!

Jeder spielt 30 Sekunden pro Zug oder 60/30 (40/20) ausser die Programme die solche Spielstufe nicht haben.

Um auch zu Beweisen das es hier nicht mit Zufaelle ablauft. Hier ist ein Spiel was ich neulich dann sofort spielte um zu schauen ob der MK12 Trainer tatsachlich den CC9 schlagen koennte. Der MK12 Trainer kann nicht Pondern der CC9 kann Pondern. Der CC9 spielte mit 30S pro Zug (Info 1559 ELO) Der MK12 mit 2 Minuten pro Zug:

[Event "Test Game"]
[Site "Pelham, Alabama, USA"]
[Date "2013.05.19"]
[Round "1"]
[White "Saitek MK 12 Trainer, 120S."]
[Black "Fidelity CC9, 30S."]
[Result "1-0"]
[ECO "D53"]
[WhiteElo "1284"]
[BlackElo "1559"]
[Annotator ",Microsoft"]
[PlyCount "83"]
[EventDate "2013.05.19"]
[EventType "match (rapid)"]
[EventRounds "1"]
[EventCountry "USA"]

1. d4 d5 2. c4 e6 3. Nc3 Nf6 4. Bg5 Be7 5. e3 O-O {
Saitek MK 12 Trainer out of book} 6. Qf3 {Fidelity CC9 out of book} Nbd7 7.
O-O-O Nb6 8. c5 Nbd7 9. Nh3 h6 10. Bf4 g5 11. Qg3 Nh5 12. Qf3 Ndf6 13. g4 Nxf4
14. exf4 e5 15. Rg1 exd4 16. Rxd4 Bxc5 17. Rd3 Bxg4 18. Rxg4 Nxg4 19. Qxg4 c6
20. fxg5 hxg5 21. Nxg5 f5 22. Qg2 Qe7 23. Ne6+ Kf7 24. Nxf8 Kxf8 25. Rf3 Qe1+
26. Kc2 Qe5 27. Qh3 f4 28. Qh6+ Kg8 29. Qxf4 Qxf4 30. Rxf4 Rf8 31. Rxf8+ Bxf8
32. Bd3 d4 33. Bc4+ Kg7 34. Ne4 Kg6 35. Kd3 c5 36. Bd5 b6 37. b4 a5 38. bxa5 b5
39. a6 Kf5 40. a7 Ke5 41. a8=Q c4+ 42. Kc2 1-0

Das der MK12 Trainer hoeher liegt in den ersten Rating Test als der CC9 hat er jezts glaube ich gezeigt das es Moeglich ist.

Hier ist die Opentext Datei fuer Rating Test 1. Ich habe es vorbereitet das man nur die Zuege und Schachcomputer Information eingeben muss.
Die Tabelle wird das Ergebniss automatisch rechen Ihr muesst nur den Zug eingeben und die Punkte fuer den Zug. Wenn der Zug nicht Links in der Tabelle gelistet ist dann bekommt der gespielte Zug garnichts und man muss es in der Roten Reihe angeben mit 0 Punkte. Bitte keine weiteren Zuege in der Tabelle dazufuegen weil die restlichen Zuege die nicht angezeigt sind alle Schrott sind und bekommen keinen Punkt.

http://spacious-mind.com/forum_repor...test_final.ods

Hier ist auch das PGN Spiel:

http://spacious-mind.com/forum_repor...test_game1.pgn

So Ich hoffe noch ca 9 - 12 weitere Spiele in diesen Rating Test dazufuegen und das wird auch den Schlussrating zum Schluss fuer alle Computers ausgleichen.

Bitte probiert mal den Test!! Es Macht Spass !!!!

Viele Gruesse,

Nick

Geändert von spacious_mind (28.05.2013 um 16:17 Uhr)

Folgende 2 Benutzer sagen Danke zu spacious_mind für den nützlichen Beitrag:
kiteman † (28.05.2013), Theo (28.05.2013)

28.05.2013, 09:11

Solwac

Revelation

Dabei seit 14 Jahren, 3 Monaten und 14 Tagen.

Registriert seit: 18.07.2010

Land:

Beiträge: 782

Abgegebene Danke: 189

Erhielt 338 Danke für 216 Beiträge

AW: Rating Tests - Dritter Versuch

Hi!
Eines vorweg: Du schreibst, es würde Spaß machen und das ist auch das wichtigste! Ohne Spaß wäre ein Hobby auch fehl am Platz.
Aber ich hoffe, Du legst dich nicht zu sehr auf das Ergebnis in Form einer Elozahl fest. Denn beim nach spielen mit verschiedenen Computern testest Du nicht die Spielstärke, Du testest die Übereinstimmung mit dem 3000+-Schachprogramm. Diese ergibt sich bei ganzen Partien aber nicht nur aus kritischen Stellungen sondern auch aus Stellung mit mehreren praktisch gleichwertigen Zügen. Bei solchen Zügen ist die Übereinstimmung aber nicht unbedingt an die Spielstärke gekoppelt.
Ein Beispiel zur Erläuterung: Die Partie bestehe aus fünf Zügen, von denen vier jeweils auch Alternativen haben und einer eine Gewinnkombination einleitet. Das Schachprogramm gibt fünf Züge vor, darunter auch die Kombination. Schachcomputer A wählt jetzt die ersten vier Züge gleich und findet die Kombination nicht – macht 80%. Schachcomputer B wählt bei den ersten vier Zügen Alternativen, findet aber die Kombination – macht 20%. Ist A jetzt stärker als B?

Eine Idee zur Verbesserung, von der ich das Ergebnis nicht abschätzen kann: Du erstellst für soundso viele Stellungen (diese können einer Partie entspringen, besser aber eher unabhängige Positionen) eine Liste der Alternativen mit der Bewertung durch das starke Schachprogramm. Dazu kann der Multivariantenmodus genutzt werden. Die Schachcomputer suchen dann jeweils mit der gewünschten Stufe (z.B. Turnierstufe) in jeder Stellung ihren besten Zug. In die Wertung geht dann jeweils die Differenz der Bewertungen des Schachprogramms für die beiden Züge (Referenz des Schachprogramms und gewählter Zug des Schachcomputers). Wieder ein Beispiel: In der Eröffnungsstellung gibt das Schachprogramm folgende Bewertungen zurück: e4 (0,10), d4 (0,09), Sf3 (0,08), … , h3 (-0,12). e4 ist also der vom Schachprogramm gewählte Zug und die Alternativen sind bis 0,22 schlechter. Folgt ein Schachcomputer jetzt den Zügen des Programms, dann wird ein solcher Zug mit 0 in die Auswertetabelle eingetragen. Im Beispiel würde für die Alternative d4 also -0,01 eingetragen, weil dies der Differenz zwischen 0,10 und 0,09 entspricht. Auf diese Art werden geringe Abweichungen auch mit nur einem kleinen Malus gewertet, Fehler hingegen schlagen kräftig zu Buche. Diese Auswertetabelle enthält jetzt die Rohdaten, für die genaue Bewertung der Ergebnisse müsste man sich die Daten noch einmal getrennt anschauen. Ebenso müsste man bei Mattankündigungen eine Entsprechung finden, denn eigentlich bedeutet Matt ja nach der Spieltheorie einen Wert von unendlich. Die Praxis der Schachprogramme ist natürlich pragmatischer. Aber diese Auswertung kann man schnell mit Excel machen, der Aufwand steckt in der Ermittlung der Rohdaten.
P.S. Einen Vorteil für die Durchführung der Tests sehe darin, dass es nur um den gewählten Zug eines Schachcomputers in einer bestimmten Stellung auf einer bestimmten Stufe geht. Es geht nicht um die exakte Lösungszeit, was ja bei manchen Geräten nur durch absolute Aufmerksamkeit feststellbar ist. Auch entspricht die Auswahl des Zuges genau dem, was als Unterschied bei unterschiedlich getakteten Versionen eines Schachcomputers beobachtet wird – in manchen Stellungen wird ein anderer Zug gefunden.

Folgende 2 Benutzer sagen Danke zu Solwac für den nützlichen Beitrag:
kiteman † (28.05.2013), Theo (28.05.2013)

28.05.2013, 13:27

spacious_mind spacious_mind ist offline

Lebende Foren Legende

Registriert seit: 29.06.2006

Ort: Alabama, USA

Land:

Beiträge: 2.170

Abgegebene Danke: 594

Erhielt 1.008 Danke für 448 Beiträge

Re: AW: Rating Tests - Dritter Versuch

Zitat von Solwac

Hallo Solwac,

Ja, das problem ist ich moechte auch ein CC1 als Beispiel vergleichen koennen. (CC1 is eigentlich ein scherz er kann ja nicht zugruckgaben machen

)

Man sollte nicht vergessen das ich einen Test suche fuer saemtlichen Brettschachcomputers als aller erste, daher ist es nicht moeglich ins Baumstamm zu schauen bei den Meissten alten schwachen Schachcomputers. Wie in meine obigen Beispiele, da spielt ein CXG 3000, CC9, MK12 und Constellation Junior.

Daher den Weg du erwaehnst geht hier nicht so richtig ausser ich mache das nur fuer die Top Brettcomputers und dann Lohnt sich das nicht mehr.

Der Trick ist man muss einige solche Spiele machen ein Test Spiel reicht nicht aus.

Ich habe schon zum Teil 6 spiele Random Bewertet und ich weiss das es Spiele gibt wo der eine Programmierer oder der andere besser abschneidet. Aber im gross und ganzen gleicht sich das wieder aus und die besten programme liegen oben und die schwachen unten.

Man soll auch nicht eins vergessen in den obigen ersten Test Spiel, der RS2250 Brute Force spielt zu 81% den besten Zug in 24 Zuegen. Das ware insgesamt um 81% zu erreichen kein Zufall mehr

Wenn man das jetzt mal 10diversen Spielen rechnet waeren das insgesamt ca 250 Zuege die gespielt sind und Bewertet sind und so wird sich das auch ausgleichen.

Ein Morsch spielt sehr Aktiv und das obige Spiel zeigt nur das der Gegner von Botvinnik mit so einen Spiel Stil auch gegen ein Morsch verlieren wuerde

Hier sind die Spiel arten die ich mit den naechsten Testspielen dazufuegen werde:

Aktiv Zentrum 2 Spiele
Positionell 3 Spiele
Angriff 2 Spiele
Verteidigung 3 Spiele
Kombination 2 Spiele
Endspiel 2 Spiele

Insgesamt 14 Spiele * ca 25 Zuege = 350 Zuege = ca 1120 Punkte.

Zum Schluss wird es auch fuer Brettcomputers ausgeglichen sein und sie werden gegeneinander vergleichbar sein.

Das mit den ELO macht Spass, aber daneben stehen auch die Punkte und der Prozentsatz. Hier gibt es 3 wege fuer einen Vergleich. Punkte, % und Nick's ELO

ps Ich habe schon 6 Tests fast zu ende Bewertet mit 11 Computers und es klappt hervorragend jedes mal.

Viele Gruesse,

Nick

Geändert von spacious_mind (28.05.2013 um 14:35 Uhr)

28.05.2013, 15:33

spacious_mind spacious_mind ist offline

Lebende Foren Legende

Registriert seit: 29.06.2006

Ort: Alabama, USA

Land:

Beiträge: 2.170

Abgegebene Danke: 594

Erhielt 1.008 Danke für 448 Beiträge

Re: Rating Tests - Dritter Versuch

Hallo Solwac,

Noch ein paar weitere bemerkungen zu dein Post.

1) Unabhaengige Positionen.
Hier wuerde ich keinen Weiteren Test machen. Ich habe es ja schon versucht. Das klappt nicht gut fuer Brett Computers. Ich habe ca 50 volle Tests die man damals gemacht hat, von BT 2450, 2630, 2830. Fine Test Kaufmann Test usw usw.

Keiner von den Funktioniert richtig weil alle mit der Hand ausgwaehlt wahren und bestimmte Programme haben daher Ihre Vorteile und bestimmte Programme Ihre nachteile. Ausserdem die Stellung ist die geschmack sache der Person und nichts mehr.

2) Baumstamm analysieren
Ich finde das auch nicht der Richtige Weg. Ich versuche mal zu erklaeren wieso. Alte Schachcomputers leben fuer Heute und nicht fuer Morgen. Damit meine ich das ein Zug wird gerechnet und der Computer entscheidet sich fuer seinen besten Zug und die meissten rechnen nur innerhalb 30 sekunden 4 ply Tief. Daher so wie ein Mensch muessen sie sich entscheiden welcher der beste Zug ist. In Ihren Kopf haben sie auch zum teil die analyse fuer diese entscheidung. Der computer der pondert hat dann hier seinen Vorteil und manchmal auch seinen Nachteil wenn er zu selektiv rechnet. Der Gegner spielt jetzt sein gegen Zug und der Computer muss ploetzlich wieder von neu Rechnen weil zu 80% (wenn er die Pondern faehigkeit hat) spielt der Gegner ein Zug was er nicht in sein Gehirn erwartet hatte. Und so nach einer Rechnenzeit, entscheidet er sich wieder fuer was er meint der beste Zug ist.

Den Baumstamm zu Analysieren hat hier kein Sinn weil der Brettcomputer Zug fuer Zug neu Rechnet (zu 80%) und wieder Entscheidet was fuer Ihn der Beste Zug ist. Es ist diese entscheidung (diesen Fakt) die ich in mein Rating Test bewerte und nicht was die Zukunft vielleicht bringt oder nicht bringt.

3) Computer Analyse.
Ich habe absichtlich ein Programm genommen was viel staerker ist als ich damit ich keine selbst entscheidung hier mache. Das gleiche mit der 21 Ply. Ich nehme an das die besten Zuege Bewertet sind und mit dieser Bewertung werden die Computers verglichen. Auch mein Punkt System ist Haar genau gerechnet (siehe unten). Ich koennte auch 5 von den besten Programme nehmen und den Durchschnitt deren 10 Besten Zuege rechnen. Das waere vielleicht noch genauer aber wuerde dann 5 mal so lange dauern um vielleicht 0,1 (ein Zehntel) zu aendern in der bewertung.

Wie die obige Bewertungtabelle es auch Zeigt. Die Computers finden schon gute Zuege die auch eine Belohnung bekommen.

viele Gruesse,

Nick

Geändert von spacious_mind (28.05.2013 um 15:39 Uhr)

28.05.2013, 18:47

spacious_mind spacious_mind ist offline

Lebende Foren Legende

Registriert seit: 29.06.2006

Ort: Alabama, USA

Land:

Beiträge: 2.170

Abgegebene Danke: 594

Erhielt 1.008 Danke für 448 Beiträge

Re: Rating Tests - Dritter Versuch

Ich habe soeben das Top Engine was ich benuetzte fuer die Bewertungen diesen Test spielen lassen und auch den MChess Pro 5.0 auf einen Pentium P75.

Hier sind jetzt die Ergebnisse:

PLATZ	SPIELER	PUNKTE	% WERT	NICK'S ELO
1	Critter 1.6a 64 Bit - AMD Phenom 2 Core 2.8GHZ	73.8	92.25%	2768
2	Radioshack 2250XL Brute Force	65.4	81.75%	2453
3	Herr Botvinnik	64.7	80.88%	2426
4	Saitek Travel Champion 2100	62.7	78.38%	2351
5	Tasc CM 512K – 15 MHZ – KING 2.54	62.2	77.75%	2333
6	Radioshack 2250XL Selective	61.5	76.88%	2306
7	Mephisto TM Vancouver 68030 36 MHz	61.0	76.25%	2288
8	MChess Pro 5 - P75	58.9	73.63%	2209
9	Novag Jade 2	57.0	71.25%	2138
10	CXG 3000	48.0	60.00%	1800
11	Saitek MK 12 Trainer LV 5 90S/Zug	42.5	53.13%	1594
12	Fidelity Sensory 9	41.4	51.75%	1553
13	Novag Constellation JR	39.2	49.00%	1470
14	Saitek MK 12 Trainer LV 4 15S/Zug	36.3	45.38%	1361

viele Gruesse,

Nick

29.05.2013, 08:56

Solwac

Revelation

Registriert seit: 18.07.2010

Land:

Beiträge: 782

Abgegebene Danke: 189

Erhielt 338 Danke für 216 Beiträge

AW: Re: Rating Tests - Dritter Versuch

Hm, ich habe mich wohl nicht deutlich genug ausgedrückt. Es scheint einige Missverständnisse zu geben.

Zitat von spacious_mind

Ja, das problem ist ich moechte auch ein CC1 als Beispiel vergleichen koennen. (CC1 is eigentlich ein scherz er kann ja nicht zugruckgaben machen

Zitat von spacious_mind

1) Unabhaengige Positionen.
Hier wuerde ich keinen Weiteren Test machen. Ich habe es ja schon versucht. Das klappt nicht gut fuer Brett Computers. Ich habe ca 50 volle Tests die man damals gemacht hat, von BT 2450, 2630, 2830. Fine Test Kaufmann Test usw usw.

Keiner von den Funktioniert richtig weil alle mit der Hand ausgwaehlt wahren und bestimmte Programme haben daher Ihre Vorteile und bestimmte Programme Ihre nachteile. Ausserdem die Stellung ist die geschmack sache der Person und nichts mehr.

Die von Dir angeführten Stellungstests versuchen alle Schlüsselzüge zu finden und sind deshalb ausgewählt worden. Leider ist dieses Auswahlverfahren sehr schwer für einen Menschen. Deswegen meine Idee um auch Stellungen ohne den einen Schlüsselzug verwenden zu können. Die Gewichtung solcher Stellungen ergibt sich automatisch. Hat man dann Ergebnisse einiger Schachcomputer, dann kann man für einzelne Stellungen die Relevanz überlegen. So macht es wahrscheinlich keinen Sinn, wenn alle Schachcomputer dieselben Züge auswählen wie das Referenzprogramm oder maximal unbedeutende Abweichungen produzieren. Weichen einige Schachcomputer aber stärker ab, so scheint die Stellung zur Unterscheidung der Schachcomputer nützlich zu sein.

Zitat von spacious_mind

2) Baumstamm analysieren
Ich finde das auch nicht der Richtige Weg. Ich versuche mal zu erklaeren wieso. Alte Schachcomputers leben fuer Heute und nicht fuer Morgen. Damit meine ich das ein Zug wird gerechnet und der Computer entscheidet sich fuer seinen besten Zug und die meissten rechnen nur innerhalb 30 sekunden 4 ply Tief. Daher so wie ein Mensch muessen sie sich entscheiden welcher der beste Zug ist. In Ihren Kopf haben sie auch zum teil die analyse fuer diese entscheidung. Der computer der pondert hat dann hier seinen Vorteil und manchmal auch seinen Nachteil wenn er zu selektiv rechnet. Der Gegner spielt jetzt sein gegen Zug und der Computer muss ploetzlich wieder von neu Rechnen weil zu 80% (wenn er die Pondern faehigkeit hat) spielt der Gegner ein Zug was er nicht in sein Gehirn erwartet hatte. Und so nach einer Rechnenzeit, entscheidet er sich wieder fuer was er meint der beste Zug ist.

Den Baumstamm zu Analysieren hat hier kein Sinn weil der Brettcomputer Zug fuer Zug neu Rechnet (zu 80%) und wieder Entscheidet was fuer Ihn der Beste Zug ist. Es ist diese entscheidung (diesen Fakt) die ich in mein Rating Test bewerte und nicht was die Zukunft vielleicht bringt oder nicht bringt.

Das verstehe ich nicht. Was meinst Du mit "Baumstamm analysieren"?

Den Effekt guter Vorhersagen und damit erfolgreicher Ponderei ist schwer zu erfassen. Da hier das Timing der gegnerischen Züge entscheident ist, würde ich das nur im direkten Vergleich testen. Stellungstest können das nicht.

Zitat von spacious_mind

3) Computer Analyse.
Ich habe absichtlich ein Programm genommen was viel staerker ist als ich damit ich keine selbst entscheidung hier mache. Das gleiche mit der 21 Ply. Ich nehme an das die besten Zuege Bewertet sind und mit dieser Bewertung werden die Computers verglichen. Auch mein Punkt System ist Haar genau gerechnet (siehe unten). Ich koennte auch 5 von den besten Programme nehmen und den Durchschnitt deren 10 Besten Zuege rechnen. Das waere vielleicht noch genauer aber wuerde dann 5 mal so lange dauern um vielleicht 0,1 (ein Zehntel) zu aendern in der bewertung.

Richtig, für den Anfang dürfte ein sehr starkes Program ausreichen. Ob man später noch mal weitere Programme mit in die Vorgaben einbeziehen sollte? Man kann es ja probieren, die Hauptarbeit mit den Schachcomputern bleibt davon ja unabhängig. Es werden also keine Ergebnisse ungültig, was ich für sehr wichtig halte. Man steckt halt einmal den Aufwand in die Analyse mit dem Schachprogramm und kann danach beliebig viele Schachcomputer testen. Schick wäre die Verwendung von frei verfügbaren Programmen, weil dann alle ohne finanziellen Aufwand den kompletten test nachvollziehen können. Dies hilft Fehler leichter zu erkennen und ermöglicht die Arbeitsteilung indem jeder Tester selber Teststellungen bzw. Testpartien beisteuern kann.

Vielleicht sollte das Testverfahren noch ein wenig besprochen werden und dann erst mit der Sammlung von Daten begonnen werden? Das würde ermöglichen, dass möglichst viel vom Aufwand auch wirklich am Ende genutzt werden kann.

Folgender Benutzer sagt Danke zu Solwac für den nützlichen Beitrag:
spacious_mind (29.05.2013)

29.05.2013, 13:34

spacious_mind spacious_mind ist offline

Lebende Foren Legende

Registriert seit: 29.06.2006

Ort: Alabama, USA

Land:

Beiträge: 2.170

Abgegebene Danke: 594

Erhielt 1.008 Danke für 448 Beiträge

Re: AW: Re: Rating Tests - Dritter Versuch

Zitat von Solwac

Hm, ich habe mich wohl nicht deutlich genug ausgedrückt. Es scheint einige Missverständnisse zu geben.

Ein Schachcomputer muss nur folgendes können: In einer Stellung einen Zug bei gegebener Zeiteinstellung (z.B. für Turnierspiel) auswählen. Das können alle Schachcomputer!
Spielt man eine Partie nach, so können sogar Schachcomputer ohne Stellungseingabe verwendet werden wenn ein Zug zurückgenommen werden kann. Es braucht noch nicht einmal eine nummerische Bewertung, es reicht der ausgewählte Zug auf einer Stufe.

Die von Dir angeführten Stellungstests versuchen alle Schlüsselzüge zu finden und sind deshalb ausgewählt worden. Leider ist dieses Auswahlverfahren sehr schwer für einen Menschen. Deswegen meine Idee um auch Stellungen ohne den einen Schlüsselzug verwenden zu können. Die Gewichtung solcher Stellungen ergibt sich automatisch. Hat man dann Ergebnisse einiger Schachcomputer, dann kann man für einzelne Stellungen die Relevanz überlegen. So macht es wahrscheinlich keinen Sinn, wenn alle Schachcomputer dieselben Züge auswählen wie das Referenzprogramm oder maximal unbedeutende Abweichungen produzieren. Weichen einige Schachcomputer aber stärker ab, so scheint die Stellung zur Unterscheidung der Schachcomputer nützlich zu sein.
Das verstehe ich nicht. Was meinst Du mit "Baumstamm analysieren"?

Den Effekt guter Vorhersagen und damit erfolgreicher Ponderei ist schwer zu erfassen. Da hier das Timing der gegnerischen Züge entscheident ist, würde ich das nur im direkten Vergleich testen. Stellungstest können das nicht.
Richtig, für den Anfang dürfte ein sehr starkes Program ausreichen. Ob man später noch mal weitere Programme mit in die Vorgaben einbeziehen sollte? Man kann es ja probieren, die Hauptarbeit mit den Schachcomputern bleibt davon ja unabhängig. Es werden also keine Ergebnisse ungültig, was ich für sehr wichtig halte. Man steckt halt einmal den Aufwand in die Analyse mit dem Schachprogramm und kann danach beliebig viele Schachcomputer testen. Schick wäre die Verwendung von frei verfügbaren Programmen, weil dann alle ohne finanziellen Aufwand den kompletten test nachvollziehen können. Dies hilft Fehler leichter zu erkennen und ermöglicht die Arbeitsteilung indem jeder Tester selber Teststellungen bzw. Testpartien beisteuern kann.

Vielleicht sollte das Testverfahren noch ein wenig besprochen werden und dann erst mit der Sammlung von Daten begonnen werden? Das würde ermöglichen, dass möglichst viel vom Aufwand auch wirklich am Ende genutzt werden kann.

Hallo Solwac,

Ja, danke jetzt verstehe ich besser.

1) Ein Schachcomputer muss nur folgendes koennen.
Stimmt der Computer muss nur die faehigkeit haben Zugrueckgaben zu erlauben und es Funktioniert dann. Dass waeren dann 99% aller alten Brettcomputers und 100% alle anderen Schachprogramme so wie DOS, Palm, Pocket PC usw.

2) Die von Dir angeführten Stellungstests.
Ja die Richtung wo ich mich hier lehne ist einen bestimmten Punktsatz per Analyse zu verteilen. Es gibt sicherlich andere Wege und wie du Richtig sagst vielleicht spaeter wenn Ich genuegend Spiele Analysiert habe und Bewertet habe dann koennte man ja aus der Analyse vielleicht bessere oder alternative Wege finden. Ich werde diese aber erst zum Schluss machen sonst lasse ich mich wieder Ablenken

Das Programm habe ich schon gezeigt Critter 1.6a, ja mein gedanke ist der gleiche es muss ein programm sein was jeder auch hat damit auch alles Durchsichtlich ist.

Du kannst wenn du lust und Zeit hast die Gleichen Spiele sehr gerne anders versuchen zu Bewerten und dann haetten wir hier 2 Bewertungsmoeglichkeiten fuer den Schlussvergleich.

Die analyse kann ich dir zur verfuegung Stellen. Fuer andere Spiele die ich noch Analysieren muss waere ich auch dankbar wenn jemand Lust haete ein Spiel durch Arena laufen zu lassen mit 15 PV oder 10 PV und minimum 21/22 ply tief.

3) Baumstamm Analysieren
Vielleicht habe ich dich falsch verstanden ich dachte dein Vorschlag war das man nicht nur den Computer gewaehlten Zug aber auch die dahinterstehende analyse des Computers Bewertet und damit bin ich nicht einverstanden weil diese nicht moeglich waere fuer die meissten alten schwaecheren Brettcomputers.

Zitieren:

Vielleicht sollte das Testverfahren noch ein wenig besprochen werden und dann erst mit der Sammlung von Daten begonnen werden? Das würde ermöglichen, dass möglichst viel vom Aufwand auch wirklich am Ende genutzt werden kann.

Die Punkte Bewertung die ich mache oder eine andere Bewertung die spaeter herauskommt durch unsere Gespraeche ist die kleinste Arbeit. Ein Spiel zu Analysieren dauert am laengsten. Ich rechne mit ca 20/30 Stunden volle Arbeit pro Spiel.

Gruss

Nick

Geändert von spacious_mind (30.05.2013 um 01:33 Uhr)

29.05.2013, 15:44

Solwac

Revelation

Registriert seit: 18.07.2010

Land:

Beiträge: 782

Abgegebene Danke: 189

Erhielt 338 Danke für 216 Beiträge

AW: Rating Tests - Dritter Versuch

Ja, Critter 1.6a sollte (z.B. unter Arena) alle Möglichkeiten bieten!

Ich weiß nicht, ob ich am Wochenende die Zeit und Muße finde um einmal eine Partie nach meinen Vorstellungen aufzubereiten und zur Verfügung zu stellen. Mal sehen.

01.06.2013, 13:51

spacious_mind spacious_mind ist offline

Lebende Foren Legende

Registriert seit: 29.06.2006

Ort: Alabama, USA

Land:

Beiträge: 2.170

Abgegebene Danke: 594

Erhielt 1.008 Danke für 448 Beiträge

Re: AW: Rating Tests - Dritter Versuch

Zitat von Solwac

Ja, Critter 1.6a sollte (z.B. unter Arena) alle Möglichkeiten bieten!

Ich weiß nicht, ob ich am Wochenende die Zeit und Muße finde um einmal eine Partie nach meinen Vorstellungen aufzubereiten und zur Verfügung zu stellen. Mal sehen.

Ja der Critter 1.6a passt sehr gut! Fuer die Analyse benuetze ich auch Arena. Ich hatte auch auch Winboard und Chessbase versucht aber diese sind nicht so bequem.

Gruss
Nick

#10

01.06.2013, 15:27

spacious_mind spacious_mind ist offline

Lebende Foren Legende

Registriert seit: 29.06.2006

Ort: Alabama, USA

Land:

Beiträge: 2.170

Abgegebene Danke: 594

Erhielt 1.008 Danke für 448 Beiträge

Re: Rating Tests - Dritter Versuch

Das zweite Test Spiel ist ein Spiel aus 1957. Diesmal tun sich eigentlich alle Brettcomputers schwer. Es gibt einige Stellungen wo der Schachcomputer gewaehlte Zug eigentlich von eine gewonnene Stellung zu eine verlorene Stellung umwandelt. Diesmal ist es David Kittinger mit Jade 2 was dieses Spiel am besten versteht. Der King 2.54 ist erstaunlich schlecht, er versteht hier fasst garnichts.

Test Spiel 2

A. MANGINI - A. KOTOV
Mar del Plata, Argentina 1957

Der Alexander Kotov spielte dieses Spiel mit einer analysierte Staerke von ELO 2629.
Critter 1.6a (unten nicht Angezeigt) schaffte es mit ELO 2828 und P75 - MChess Pro 5 (unten nicht Angezeigt) mit auch nur eine schwache Bewertung von ELO 1751.

Ausser Critter 1.6a, saemtliche bis jetzt getesteten Programme haetten in dieses Spiel ganz klar gegen den Alexander Kotov verloren!

1. e4 c5 2. Nf3 d6 3. d4 cxd4 4. Nxd4 Nf6 5. Bd3 Nc6 6. c3 {Start Test}

[Event "Leonard Barden Test Game 2"]
[Site "Mar del Plata, 1957"]
[Date "????.??.??"]
[Round "?"]
[White "Mangini, A."]
[Black "Kotov, A."]
[Result "0-1"]
[ECO "B55"]
[Annotator ",Microsoft"]
[PlyCount "56"]
[EventDate "1957.??.??"]

1. e4 c5 2. Nf3 d6 3. d4 cxd4 4. Nxd4 Nf6 5. Bd3 Nc6 6. c3 {Start Test} e5 {
2.5 = 6. /\ e5; 3.0 = 6. /\ g6; 2.6 = 6. /\ e6; 1.7 = 6. /\ Bd7; 1.7 = 6. /\
Ne5; 1.7 = 6. /\ Qc7; 1.5 = 6. /\ h6; 1.5 = 6. /\ Rb8; 1.3 = 6. /\ a6; 1.2 = 6.
/\ Qd7; 1.2 = 6. /\ Bg4; 1.2 = 6. /\ Qb6; 1.1 = 6. /\ Qa5; 1.0 = 6. /\d5} 7.
Nc2 d5 {4.0 = 7. /\ d5; 1.7 = 7. /\ Bg4; 1.3 = 7. /\ Be7; 1.0 = 7. /\ Be6} 8.
exd5 Nxd5 {3.0 = 8. /\ Nxd5; 2.2 = 8. /\ Qxe5; 1.0 = 8. /\ e4} 9. O-O Be6 {
4.0 = 9. /\ Be6; 2.8 = 9. /\ Be7; 2.8 = 9. /\ Bc5; 1.9 = 9. /\ h5; 1.8 = 9. /\
Nf6; 1.5 = 9. /\ a6; 1.0 = 9. /\h6} 10. Qf3 Bd6 {1.9 = 10. /\ Bd6; 4. 0 0. /\
Qd7; 3.9 = 10. /\ Qf6; 3.1 = 10. /\ Nf6; 2.7 = 10. /\ a6; 2.5 = 10. /\ Qc8; 2.
5 = 10. /\ Rc7; 2.5 = 10. /\ Rc8; 2.5 = 10. /\ Bc5; 2.1 = 10. /\ Be7; 1.9 = 10.
/\ Nb6; 1.6 = 10. /\ Qh4; 1.4 = 10. /\ h5; 1.3 = 10. /\ g6; 1.0 = 10. /\ Qb6}
11. Ne3 Nxe3 {
4.0 = 11. /\ Nxe3; 1.7 = 11. /\ Nf4; 1.0 = 11. /\ e4; 1.0 11. /\ Qf6} 12. Bxe3
O-O {4.0 = 12. /\ 0-0; 4.0 = 12. /\ f5; 1.1 = 12. /\ Qc7; 1.0 = 12. / \ Qd7; 1.
0 = 12. /\ Qe7} 13. Nd2 f5 {4.0 = 13. /\ f5; 2.4 = 13. /\ Be7; 1. 4 = 13. /\
Qc8; 1.3 = 13. /\ Qh4; 1.0 = 13. /\ Ba3} 14. Bc4 Qe7 {4.0 = 14. /\ Qe7; 3.6 =
14. /\ Qd7; 3.1 = 14. /\ Qf6; 2.6 = 14. /\ Qe8; 2.0 = 14. /\ Bf7; 2.0 = 14. /\
Qc8; 1.0 = 14. /\ Bxc4} 15. Bxe6+ Qxe6 {1.0 = 15. /\ Qxe6} 16. b4 e4 {
4.0 = 16. /\ e4; 3.1 = 16. /\ Rac8; 3.0 = 16. /\ a5; 2.7 = 16. / \ Bc7; 2.0 =
16. /\ Be7; 1.9 = 16. /\ Rad8; 1.7 = 16. /\ Rfe8; 1.7 = 16. / \ Rfd8; 1.6 = 16.
/\ h6; 1.6 = 16. /\ Rfc8; 1.5 = 16. /\ Rae8; 1.4 = 16. / \ Rf6; 1.3 = 16. /\
a6; 1.1 = 16. /\ Kh8; 1.0 = 16. /\Rf7} 17. Qe2 Qe5 {1.0 = 17. /\ Qe5; 4.0 = 17.
/\ Be5; 3.3 = 17. /\ Kh8; 3.0 = 17. /\ Ne5; 2. 6 = 17. /\ Rfe8; 2.6 = 17. /\
Rae8; 2.5 = 17. /\ Rac8; 2.2 = 17. /\ Ne7; 1. 8 = 17. /\ Rfd8; 1.5 = 17. /\
Rf7; 1.5 = 17. /\ Bc7; 1.3 = 17. /\ Rfc8; 1. 3 = 17. /\b6} 18. Qc4+ Kh8 {
2.0 = 18. /\ Kh8; 1.0 = 18. /\ Rf7} 19. g3 Rac8 {4.0 = 19. /\ Rac8; 2.9 = 19. /
\ Qf6; 1.5 = 19. /\ Qe7; 1.5 = 19. /\ f4; 1. 0 = 19. /\ Qe8} 20. Rfd1 Qf6 {
4.0 = 20. /\ Qf6; 2.0 = 20. /\ Qe7; 1.5 = 20. /\ Bb8; 1.2 = 20. /\ b5; 1.0 =
20. /\ Be7} 21. Qb3 Be5 {4.0 = 21. /\ Be5; 3. 6 = 21. /\ b6; 1.6 = 21. /\ Bc7;
1.5 = 21. /\ Rcd8; 1.2 = 21. /\ Ne5; 1.0 = 21. /\ Rfe8; 1.0 = 21. /\ Bb8} 22.
Nc4 f4 {4.0 = 22. /\ f4; 1.7 = 22. /\ b6; 1.0 = 22. /\ b5} 23. Bc5 e3 {
1.7 = 23. /\ e3; 4.0 = 23. /\ Na5; 2.4 = 23. /\ Rfe8; 1.0 = 23. /\ Qf5} 24.
Bxf8 exf2+ {4.0 = 24. /\ exf2+; 3.8 = 24. /\ fxg3} 25. Kg2 Rxf8 {
3.0 = 25. /\ Rxf8; 1.3 = 25. /\ fxg3} 26. Rd3 fxg3 {
3.0 = 26. /\ fxg3; 2.5 = 26. /\ f3} 27. Nd2 gxh2 {2.0 = 27. /\ gxh2} 28. Nf1
Qg6+ {1.0 = 28. /\ Qg6+; 3.0 = 28. /\ h1Q+; 3.0 = 28. /\ h1B+; 2.0 = 28. / \
h1R+; 1.0 = 28. /\ Qg5+; 1.0 = 28. /\ Qh4} 0-1

Test Spiel 2 Ratings - Ergebnisse

Test Spiel 2 Platzierung

PLATZ	SPIELER	PUNKTE	% WERT	NICK'S ELO
1	Critter 1.6a 64 Bit - AMD Phenom 2 Core 2.8GHZ	75.4	94.25%	2828
2	Herr Alexander Kotov	70.0	87.50%	2629
3	Novag Jade 2	57.6	72.00%	2160
4	Saitek Travel Champion 2100	53.0	66.25%	1988
5	Mephisto TM Vancouver 68030 36 MHz	52.3	65.38%	1961
6	Radioshack 2250XL Selective	49.5	61.88%	1856
7	MChess Pro 5 - P75	46.7	58.38%	1751
8	Tasc CM 512K – 15 MHZ – KING 2.54	45.7	57.13%	1714
9	Radioshack 2250XL Brute Force	44.0	55.00%	1650
10	CXG 3000	41.8	52.25%	1568
11	Fidelity Sensory 9	38.9	48.63%	1459
12	Novag Constellation JR	35.0	43.75%	1313
13	Saitek MK 12 Trainer LV 5 90S/Zug	28.0	35.00%	1050
14	Saitek MK 12 Trainer LV 4 15S/Zug	28.0	35.00%	1050

Der Durchschnittwert nach 2 Testspiele sieht so aus:

Durchschnitt nach 2 Testspiele

PLATZ	SPIELER	PUNKTE	% WERT	NICK'S ELO
1	Critter 1.6a 64 Bit - AMD Phenom 2 Core 2.8GHZ	149.2	93.25%	2798
2	Grandmaster Norm	134.7	84.19%	2528
3	Saitek Travel Champion 2100	115.7	72.31%	2169
4	Novag Jade 2	114.6	71.63%	2149
5	Mephisto TM Vancouver 68030 36 MHz	113.3	70.81%	2124
6	Radioshack 2250XL Selective	111.0	69.38%	2081
7	Radioshack 2250XL Brute Force	109.4	68.38%	2051
8	Tasc CM 512K – 15 MHZ – KING 2.54	107.9	67.44%	2023
9	MChess Pro 5 - P75	105.6	66.00%	1980
10	CXG 3000	89.8	56.13%	1684
11	Fidelity Sensory 9	80.3	50.19%	1506
12	Novag Constellation JR	74.2	46.38%	1391
13	Saitek MK 12 Trainer LV 5 90S/Zug	70.5	44.06%	1322
14	Saitek MK 12 Trainer LV 4 15S/Zug	64.3	40.19%	1206

http://spacious-mind.com/forum_repor...test_final.ods

Hier ist auch das PGN Spiel:

http://spacious-mind.com/forum_reports/tests/spacious_mind_test_game1.pgn

Viele Gruesse,

Nick

Geändert von spacious_mind (01.06.2013 um 15:44 Uhr)

Seite 1 von 2

« Vorheriges Thema | Nächstes Thema »

Forumregeln
Du bist nicht berechtigt, neue Themen zu erstellen. Du bist nicht berechtigt, auf Beiträge zu antworten. Du bist nicht berechtigt, Anhänge hochzuladen. Du bist nicht berechtigt, deine Beiträge zu bearbeiten. BB code ist An Smileys sind An. [IMG] Code ist An. HTML-Code ist An. Forum Regeln

Gehe zu

Ähnliche Themen
Thema	Erstellt von	Forum	Antworten	Letzter Beitrag
WIKI ELO Rating For Resurrection Fruit 05??	Steveb	Teststellungen und Elo Listen / Test positions and Elo lists	0	14.12.2005 16:46
Frage: gibt es Tests oder Turniere oder Partien mit dem Mephisto Master Chess ?	mclane	Die ganze Welt der Schachcomputer / World of chess computers	7	18.04.2005 21:34

Alle Zeitangaben in WEZ +1. Es ist jetzt 05:25 Uhr.