|
|||||||||||
AW: Neue Aktivschach Elo Liste oder: Denkt doch mal statistisch :)
![]() Eigentlich wäre es ja fast schon überflüssig, darüber zu reden, denn Du hast ja in der Liste auch Toleranzen angegeben. Wenn ich mich nicht irre, werden die standardmäßig für 67% Sicherheit angegeben?!
Das hieße auf gut Deutsch (Achtung Wolfgang2!): Wenn ein Gerät wie z.B. der Excalibur LCD-Chess 16 Partien absolviert hat, liegt die hinter dieser Stichprobe vermutete wahre Spielstärke zu 67% innerhalb der angegebenen Grenzen von +187/-172, d.h. mit einer Wahrscheinlichkeit von 67% ist seine wahre Spielstärke irgendwo innerhalb von 960-1319. Entsprechend könnte er mit einer Wahrscheinlichkeit von 32% auch außerhalb liegen... In diesem Zusammenhang möchte ich nur an den Einstieg des Mephisto Polgar in der SSDF-Liste erinnern, der sogar in der zweiten Liste noch 80 Punkte zu hoch war. Das für die Aktivschachliste eingesetzte Programm Elo-Stat von Dr. Frank Schubert benutzt bei dieser Berechnung kein 67%, sondern das 95%-Konfidenzintervall. ![]() Noch ein Wort zu Mephisto I/II:
Setzt man die lt. Toleranz schlechteste denkbare Zahl des Meph.II in Relation zur besten des Meph.I, dann kommt heraus: MephI.:1229 Meph.II:1340 D.h. es besteht durchaus eine nicht zu kleine Wahrscheinlichkeit, daß Wolfgang2 mit seiner Einschätzung der Liste gar nicht widerspricht! ![]() ![]() Das 95%-Vertraurensintervall besagt, daß 5 von 100 Geräten außerhalb der angegeben Fehlertoleranzen liegen können. Diese Berechnungsmethode erlaubt aber auch eine viel wichtigere Aussage: es ist nämlich sehr viel wahrscheinlicher, daß die Elozahl der tatsächlich berechneten entspricht (Mephisto I 1184, Mephisto II 1409), und damit nicht den Elozahlen an den absoluten Intervall-Rändern bzw. den mathematisch möglichen Ausreißern außerhalb des Intervalls. Also besteht eine weitaus größere Wahrscheinlichkeit, daß Wolfgang2 mit seiner Einschätzung der Liste doch widerspricht. Viele Grüße Hans-Jürgen |
|
|||||||||||
AW: Neue Aktivschach Elo Liste
Hallo !
Das Thema, ob und wann man eine Aktivschachpartie beenden soll, wird ja heiß diskutiert - dazu hier auch meine Einschätzung. Diese ist bis auf einen kleinen Punkt mit der Bewertung von Nick völlig identisch - obwohl sie absolut unabhängig voneinander entstand. Anläßlich seines U1400-Turniers hatten wir einen kurzen Briefwechsel bzw. email-Austausch, aus dem ich hier zitieren möchte: Nick said: "So for me the rule is simple 3 x repetition is a draw. The computer cannot claim to be better because it won by cheating or not knowing the rules. No excuse". Dazu mein Standpunkt (hoffentlich mehr oder minder verständlich - in etwas ähnlichem wie englisch...): "This looks absolutely right at the first sight. I have to confess that at the beginning I wanted to use the repetition rule the same easy way as you do - but I thought twice and changed my mind. Let's have a close look at it: If you play 2 matches at the same time, are you always aware of the positions on the boards, especially when the 3fold repetition does not occur 3 times in a row ? I have to confess that I am not and I leave it up to the computer...as the rule states...the player has to claim the draw ! But this is only one aspect: the other and more important is the principle of fairness. Chess Shadow and Mephisto Teufelchen for example are able to recognize a 3fold repetition by itself (not exactly true, but at least if the repetitions occur in a row). They do claim for a draw - game over ! But most of the weak computers don't even know this repetition rule - a big drawback ! IMHO it should also result in a disadvantage - they don't complain for the draw, therefore they don`t deserve the immediate draw, so I play on a few moves. This does not make a huge difference, sometimes it even averages it out, but sometimes it is to their disadvantage. Or do you think it is fair to settle all matches as a draw after the third repetition ? No, it's not justified IMHO, because the weak computers then are handled as if they would master the repetition rule which they obviously don`t. In this case one would take away an advantage of these computers which had offered some bytes to implement the repetition rule. The other computer knows absolutely nothing about the repetition rule - therefore can it really complain to get punished ? I see no reason why. There is a real difference between let's say Chess Shadow which "knows" the rule and the other "weaklings" which don't - and this should show up, at least a little bit. "All computers are equal, but some are more equal than others". Of course you can play your tourney as you please. I made up my rules before I startet a similar project and I am not willing to change them. These are the "golden rules" of my private Elo-list: 1. Play as many games as possible 2. Play computers of similar strength against each other (try to avoid results of more than 85% respectively less than 15%) 3. Play an identical number of games against many different computers regarding colour change white/black. 4. Play until mate with "weaklings" (boring, but necessary - 2 queens more don`t always guarantee a victory). 5. Doubles don`t count. 6. 3fold repetition as explained above I totally agree with you that one should not recommend these computers which don't know the repetition rule to beginners. But be aware of: even Mephisto Rebell doesn't know this rule exactly - it considers only repetitions in a row as a draw. Probably if we look at the rule even more exactly the result would be more disappointing: if I remember well the rule, then even the status of castling and en passant have to be taken into account. I have never tested this systematically, but I am quite sure that most of the chess computers will fail! Soweit der Briefwechsel mit Nick - bitte beachten: das oben gesagte bezieht sich auf die "Elo-Winzlinge" U 1400 ! Es ist m.E. völlig in Ordnung, wenn man bei Geräten mit einer Elozahl >1600 nicht bis zum Matt spielt, sondern bei ausreichendem Vorteil die Partie entsprechend abschätzt. Ich glaube, daß man damit in 99% der Fälle richtig liegt. So würde ich auch Nicks Beispielfälle mit Dame gegen König behandeln - bei den U1400 Geräten muss man bis zum bitteren Ende spielen und ggf. mit Remis entweder durch Zugwiederholung oder 50 Züge-Regel werten. Beim Tasc R 40 kann man sich den Rest wirklich schenken...wieder anders beim elostarken Dominator: Experten wissen, daß fast alle Dominator-Versionen die Mattsetzung Dame gegen blanken König nicht beherrschen ! Viele Grüße Hans-Jürgen |
|
||||||||||||
AW: Neue Aktivschach Elo Liste oder: Denkt doch mal statistisch :)
![]() Das 95%-Vertraurensintervall besagt, daß 5 von 100 Geräten außerhalb der angegeben Fehlertoleranzen liegen können. Diese Berechnungsmethode erlaubt aber auch eine viel wichtigere Aussage: es ist nämlich sehr viel wahrscheinlicher, daß die Elozahl der tatsächlich berechneten entspricht (Mephisto I 1184, Mephisto II 1409), und damit nicht den Elozahlen an den absoluten Intervall-Rändern bzw. den mathematisch möglichen Ausreißern außerhalb des Intervalls.
Also besteht eine weitaus größere Wahrscheinlichkeit, daß Wolfgang2 mit seiner Einschätzung der Liste doch widerspricht. stimmt, das alles beruhte ja auf der Annahme von 67%. ![]() Bei 95% siehts dann allerdings wirklich schlecht aus für Wolfgang2: Die 5%,die dann für die Unter-/Überschreitung des Intervalls übrigbleiben, teilen sich ja nochmal auf (2,5% drüber, 2,5% drunter), und das muß dann noch für beide zutreffen... ![]() Danke für die Info und viele Grüße, Dirk |
|
|||||||||||
![]() Hallo Schachcomputerfreunde,
die hier anstehende Diskussion verläuft mit erheblichen Emotionen, die hier unangebracht sind. Es wird hier über die Beschmutzung der Aktivliste gesprochen, andere sprechen vom Stichprobencharakter der Liste, Spielstufen werden unter-überschätzt bewertet, usw. usw.. Meine Auffassung hierzu ist: 1. Ein Abbrechen einer Partie durch den Bediener (auch bei 100 proz. Hinweisen) sollte nicht erlaubt sein, da einige offensichtlich damit nicht umgehen können (oder die Hinweise am Computer falsch deuten). Auch wenn das Ergebnis 100%tig feststeht, wenn also z. B., der Task gegen den Mephisto I spielen sollte. Wir haben keinen Chef der uns vorschreibt, in welchem Zeitraum eine Liste erstellt werden soll. Es geht hier um unser Hobby und um die Erstellung einer (Elo-)Liste, die eine gewisse Bedeutung hat, da nicht nur wir uns danach richten oder orientieren, sonder auch Aussenstehende. 2. Da offensichtlich Probleme bei der Einstellung der Rechnerzeit bei den alten Schachcomputer bestehen, sollten bei der Aktiv-Liste eine Trennung durchgeführt werden, um eindeutige Berechnungen von den übrigen zu trennen ( mit entsprechenden Hinweisen). Wenn also z. B. statt Zeiten, nur Stufen eingestellt werden können. D. h., in der Liste sollte klar zum Ausdruck kommen, dass die durchgeführten Berechnungen gewisse Unsicherheiten enthalten, die eben auf der unsicheren Zeiteinstellung beruht. Mit entsprechenden Erklärungen kann man dieses noch zusätzlich deutlich machen, indem eine niedrige Elo-Zahl erläutert wird, dass der Computer keine Endspieltechnologie beherrscht. Aber dass er aber viele Eröffnungen beherrscht und gut im Mittelspiel ist, dass er besser/leistungsfähiger ist letztendlich, als sein Konkurrent mit der gleichen ELo-Zahl. Zur Problemlösung bieten sich zwei Möglichkeiten an: Die bisherige Liste wird nochmals auf plausibilität überprüft (respektiv werden nochmals einige Spiele durchgeführt), oder es werden Alternativen zur bisherigen Berechnung in 2008 gesucht, die dann mit den heutigen Ergebnissen verglichen werden können. Festzuhalten ist , dass durch subjektive Einschätzungen keine objektive Liste erstellt werden kann, auch wenn die tatsächlichen Ergebnisse ähnlich sind. Im übrigen sollte man nicht vergessen, dass die heutige Technik auf unsere Oldtimer aufbaut. Dass aber auch deren Zeit endgültig vorbei ist und dass Ruud eine neue Generation entwickelt, die zu untersuchen sind (wenn sie nicht so teuer wären). Paul |
|
||||||||||||
AW: Neue Aktivschach Elo Liste
![]() Hallo Schachcomputerfreunde,
... Festzuhalten ist , dass durch subjektive Einschätzungen keine objektive Liste erstellt werden kann, auch wenn die tatsächlichen Ergebnisse ähnlich sind. ... Paul Ich testete die letzten Tage "Mephisto I" und "CC Voice" ein wenig gegeneinander, um selbst meine -ja nachträglich durch Zahlen - definierte Gleichwertigkeit zu überprüfen. Folgende Ergebnisse gab's dabei: Das 5:1 auf der Stufe 3 war ein absolut korrektes Ergebnis. Es gab zwei Remis durch Zugwiederholung, wobei eines noch glücklich für CC Voice war. Es hätte auch 5,5:0,5 stehen können. Führt man jetzt zahlreiche "3. Stufe" - Partien dieser Art durch, wird das Ergebnis bei 80-90% für Mephisto liegen, was einem Vorsprung von ca. 300-400 Elo-Punkten bedeuten würde. Ein solch klares Ergebnis würde allerdings einen völlig falschen Eindruck der beteiligten Geräte vermitteln, die "Stufe 3" ist bei CC Voice unverhältnismäßig schwach (da selektiv). Da werden z.T. einzügige Springergabeln übersehen oder im Endspiel viel zu kurz gerechnet. CC Voice L.2: "Normales" Schach, eben mit geringer Suchtiefe. Aber dadurch, daß oft das "Nächstbeste" gezogen wird, ist auch die Anfälligkeit für Horizontzüge nicht so hoch. Im Endspiel wird allerdings (zu) schnell gespielt CC Voice L.4: Benötigt im Mittelspiel nicht viel mehr Zeit als die Stufe 3. Dennoch spielt das Gerät hier eindeutig stärker (andere Suchstrategie) und vergibt Positionsvorteile nicht so schnell. Mephisto I, immerhin dank Permanent Brain im Vorteil, kann sich hier auch bei normaler Eröffnungsbehandlung im Endeffekt nicht durchsetzen. Für mich sind die beiden Geräte, praktisch gesehen, ungefähr gleich stark, wenn ich ein Zeiten-Mix von ca. 15sec - 1min. ansetze. Gruß Wolfgang Geändert von Wolfgang2 (27.07.2007 um 16:47 Uhr) |
|
||||||||||||
AW: Neue Aktivschach Elo Liste
![]() Hallo !
Das Thema, ob und wann man eine Aktivschachpartie beenden soll, wird ja heiß diskutiert - dazu hier auch meine Einschätzung. Diese ist bis auf einen kleinen Punkt mit der Bewertung von Nick völlig identisch - obwohl sie absolut unabhängig voneinander entstand. Anläßlich seines U1400-Turniers hatten wir einen kurzen Briefwechsel bzw. email-Austausch, aus dem ich hier zitieren möchte: Mann muss ja auch hiermit bemerken das in dieser situation beide maschinen die 3 x zug wiederholung nicht anzeigen koenen. Als beispiel eine maschine die hier vielleicht klare vorteile bekommen koente ist der Mephisto 1. Er kennt die regeln nicht aber ich glaube das er sich aus dieser situation herausziehen kann (Ich hoffe das diese Aussage auch jemand bestaetigen kann ![]() Was ich hier nicht genau nachvollziehen kann ist das ich einfach nicht weiss ob die maschine (die maschine die nicht aus dem remi herauskommt und nichts anzeigen kann) es tatsachlich nicht weiss dass sie hier remi spielt oder es doch weiss aber wie ein mensch der stumm ist einfach nicht sagen kann? Es kann hier vielleicht beide faelle geben und wie koennte ich diese fuer die eine oder die andere maschine bestimmen? Oder kann mir jemand hier absolut sagen obwohl die maschine 10 mal die zuege wiederholt hat das diese maschine die regeln nicht kennt? Es ist aber eine gute diskussion und waere interessant zu sehen was andere hierzu sagen. Ich weiss sehr schlimmes Deutsch aber hoffentlich koennt ihr mich noch verstehen ![]() ![]() Viele gruesse Nick |
|
||||||||||||
AW: Neue Aktivschach Elo Liste
Ach ich hatte vergessen ein weiteres Beispiel zu geben.
Mephisto 1 gegen Maschine X = Resultat 5 - 5 Maschine X gegen Maschine Y = Resultat 8 - 2 Mephisto 1 gegen Maschine Y = Resultat 10-0 Maschine X kennt die 3 x regeln und konnte 4 mal nicht weiter spielen. Mephisto 1 und Maschine Y kennen die regel nicht und koennen weiter spielen. Wie kann mann in den obigen beispiel laut ELO erkennen das Mephisto 1 und Maschine X doch gleich stark sind? Gruss Nick Geändert von spacious_mind (28.07.2007 um 01:36 Uhr) |
|
||||||||||||
AW: Neue Aktivschach Elo Liste
![]() Meine "subjektive Einschätzung" kommt ja auch von irgendwo her, nämlich von Partien, (meist Computer - Computer) und deren dann nachgelagerte Bewertung, die eben genau aufgrund der Unzulänglichkeiten (Zeitabstufungen...) mir notwendig erscheint.
Ich testete die letzten Tage "Mephisto I" und "CC Voice" ein wenig gegeneinander, um selbst meine -ja nachträglich durch Zahlen - definierte Gleichwertigkeit zu überprüfen. Folgende Ergebnisse gab's dabei: Das 5:1 auf der Stufe 3 war ein absolut korrektes Ergebnis. Es gab zwei Remis durch Zugwiederholung, wobei eines noch glücklich für CC Voice war. Es hätte auch 5,5:0,5 stehen können. Führt man jetzt zahlreiche "3. Stufe" - Partien dieser Art durch, wird das Ergebnis bei 80-90% für Mephisto liegen, was einem Vorsprung von ca. 300-400 Elo-Punkten bedeuten würde. Ein solch klares Ergebnis würde allerdings einen völlig falschen Eindruck der beteiligten Geräte vermitteln, die "Stufe 3" ist bei CC Voice unverhältnismäßig schwach (da selektiv). Da werden z.T. einzügige Springergabeln übersehen oder im Endspiel viel zu kurz gerechnet. CC Voice L.2: "Normales" Schach, eben mit geringer Suchtiefe. Aber dadurch, daß oft das "Nächstbeste" gezogen wird, ist auch die Anfälligkeit für Horizontzüge nicht so hoch. Im Endspiel wird allerdings (zu) schnell gespielt CC Voice L.4: Benötigt im Mittelspiel nicht viel mehr Zeit als die Stufe 3. Dennoch spielt das Gerät hier eindeutig stärker (andere Suchstrategie) und vergibt Positionsvorteile nicht so schnell. Mephisto I, immerhin dank Permanent Brain im Vorteil, kann sich hier auch bei normaler Eröffnungsbehandlung im Endeffekt nicht durchsetzen. Für mich sind die beiden Geräte, praktisch gesehen, ungefähr gleich stark, wenn ich ein Zeiten-Mix von ca. 15sec - 1min. ansetze. Gruß Wolfgang So verstehe ich die fakten (bitte korrigieren wenn ich es falsch verstehe) 1) Aktivliste = ca 30 Sekunden/Zug 2) ELO 1600+ Die Liste is sehr gut jeder ist zufrieden 3) ELO 1400-1600 Vielleicht auch gut jeder ist zufrieden 4) Unter ELO 1400 * Wenige Spiele * Spiel Level Ungenauigkeiten * Spiel Regel Ungenauigkeiten Alles was wir hier im forum die letzten Tage argumentieren liegt fasst 100% im U1400 bereich. Der Micha und Stefan haben bestimmt viele Stunden gearbeitet um eine Liste zu machen die bis zu den U1400 bereich fuer Aktivschachspiele absolut unschlagbar ist, und auch ganz klar gesagt haben das in diesen bereich hoehere abweichungen gibt. Die Schuld fuer ungenauigkeiten in U1400 bereich liegt nicht an Micha oder Stefan. Sollte es probleme in U1400 geben dann ist es unsere Schuld. Deine, meine und jeder andere der in diesen bereich spiele fuer die Liste zur verfuegung stellt. Wir kennen unsere maschinen, wir wussten im voraus das es Levelabweichungen geben koennte und haben nichts gesagt und jezt wissen wir auch das jeder mit andere Spielregeln spielt ![]() Es ist ganz klar von die viele diskussionen das in diesen U1400 bereich es drei optionen gibt 1) Wir akzeptieren die liste so wie Sie ist. Akzeptieren das Sie mit mehr spiele besser wird aber nie so gut wird wie U1600+ wegen die spiel level ungenauigkeiten usw. 2) Die Spielbeitraeger in den U1400 bereich fuehren eine abstimmung unter sich (angenommen man hat lust dafuer) und wir stellen ein paar einfache regeln als basis fest (die Micha dann als regeln genehmigt) wobei wir uns in der Zunkunft alle halten in den U1400/U1600 bereich damit wir die werte die da herauskommen besser kontrollieren: * Wir legen die spiel regeln fest * Wir machen eine abstimmung ueber die level die benuetzt wird fuer aktivschach oder auch andere Listen. Jeder haelt sich zu die gleichen Levels. * Wir fragen Micha (falls er noch Lust hat nach diese viele diskussionen) diese regeln und Level auf ein Webpage fuer alle zu Zeigen. 3) Wir bleiben unzufrieden und Micha/Stefan verlieren die Lust in der Zukunft und zieht alle U1400/U1600 raus und die Aktivliste sieht genau so aus wie die SSDF Liste wo alles unter 1600 fehlt. Ich hoffe das Option 3 nur eine theoretisch moegliche Option ist ![]() Ich bin fuer Option 1 und im sinne der verbesserung Option 2. Die ELO liste wird genau berichten was wir zur verfuegung stellen. Die frage ist was stellen wir zur verfuegung ![]() Viele Gruesse Nick |
|
|||||||||||
AW: Neue Aktivschach Elo Liste
Es eigenen sich die Altgeräte von Fidelity schlichtweg nicht für 30s/Zug - Partien. Allein schon deswegen gehören sie, wenn man es genau nimmt, aus der Liste eliminiert. Beispiel: CC Sensory Voice dürfte nur auf der untersten Stufe spielen. ( = Benachteiligung).
Mephisto I ist dafür - streng genommen - auch ungeeignet. (Stufe 3 ist zu kurz und Stufe 4 zu lang). Ich befasse mich seit geraumer Zeit immer wieder mal mit den Altgeräten aus Interesse, Neugierde, um die Eigenheiten zu erkennen, finde es interessant, auf was für "Ideen" die manchmal kommen. Gruß Wolfgang Geändert von Wolfgang2 (28.07.2007 um 14:50 Uhr) |
![]() |
|
|
![]() |
||||
Thema | Erstellt von | Forum | Antworten | Letzter Beitrag |
Review: Neue Aktivschach Elo Liste 1-2008 | spacious_mind | Teststellungen und Elo Listen / Test positions and Elo lists | 17 | 07.05.2008 19:35 |
Neue Aktivschach Elo Liste | Chessguru | Teststellungen und Elo Listen / Test positions and Elo lists | 9 | 10.07.2007 21:45 |