|
|||||||||||
AW: Mm5 nur 1575 ELO ??
Zitieren:
Das geht auch umgekehrt: ich könnte mir einen Labortest vorstellen:
Es melden sich x Freiwillige, deren ELOzahl bekannt ist. Sagen wir, deren ELO Schnitt sei 1700. Dann wählt der Tester zwei Geräte aus, eines mit 1700 und eines mit 2000. Der Tester lässt die Geräte gegen die Menschen spielen, wobei den Menschen das Gerät nicht bekannt ist- also keine Vorbereitung möglich. Die Partien werden nicht, oder erst am Ende veröffentlicht. Was wird herauskommen, signifikante Anzahl an Partien vorausgesetzt? Die beiden Compis performen mit einem geringeren Abstand als die 300! Wie Wolfgang2 schrieb wird nun "gestaucht". 1. Ich weiss zwar nicht welche Geräte bespielt werden, ich weiss aber dass es Computer sind, könnte also rein theoretisch eine Anti-Computer-Strategie fahren. Das würde das Ergebnis verfälschen. 2. Es ist nicht bekannt, gegen welche Gegner die 1700 bzw. 2000 erreicht wurden. Aber gut, das könnte man herausfinden. 3. Der Test müsste in mehreren Phasen durchgeführt werden. Einmal mit Geräten die eher taktisch orientiert sind, einmal mit Geräten die eher positionell orientiert spielen, wie die Langs. Es gibt immer Gegner mit denen man gut zurecht kommt und welche die einem weniger liegen. Will man also ein Zufallsergebnis ausschließen dann muss der Gegnerpool entsprechend breiter ausgelegt sein. Mit nur 2 Geräten käme man da nicht hin. Da wären Zufallsergebnisse vorprogrammiert. Und da ist es für mich mit Computern wie mit Menschen. Es gibt Gegner die mir liegen und wo ich auch nominell stärkere auseinandernehme und es gibt nominell schwächere Gegner gegen die ich kein Bein auf den Boden kriege. Allein diese Ergebnisse strafen die rein wertungsmäßig berechneten Gewinnerwartungen Lügen. Muss ich da dann auch stauchen? Allein daran sieht man doch wie unsinnig die Idee einer Stauchung ist. Und unabhängig vom Ergebnis eines solchen Tests habe ich ja erstmal nichts bewiesen, außer dass gewisse Spieler oder Computer andere Ergebnisse erzielen, wenn sich der Gegnerpool ändert. Um das zu beweisen muss ich mir nur ansehen wie ich persönlich gegen eine Gegnerschaft von sagen wir mal durchschnittlich ELO 2000 im eigenen Verein punkte (wo ich die Gegner und ihre Vorlieben und Spielweisen alle sehr gut kenne und mich entsprechend darauf einstelle) oder in einem gleichstarken fremden Umfeld (z.B. einem Open, oder in den Mannschaftskämpfen gegen fremde Gegner). Da könnte man genau denselben Effekt feststellen. Ich werde mit großer Wahrscheinlichkeit im eigenen Verein gegen bekannte Gegner anders punkten. Und sei es nur deshalb weil ich einer derjenigen bin, die sich auch auf bekannte Gegner gut vorbereiten während der Gegner vielleicht frank und frei drauflosspielt (findet man in Vereinsturnieren öfter mal). Muss ich jetzt dann die offiziellen ELO/DWZ-Listen stauchen weil es auch sowas wie eine Vereinsmeisterschaft gibt? Nein. Es zeigt doch nur dass ein Gegnerpool der klein gehalten ist, nicht so aussagekräftig ist, wie ein entsprechend großer Gegnerpool. Oder dass, wenn ich 2 Poole zusammenführe was anderes rauskommt als innerhalb der beiden separaten Poole. Aber dafür muss ich nicht Computer und Menschen vergleichen. Das kann man auch rein unter Menschen (oder wie gehabt im Vergleichskampf Hiarcs - Berlin Pro hier im Forum) ohne Probleme feststellen. Dazu muss ich nicht den Mensch-Maschine-Vergleich bemühen (auch wenn der sicherlich interessant sein dürfte). Insgesamt wäre so ein Labortest sicherlich interessant. Ob dann allerdings das von Dir oder Solvac vorweggenommene Ergebnis herauskommt wird sich zeigen. Bisher ist das erstmal nur Vermutung. Ich würde hier sogar eher ein anderes Testumfeld wählen, nämlich ein Turnier oder eine Wettkampfserie mit menschlichen und elektronischen Gegnern im etwa selben ELO-Level. Die jeweiligen Gegner dürfen sich jedoch nicht am Brett sehen und die Züge werden von Mittelsmännern ausgeführt. Das heisst, der Mensch weiss nicht ob er gerade gegen einen Computer oder gegen einen Menschen spielt. Mag sein, dass er es im Laufe der Partie aufgrund bestimmter dummer Computerzüge herausfindet, aber erstmal weiss er es nicht. Damit vermeide ich Anti-Computer-Strategien und erhalte ein unabhängiges Ergebnis. So einen Test würde ich auf jeden Fall als aussagekräftig ansehen, wenngleich auch da natürlich Zufallsergebnisse nicht auszuschließen wären. Zitieren:
Conclusio: Lassen wir die Listen wie sie sind, denn in der Welt der Compis stimmen sie ja. Eine Übertragung dieser Elozahl auf Menschen ist aber nur bedingt möglich
__________________
Mein Profil beim ICCF (International Correspondence Chess Federation) https://www.iccf.com/player?id=89948&tab=3 |
Folgender Benutzer sagt Danke zu Hartmut für den nützlichen Beitrag: | ||
Mythbuster (01.07.2017) |
|
|||||||||||
AW: Mm5 nur 1575 ELO ??
Nicht werden, ich halte so einen Unterschied für möglich. Leider stehen nicht genügend Partien gegen Menschen zur Verfügung um hier mit genügend Sicherheit eine Aussage treffen zu können.
@Hartmut: Bitte löse Dich von der aktuellen Berechnung der Elozahl für Menschen. Hier in der Diskussion braucht es mehrere Elozahlen, je nach Ermittlung. Besser ist deshalb für Computer die Verwendung des Begriffs Gewinnerwartung, das wird schließlich in einem Turnier ermittelt. Erst danach kommt die Vergabe von Elowerten um mit einem mathematischen Modell einfacher fassbare Zahlen zu bekommen. Aber hier geht es ja um die Frage, können Computer unter sich nach dem selben Modell wie Menschen beschrieben werden und dann für eine Elodifferenz dieselben Gewinnerwartungen erhalten? Der Begriff Gewinnerwartung den Du so gerne benutzt ist ebenfalls irreführend (zumindest so, wie ich ihn von Dir verstanden habe). Entweder ich habe eine Gewinnerwartung (woher wenn nicht aus einer Elodifferenz oder einer anderen Wertungszahlendifferenz?) oder ich habe ein Turnier in dem sowas berechnet wird. Dann ist es aber keine "Erwartung" mehr sondern ein Ergebnis. Also was nun bitte? Zurück zur von dir geposteten Frage: Können Computer unter sich nach demselben Modell wie Menschen beschrieben werden und dann für eine Elodifferenz dieselben Gewinnerwartungen erhalten. Also erstmal erneut ein erstauntes: "Ja was nun bitte?" Erst soll ich mich von dem Modell lösen, dann kommst Du mit der Frage ob man mit dem Modell arbeiten kann. Entscheide Dich doch bitte mal. Natürlich kann man die Geräte untereinander genau so beschreiben. Was soll denn dagegen sprechen? Das ein Computer auch mal Eröffnungen spielt von denen er nichts versteht? Das machen Menschen (zumindest in den unteren Spielklassen) oftmals auch. Dass er keine Erfahrungswerte sammelt wie ein Mensch und daher nicht dazulernt? Das machen Menschen oftmals auch. Die Tatsache dass sie dazulernen KÖNNEN heisst noch lange nicht dass sie es auch tun. Ich kenne genügend Leute die immer wieder dieselben Fehler machen, im sonstigen Leben ebenso wie im Schach. Grundsätzlich ist das ELO-System einfach nur ein mathematisches Modell, welches durch andauernde Auswertung von Partienmaterial eine Wertungszahl ermittelt. Durch andauernde Nachberechnung (wenn eben neue Partien dazukommen) ändert sich die Wertungszahl, nähert sich damit aber auch eher einem realistischen Wert an. Die ELO-Differenz zweier Spieler bestimmt die Gewinnerwartung. Je mehr Partien man hat und je größer der Pool der bespielten Gegner ist desto mehr entspricht die Gewinnerwartung der Realität. Rein logisch wäre diese Methode von Arpad Elo sogar bei Computern besser anwendbar wie bei Menschen. Warum? Ein mathematisches Modell kennt keinen menschlichen Faktor. Wende ich das Modell bei Computern an, die keine Formschwankungen als solches kennen, werde ich bei Berechnung mit diesem Modell auf jeden Fall mit jeder erneuten Nachberechnung realistischere Werte bekommen. Beim Menschen wird diese Annäherung an realistische Werte jedoch immer einen Ungenauigkeitsfaktor (den menschlichen Faktor, wenn Du so willst)haben. Heute ist er in Topform, morgen ist er erkältet, vielleicht setzt er sich auch mal besoffen ans Brett oder verarbeitet gerade eine Trennung oder einen Verlust. Was auch immer. Das heisst letztlich nur: Die Werte beim Computer wären sogar genauer weil solche Formschwankungen keine Rolle spielen und mit der verwendeten Formel - die ja nichts anderes ist als eine Näherungsformel - irgendwann wirklich ein realistischer Wert erreicht wird. Beim Menschen nähere ich mich allenfalls seiner "durchschnittlichen" Form über den Zeitraum der Messung an, da er eben keinen "festen" Wert hat und es auch dauert bis durch die Berechnung seine Wertungszahl der tatsächlichen momentanen Form entspricht. Nur macht sich, zumindest seit man meint, ELO-Zahlen aufgrund von tausenden von Blitzpartien ermitteln zu wollen wie bei CCGT, keiner die Arbeit nach dem wirklichen ELO-Modell zu rechnen, sondern man verwendet andere Modelle. Das sind aber dann auch eben keine wirklichen ELO-Zahlen sondern eben Wertungszahlen nach Methode Bayes, ORDO oder wie sie alle heissen mögen. Gleichzeitig (siehe CSS-Forum) erwartet man dass diese Zahlen dann auch noch mit menschlichen ELO-Werten vergleichbar sein sollen. Da fängt dann wirklich die Dummheit an (das einzige neben dem Universum, das scheinbar wirklich keine Grenzen kennt). Ich kann natürlich normale ELO-Werte von Computern wie von Menschen berechnen und sie werden dann auch nahezu vergleichbar sein. Ich kann auch sagen: "Scheiss auf Arpad ELO ich benutze jetzt BayesELO für Computer UND Menschen". Kann man alles machen. Dann hat man halt auch eine Bayes-Zahl für Menschen. Ich kann aber nicht hergehen und 2 Gruppen bilden (In diesem Fall Computer und Menschen, ich könnte aber auch genauso 2 Menschengruppen nehmen), deren Wertungszahlen auf verschiedene Methoden ermitteln und dann hoffen, vergleichbare Werte zu haben. Die werde ich wie gesagt auch bei gleicher Berechnungsmethode nie haben, weil die Form beim Menschen schwankt und damit die ELO-Zahl die ja nur zurückliegende Partien enthält nicht unbedingt seiner momentanen Tages/Monatsform entsprechen muss. Sie wird aber in ungefähr vergleibar sein. Werden aber Wertungszahlen nach 2 verschiedenen Methoden errechnet gibt es keine Vergleichbarkeit. Vergleiche es mit dem Dollar. Wenn wir vom Dollar reden meinen wir den US-Dollar. Keiner käme auf die Idee zu glauben, dass er für einen Hongkong-Dollar oder einen kanadischen Dollar denselben Wert in der Hand hat, nur weil da auch das Wort Dollar draufsteht. Wir können da noch monatelang diskutieren. Rein mathematisch kann ich alles anwenden und vergleichen und es wird auch vergleichbar sein, sofern ich nicht versuche 2 Gruppen auf verschiedene Arten zu berechnen und dann zu glauben, auch noch vergleichbare Ergebisse zu erhalten. Das funktioniert nicht.
__________________
Mein Profil beim ICCF (International Correspondence Chess Federation) https://www.iccf.com/player?id=89948&tab=3 Geändert von Hartmut (02.07.2017 um 12:53 Uhr) |
|
|||||||||||
AW: Mm5 nur 1575 ELO ??
Jeder Mensch spielt je 2 Partien (sw/ws) gegen beide Geräte. 3. Der Test müsste in mehreren Phasen durchgeführt werden. Einmal mit Geräten die eher taktisch orientiert sind, einmal mit Geräten die eher positionell orientiert spielen, wie die Langs. Es gibt immer Gegner mit denen man gut zurecht kommt und welche die einem weniger liegen. Will man also ein Zufallsergebnis ausschließen dann muss der Gegnerpool entsprechend breiter ausgelegt sein. Mit nur 2 Geräten käme man da nicht hin. Da wären Zufallsergebnisse vorprogrammiert. Und da ist es für mich mit Computern wie mit Menschen.
Im realen Leben kann ich mir ja auch nicht aussuchen ob ich gegen einen Taktiker oder Positionsspieler gelost werde. Es gibt Gegner die mir liegen und wo ich auch nominell stärkere auseinandernehme und es gibt nominell schwächere Gegner gegen die ich kein Bein auf den Boden kriege. Allein diese Ergebnisse strafen die rein wertungsmäßig berechneten Gewinnerwartungen Lügen. Muss ich da dann auch stauchen? Allein daran sieht man doch wie unsinnig die Idee einer Stauchung ist.
|
|
||||||||||||
AW: Mm5 nur 1575 ELO ??
Man kann sich von dem Berechnungsmodell eigentlich nicht wirklich lösen. Die ELO-Zahl ist ein von Arpad Elo geschaffenes oder ermitteltes mathematisches Modell. Entweder ich benutze dieses Modell, dann habe ich eine ELO-Zahl oder ich benutze ein anderes Modell, dann habe ich etwas anderes. Deswegen halte ich allein aufgrund der Berechnungsgrundlagen in den ganzen Listen den Begriff ELO-Zahl für problematisch. Es ist eine BayesELO, eine ELOSTAT-ELO oder eine ORDO-ELO aber eben keine wirkliche ELO-Zahl. Es gibt nur eine ELO-Zahl (die von Arpad Elo) und es gibt die verschiedensten Wertungszahlen die auf irgendeine andere Art entstanden sind.
Der Begriff Gewinnerwartung den Du so gerne benutzt ist ebenfalls irreführend (zumindest so, wie ich ihn von Dir verstanden habe). Entweder ich habe eine Gewinnerwartung (woher wenn nicht aus einer Elodifferenz oder einer anderen Wertungszahlendifferenz?) oder ich habe ein Turnier in dem sowas berechnet wird. Dann ist es aber keine "Erwartung" mehr sondern ein Ergebnis. Also was nun bitte?
Nehmen wir wieder zwei Computer (um Tagesform und ähnliches auszuschließen). Du kennst die beiden Computer nicht und ich sage Dir, dass Gerät eine Gewinnerwartung von 64% hat. Was sage ich damit? Bei einem Wettkampf über 10 Partien ist 6,5:3,5 das wahrscheinlichste Ergebnis. Aber auch ein 8,0:2,0 ist möglich oder ein 5,0:5,0. Denn jede Partie ist unabhängig voneinander, bei einer Wiederholung morgen hätten wir immer noch genau dieselben 64%. Du würdest zurecht annehmen, dass die beiden Rechner sich in ihrem Rating um 100 Punkte unterscheiden (das sie es nicht tun, weil Ergebnisse gegen dritte anders ausfallen, ist unerheblich. Ohne weitere Informationen ist 100 immer noch die beste Schätzung). Ähnliche Situation, Du gibst mir zwei Schachcomputer. Ich weiß, auch hier gibt es wieder eine Gewinnerwartung, ich kenne nur den Wert nicht. Dass es ein fester Wert ist, WEIß ich aufgrund der Eigenschaft Schachcomputer. Es findet keine Entwicklung der Spielstärke statt, für eine ganz bestimmte Stellung kann ich theoretisch den berechneten Zug bestimmen, alle nötigen Informationen sind unabhängig vom Gegner und höchstens in der Praxis schwer zu ermitteln (z.B. Hashtabelle in Abhängigkeit von der Rechenzeit vorheriger Züge). Aber ich kenne den Wert nicht. Nach etlichen Testpartien komme ich auf einen Wert von (x+-y)%. Je kleiner y wird, desto besser die Vorhersage. Aber selbst mit y=0 kann ich das Ergebnis der nächsten Partie nicht vorhersagen. Ich kann es nur statistisch beschreiben, denn es sind Zufallselemente in der einzelnen Partie. Diese Art der Vorhersage machen wir z.B. bei den Tipps auf die von Egbert durchgeführten Matches. Und da vor dem Match x (y interessiert hier nicht mehr, es vergrößert nur die Unsicherheit, d.h. Tipps werden noch unsicherer) nur wenig Informationen verfügbar sind (z.B. durch Abschätzungen mit verwandten Programmen) sind die Vorhersagen deutlich ungenauer als bei Kenntnis der "wahren" Gewinnerwartung. Daher kommt der Spaß bei der Beschäftigung. Nächster Schritt: Eigentlich müsste für jedes Paar von Computern eine eigene Gewinnerwartung ermittelt werden, denn die Rückschlüsse aus anderen Partien funktionieren nur mit Annahmen. Dadurch können wir einem Programm eine Ratingzahl zuordnen und aufgrund dieser Ratingzahl Vorhersagen für zukünftige Wettkämpfe treffen. Haben zwei Programme dieselbe Ratingzahl, dann schätze ich sie daher als gleichstark ein und erwarte 50% für beide. Hätte ich aber vorher schon mal 100 Partien zwischen den beiden Computern durchgeführt (mit einem Ergebnis von 70:30), was sollte ich dann erwarten? Ich würde 70:30 erwarten, denn der direkte Vergleich enthält mehr Informationen als die eine, aus allen Partien ermittelte Ratingzahl. Zurück zur von dir geposteten Frage: Können Computer unter sich nach demselben Modell wie Menschen beschrieben werden und dann für eine Elodifferenz dieselben Gewinnerwartungen erhalten.
Also erstmal erneut ein erstauntes: "Ja was nun bitte?" Erst soll ich mich von dem Modell lösen, dann kommst Du mit der Frage ob man mit dem Modell arbeiten kann. Entscheide Dich doch bitte mal. Bei Computern funktioniert das auch ganz gut, aber es gibt viel mehr Partien und keine zeitlichen Schwankungen. Die statistischen Unsicherheiten sind klein und nur eine rein statistische Angabe. Ich kann zwei Programmen Ratingzahlen mit sehr kleiner Schwankung zuordnen, im direkten Duell kann etwas anderes herauskommen. Dies wird meist mit "Angstgegner" oder ähnlichen Begriffen beschrieben und ist damit für den Menschen "verstanden". Auch wenn die dahinter liegende Statistik zu kompliziert ist. Und jetzt kommt das Problem: Wir haben ein System mit großen Schwankungen für Menschen und ein System mit kleinen statistischen Unsicherheiten aber einer gewissen Verteilung von Gewinnerwartungen für Computer. Wie gut passen diese beiden Systeme zueinander, die beide einer Gewinnerwartung von 76% einen Ratingunterschied von 200 Punkten geben? Nur macht sich, zumindest seit man meint, ELO-Zahlen aufgrund von tausenden von Blitzpartien ermitteln zu wollen wie bei CCGT, keiner die Arbeit nach dem wirklichen ELO-Modell zu rechnen, sondern man verwendet andere Modelle. Das sind aber dann auch eben keine wirklichen ELO-Zahlen sondern eben Wertungszahlen nach Methode Bayes, ORDO oder wie sie alle heissen mögen. Gleichzeitig (siehe CSS-Forum) erwartet man dass diese Zahlen dann auch noch mit menschlichen ELO-Werten vergleichbar sein sollen. Da fängt dann wirklich die Dummheit an (das einzige neben dem Universum, das scheinbar wirklich keine Grenzen kennt).
Aber auch das System Arpad Elos ist nicht frei von intrinsischen Unterschieden. Vergleiche mal Zahlen der FIDE und der USCF auf verschiedenen Leveln aus der Zeit vor 2000. Das mathematische Modell war beides Mal gleich und dennoch war die Differenz für Durchschnittsspieler und für Spitzenspieler unterschiedlich. Und zwar in Größenordnungen wie bei der Frage -100 oder nicht für Brettcomputer. |
|
|||||||||||
AW: Mm5 nur 1575 ELO ??
Mag sein. Ich les mir deinen diesbezüglichen Post nochmal durch. Aber jetzt gibts bei mir erstmal Kaffee und Kuchen. Bei dem Wettkampf. Ich habe übersehen dass wir von mehr als 2 Menschen reden. Wenn wir hier einen Pool von 20 haben, dann sieht die Sache natürlich schon anders aus. Insofern an dieser Stelle haben wir wohl wirklich aneinander vorbeigeredet...
__________________
Mein Profil beim ICCF (International Correspondence Chess Federation) https://www.iccf.com/player?id=89948&tab=3 |
Folgender Benutzer sagt Danke zu Hartmut für den nützlichen Beitrag: | ||
borromeus (02.07.2017) |
|
||||
AW: Mm5 nur 1575 ELO ??
Also Leute, die "Diskussion" tut mir echt körperlich weh.
Nun habe ich mich mit dem Elo-System (dem des Herrn Elo, um genau zu sein) wenig beschäftigt, aber eins ist mir klar geworden: Die "guten" Spieler (die mit den letztendlich hohen Elo-Werten) "klauen" den niedrig bewerteten Spieler im Laufe der Zeit Punkte. Dadurch wird die Liste verschoben. Das gilt, obwohl das Berechnungssystem an sich korrekt ist, wenn der Pool an Geräten ungleichmäßig "bespielt" wird oder Neulinge eintreten. Wenn der Pool an Spielern nicht total geschlossen ist und nicht ständig gut durchmischt jeder gegen jeden immer wieder spielt, dann läuft das auf diesen "Klau-Effekt" hinaus. Und so ist doch die Spielpraxis: dieselben sehr starken Geräte kommen immer wieder, die schwächeren Teilnehmer wechseln in den Turnieren. Also kommt der Elo-Klau-Effekt zum Tragen. So isses. Dieser Effekt ist schuld am Anwachsen der Elo-Werte bei den starken Geräten. Dadurch erreichen die hoch bewerteten Spieler bzw. Geräte immer höhere Elo-Werte, die sie den niedriger bewerteten Spielern bzw. Geräten abnehmen. Die mittelstarken Geräte klauen bei den schwachen, die starken bei den mittleren.... Von daher stimmt das Gefühl der Community durchaus: Die Werte der starken Geräte stimmen zunehmend weniger bzw. man hat das Gefühl, dass sie zu hoch geworden sind. Aber eine lineare Absenkung der Skala ist aus dem genannten Grund sinnlos. Man müsste den stärksten Geräten viel, den mitlleren wenig Elo-Punkte abnehmen, und den schwächeren womöglich etwas zugeben, und das alles müsste unter dem Strich bei Plus und Minus neutral bleiben, also Null ergeben. Wie könnte man nun die Liste neu "eichen"? Von einer Eichung gegen menschliche Spieler würde ich völlig absehen. Menschliche Spieler lernen mit mehr Partien, sich gegen die Spielweise von Schachcomputern einzustellen (danke an Wolfgang, der die Strategien beschrieb), sie haben Formschwankungen, mit einem Wort, ihr Elo-Wert schwankt stark. Wie sollen sie da brauchbare "Eichmarken" abgeben? Ganz davon abgesehen, dass Zeit und bei den starken Schachcomputern geeignete starke Schachspieler fehlen. Meine Idee wäre, "geeichte" Geräte von früher als Fixpunkte zu nehmen, also z.B. einen MM 4 oder MM 5 oder ähnliche. Man vergleiche deren Elowerte von gestern und heute, und weil man davon ausgehen kann, dass ein Schachcomputer nichts dazu lernt, hat man hier einen Anhaltspunkt für eine Verschiebung. Man müsste nun die "geeichten" Geräte auf ihre früheren WErte zurücksetzen. Ich würde hier einfach die früheren Werte ohne lange Diskussion als Eichmarken übernehmen, ganz einfach, weil wir nichts besseres haben. Wenn man dazu einige weitere (ältere) schwächere "geeichte" und stärkere "geeichte" Geräte hätte, dann könnte man einschätzen, wie sich die Struktur der Liste verschoben hat. Wenn man das in Zahlen fasst, könnte man daraus ein rechnerisches Verfahren zur Anpassung ermitteln. Das könnte dann bei starken Geräten mehr Punktabzug, beim mittleren weniger oder keinen, bei schwächeren Punktzugabe bedeuten, alles nach einem rechnerischen Verfahren. Per Saldo müsste die Gesamtpunktzahl diesselbe bleiben, also muss es Gewinner und Verlierer an Elo-Punkten geben. Und jetzt beende ich mit der ziemlich kleinen Hoffnung, dass die weitere Diskussion sich etwas klarer bewegt und mir nicht mehr heftige Schmerzen bereitet. Si tacuisses.... Walter |
Folgender Benutzer sagt Danke zu Walter für den nützlichen Beitrag: | ||
Wolfgang2 (03.07.2017) |
|
|||||||||||
AW: Mm5 nur 1575 ELO ??
Dann lass doch bitte die Verwendung von Elo ganz. Offiziell heißt es "FIDE Rating". Und wenn wir hier ein "Schachcomputer.info Rating" machen würden, dann könnte man sehr gut darüber diskutieren, ob Computer xy mit unserer Ratingzahl Spielern mit Fide Rating im gleichen Bereich einen ausgeglichenen Wettkampf spielen würden.
Zitieren:
Ah, darin liegt wohl Dein Missverständnis.
Zitieren:
Nehmen wir wieder zwei Computer (um Tagesform und ähnliches auszuschließen). Du kennst die beiden Computer nicht und ich sage Dir, dass Gerät eine Gewinnerwartung von 64% hat. Was sage ich damit? Bei einem Wettkampf über 10 Partien ist 6,5:3,5 das wahrscheinlichste Ergebnis. Aber auch ein 8,0:2,0 ist möglich oder ein 5,0:5,0.
Zitieren:
Denn jede Partie ist unabhängig voneinander, bei einer Wiederholung morgen hätten wir immer noch genau dieselben 64%.
Zitieren:
Du würdest zurecht annehmen, dass die beiden Rechner sich in ihrem Rating um 100 Punkte unterscheiden (das sie es nicht tun, weil Ergebnisse gegen dritte anders ausfallen, ist unerheblich. Ohne weitere Informationen ist 100 immer noch die beste Schätzung).
Zitieren:
Ähnliche Situation, Du gibst mir zwei Schachcomputer. Ich weiß, auch hier gibt es wieder eine Gewinnerwartung, ich kenne nur den Wert nicht. Dass es ein fester Wert ist, WEIß ich aufgrund der Eigenschaft Schachcomputer. Es findet keine Entwicklung der Spielstärke statt, für eine ganz bestimmte Stellung kann ich theoretisch den berechneten Zug bestimmen, alle nötigen Informationen sind unabhängig vom Gegner und höchstens in der Praxis schwer zu ermitteln (z.B. Hashtabelle in Abhängigkeit von der Rechenzeit vorheriger Züge).
- keine Entwicklung stattfindet, - weil die vielleicht vorgegebenen Eröffnungsdatenbanken und damit die Endstellungen von denen es weiter geht endlich sind, etc. Dabei wird aber unterschlagen dass z.B, - Algorithmen existieren die bei 2 oder 3 gleichwertigern möglichen Zügen per Zufallsgenerator entscheiden, - dass der Pool (fast jeden Tag kommt eine neue Version irgendeiner Engine raus) sich stetig vergrößert, - dass mit jedem Gerät jeder gegen jeden das gegebene Eröffnungsbuch ausspielen müsste um den exakten Wert zu ermitteln, etc. Und damit ist es eben kein endliches Problem mehr, wie man sehr leicht mathematisch mit Hilfe der vollständigen Induktion nachweisen könnte, falls Dir dieses Nachweisprinzip bekannt ist. Schränke ich jetzt den Pool nur auf diese 2 Geräte ein, dann kann ich zwar nicht ihre Wertungszahl ermitteln, wohl aber davon ausgehen dass es eine feste Gewinnerwartung gibt. In diesem Fall wäre es wirklich ein endliches Problem. Und selbst wenn man solche Gags wie Zufallsgenerator bei gleichwertigen Zügen etc. mit einbezieht und damit ein unendliches Problem erschafft, ist der Wert doch näherungsweise so gut zu ermitteln dass man von einem relativ festen Wert ausgehen kann, auch wenn es kleine Unsicherheiten noch geben mag. Zitieren:
Aber ich kenne den Wert nicht. Nach etlichen Testpartien komme ich auf einen Wert von (x+-y)%. Je kleiner y wird, desto besser die Vorhersage. Aber selbst mit y=0 kann ich das Ergebnis der nächsten Partie nicht vorhersagen. Ich kann es nur statistisch beschreiben, denn es sind Zufallselemente in der einzelnen Partie.
Zitieren:
Diese Art der Vorhersage machen wir z.B. bei den Tipps auf die von Egbert durchgeführten Matches. Und da vor dem Match x (y interessiert hier nicht mehr, es vergrößert nur die Unsicherheit, d.h. Tipps werden noch unsicherer) nur wenig Informationen verfügbar sind (z.B. durch Abschätzungen mit verwandten Programmen) sind die Vorhersagen deutlich ungenauer als bei Kenntnis der "wahren" Gewinnerwartung. Daher kommt der Spaß bei der Beschäftigung.
Zitieren:
Nächster Schritt: Eigentlich müsste für jedes Paar von Computern eine eigene Gewinnerwartung ermittelt werden, denn die Rückschlüsse aus anderen Partien funktionieren nur mit Annahmen. Dadurch können wir einem Programm eine Ratingzahl zuordnen und aufgrund dieser Ratingzahl Vorhersagen für zukünftige Wettkämpfe treffen. Haben zwei Programme dieselbe Ratingzahl, dann schätze ich sie daher als gleichstark ein und erwarte 50% für beide. Hätte ich aber vorher schon mal 100 Partien zwischen den beiden Computern durchgeführt (mit einem Ergebnis von 70:30), was sollte ich dann erwarten?
Zitieren:
Ich würde 70:30 erwarten, denn der direkte Vergleich enthält mehr Informationen als die eine, aus allen Partien ermittelte Ratingzahl.
Zitieren:
Ich kann mit einem Modell etwas beschreiben. Wen ich das tue, dann kann ich dieses Modell für Vorhersagen verwenden und experimentell überprüfen. Bei Menschen funktioniert das Modell ganz gut und die Unsicherheiten im System sind kleiner als die Schwankungen aufgrund der zeitlichen Entwicklung der Spielstärke der Menschen (kurzfristige Formschwankungen und langfristige Entwicklungen durch mehr oder weniger Training, Gesundheit, Lebensumstände usw.).
Zitieren:
Bei Computern funktioniert das auch ganz gut, aber es gibt viel mehr Partien und keine zeitlichen Schwankungen. Die statistischen Unsicherheiten sind klein und nur eine rein statistische Angabe. Ich kann zwei Programmen Ratingzahlen mit sehr kleiner Schwankung zuordnen, im direkten Duell kann etwas anderes herauskommen. Dies wird meist mit "Angstgegner" oder ähnlichen Begriffen beschrieben und ist damit für den Menschen "verstanden". Auch wenn die dahinter liegende Statistik zu kompliziert ist.
Ein Vorteil wäre sicherlich die Menge der Partien. Wenn man die aber nur dadurch zustande bringt, dass man mit verschiedener Hardware arbeitet, dann bezüglich der Zeitvorgaben umrechnen muss ohne Berücksichtigung der Tatsache, dass sich das Programm mit solcher Einstellung dann vielleicht ganz anders verhält als normal, dann hilft auch die Menge der Partien nicht. Ganz im Gegenteil. Je mehr Partien mit solch mangelhafter Qualität ich habe, umso mehr wird die Statistik verfälscht. Und über das Thema zeitliche Veränderung könnte man jetzt vortrefflich streiten. Das die ganze Partienliste immer auf einem gegebenen Startwert bezogen komplett durchgerechnet wird und zeitliche Veränderungen nicht berücksichtigt werden, sorgt eben gerade für große statistische Unsicherheiten. Auch und gerade deshalb weil hier oftmals recht willkürliche Partienanzahlen als Basis dienen. Gegen den einen Gegner lasse ich 50 Partien spielen, gegen den anderen 300. Aber klar, die Abweichungen sind natürlich nur ganz gering. Sorry, wers glaubt ist selber schuld. Die einzige Liste die wirklich auf bestimmter Hardware aufbaut und nicht irgendwas umrechnet ist die IPON-Liste. Dafür kann mir da keiner erklären, warum manche Engines über zehntrausend Partien gespielt haben und einige andere nur wenige hundert. Man rechnet sich die Welt, wie sie einem gefällt. Hauptsache die richtigen Engines sind in der Liste weit oben. Wer mit wem wieviele Partien gespielt hat... wen juckts... Sorry, aber das hat mit Statistik absolut nichts mehr zu tun. Zitieren:
Und jetzt kommt das Problem: Wir haben ein System mit großen Schwankungen für Menschen und ein System mit kleinen statistischen Unsicherheiten aber einer gewissen Verteilung von Gewinnerwartungen für Computer.
Zitieren:
Bayes und Co. sind aufgekommen, weil das System von Arpad Elo nur Gewinnprozente benutzt und die Verteilung von Gewinn, Remis und Verlust nicht. Dadurch ergeben sich kleine Abweichungen. Aber auch das System Arpad Elos ist nicht frei von intrinsischen Unterschieden.
Die Berechnungsmethode nach FIDE hätte vor allem vorausgesetzt, dass man eine Datenbank anlegt und pflegt. Das ist für die Wertungslistenjunkies bei IPON und Co, die möglichst nach Erscheinen einer Engine an 3 Tagen schon 500 Partien gespielt haben wollen, aber zuviel Arbeit. Neue Partien an eine bestehende Datenbank anhängen und dann die Berechnung einfach neu starten ist halt einfacher. Quick and Dirty eben. Verkauft werden einem dann die von der FIDE-Berechnung abweichenden Listen mit nicht nachvollziehbaren Argumenten wie: 10 Siege und 10 Niederlagen gegen einen ELO 1500 werden bei der Fide ebenso behandelt wie 10 Siege gegen einen ELO 500 und 10 Verluste gegen einen ELO 2500 (so auf der Bayesian Seite zu lesen). Das eben aus diesem Grund eine ELO-Differenz von mehr als 400 Punkten für die Berechnung nicht berücksichtigt wird, damit genau dieser Fall eben nicht vorkommt, wird natürlich verschwiegen. Hauptsache, ich habe einen Grund die Quick und Dirty-Lösung zu nehmen. Wenn dann auch noch das Material, welches ausgewertet werden soll, schon fehlerhaft ist (wie oben beschrieben), wie soll da was vernünftiges bei rauskommen. Bisher hat mir noch niemand bewiesen dass die verschiedenen Berechnungsmethoden ala Bayes alltagstauglich sind, weil noch niemand (vielleicht von unserem Forum hier mal abgesehen) ein vernünftiges Ausgangsmaterial ausgewertet hat. Das von IPON CCGT und Co ist jedenfalls aufgrund der sehr fragwürdigen Erstellungsmethode absolut unbrauchbar. Zitieren:
Vergleiche mal Zahlen der FIDE und der USCF auf verschiedenen Leveln aus der Zeit vor 2000. Das mathematische Modell war beides Mal gleich und dennoch war die Differenz für Durchschnittsspieler und für Spitzenspieler unterschiedlich. Und zwar in Größenordnungen wie bei der Frage -100 oder nicht für Brettcomputer.
OK, sei's drum, du kannst weiter die Argumente der Listenanbieter und Programierer von Bayes und Co nachplappern oder mir mathematisch beweisen, was an diesen Listen jetzt besser sein soll. Ansonsten müssen wir das Thema nicht weiter ausweiten, denn weiterkommen werden wir hier auf andere Art nicht. Dass Listen die nicht auf dieselbe Art entstanden sind, nicht direkt vergleichbar sind, darüber dürften wir uns ja einig sein. Ansonsten zieh ich mich aus dem Thema jetzt erstmal raus. Meine Fernschachpartien warten...
__________________
Mein Profil beim ICCF (International Correspondence Chess Federation) https://www.iccf.com/player?id=89948&tab=3 |
|
||||||||||||
AW: Mm5 nur 1575 ELO ??
Hallo Zusammen,
über die Stärken und Schwächen der momentan zur Anwendung kommenden Berechnungsprogramme wurde nun ja lang und breit diskutiert. Da ich aber ein praktisch veranlagter Mensch bin, würde ich auch gerne Lösungsvorschläge lesen. Die Probleme sind bekannt und genannt worden, nun sollte der zweite Schritt erfolgen, Lösungsmöglichkeiten aufzeigen. Nick hatte seine Lösung vor nicht allzu langer Zeit präsentiert, zumindest bezüglich 1000 Elo Untergrenze: http://www.spacious-mind.com/html/ra...justments.html Da ich aber kaum eine praktikable Lösung sehe, werde ich in Zukunft einfach das Wörtchen Elo durch Rating ersetzen. Blöd aber genial, gell? Gruß Micha |
|
|||||||||||
AW: Mm5 nur 1575 ELO ??
|
|
|