Schachcomputer.info Community
  #81  
Alt 01.07.2017, 15:18
Hartmut Hartmut ist offline
Lebende Foren Legende
 
Registriert seit: 01.04.2010
Ort: Nürnberg
Alter: 60
Land:
Beiträge: 2.226
Abgegebene Danke: 3.403
Erhielt 1.644 Danke für 945 Beiträge
Aktivitäten Langlebigkeit
6/20 15/20
Heute Beiträge
0/3 sssss2226
AW: Mm5 nur 1575 ELO ??

 Zitat von borromeus Beitrag anzeigen
Ihr redet aneinander vorbei- solwac hat das Problem schon richtig erkannt, denke ich. Er sagt einfach nur, dass 2 Compis, die auf Menschen geeicht sind, wenn diese gegeneinander spielen eine höhere Elodifferenz aufweisen werden als die ursprüngliche.
Das sagt er eben nicht. Er spricht eben in diesem Zusammenhang von Gewinnerwartung. Und diese ist eben durch die ELO-Differenz festgelegt. Kann durchaus sein, dass diese beiden Geräte dann untereinander ein anderes Ergebnis einfahren und sich daraus dann eine höhere ELO-Differenz ergibt, wenn man die Partien auswertet. Aber das ist eben der Punkt. Ich muss eben einen solchen Wettkampf durchführen. Dann ergibt sich die neue ELO-Zahl und alles ist OK. Ich kann aber nicht einfach von vornherein sagen, dass bei diesen beiden Geräten die Gewinnerwartung anders ist. Genauso könnte ich dann sagen, wenn ich in meinem Verein andauernd die ELO-2000er niederknüpple (weil ich die kenne) ist die Gewinnerwartung größer als wenn ich gegen unbekannte 2000er aus einem anderen Pool antrete. Das ist zwar sehr wahrscheinlich, aber ich muss es eben in einem Turnier bestätigen. Darum macht man ja die ganze ELO-Rechnerei. Damit die ELO-Zahl in Relation zu einem möglichst großen Gegnerpool steht.


Zitieren:
Das geht auch umgekehrt: ich könnte mir einen Labortest vorstellen:

Es melden sich x Freiwillige, deren ELOzahl bekannt ist.
Sagen wir, deren ELO Schnitt sei 1700.

Dann wählt der Tester zwei Geräte aus, eines mit 1700 und eines mit 2000.
Der Tester lässt die Geräte gegen die Menschen spielen, wobei den Menschen das Gerät nicht bekannt ist- also keine Vorbereitung möglich. Die Partien werden nicht, oder erst am Ende veröffentlicht.

Was wird herauskommen, signifikante Anzahl an Partien vorausgesetzt?
Die beiden Compis performen mit einem geringeren Abstand als die 300!

Wie Wolfgang2 schrieb wird nun "gestaucht".
Warum soll man dann stauchen? Zuerst einmal gäbe es bei diesem Labortest einige Probleme.

1. Ich weiss zwar nicht welche Geräte bespielt werden, ich weiss aber dass es Computer sind, könnte also rein theoretisch eine Anti-Computer-Strategie fahren. Das würde das Ergebnis verfälschen.

2. Es ist nicht bekannt, gegen welche Gegner die 1700 bzw. 2000 erreicht wurden. Aber gut, das könnte man herausfinden.

3. Der Test müsste in mehreren Phasen durchgeführt werden. Einmal mit Geräten die eher taktisch orientiert sind, einmal mit Geräten die eher positionell orientiert spielen, wie die Langs. Es gibt immer Gegner mit denen man gut zurecht kommt und welche die einem weniger liegen. Will man also ein Zufallsergebnis ausschließen dann muss der Gegnerpool entsprechend breiter ausgelegt sein. Mit nur 2 Geräten käme man da nicht hin. Da wären Zufallsergebnisse vorprogrammiert. Und da ist es für mich mit Computern wie mit Menschen.

Es gibt Gegner die mir liegen und wo ich auch nominell stärkere auseinandernehme und es gibt nominell schwächere Gegner gegen die ich kein Bein auf den Boden kriege. Allein diese Ergebnisse strafen die rein wertungsmäßig berechneten Gewinnerwartungen Lügen. Muss ich da dann auch stauchen? Allein daran sieht man doch wie unsinnig die Idee einer Stauchung ist.

Und unabhängig vom Ergebnis eines solchen Tests habe ich ja erstmal nichts bewiesen, außer dass gewisse Spieler oder Computer andere Ergebnisse erzielen, wenn sich der Gegnerpool ändert. Um das zu beweisen muss ich mir nur ansehen wie ich persönlich gegen eine Gegnerschaft von sagen wir mal durchschnittlich ELO 2000 im eigenen Verein punkte (wo ich die Gegner und ihre Vorlieben und Spielweisen alle sehr gut kenne und mich entsprechend darauf einstelle) oder in einem gleichstarken fremden Umfeld (z.B. einem Open, oder in den Mannschaftskämpfen gegen fremde Gegner). Da könnte man genau denselben Effekt feststellen. Ich werde mit großer Wahrscheinlichkeit im eigenen Verein gegen bekannte Gegner anders punkten. Und sei es nur deshalb weil ich einer derjenigen bin, die sich auch auf bekannte Gegner gut vorbereiten während der Gegner vielleicht frank und frei drauflosspielt (findet man in Vereinsturnieren öfter mal). Muss ich jetzt dann die offiziellen ELO/DWZ-Listen stauchen weil es auch sowas wie eine Vereinsmeisterschaft gibt? Nein. Es zeigt doch nur dass ein Gegnerpool der klein gehalten ist, nicht so aussagekräftig ist, wie ein entsprechend großer Gegnerpool. Oder dass, wenn ich 2 Poole zusammenführe was anderes rauskommt als innerhalb der beiden separaten Poole. Aber dafür muss ich nicht Computer und Menschen vergleichen. Das kann man auch rein unter Menschen (oder wie gehabt im Vergleichskampf Hiarcs - Berlin Pro hier im Forum) ohne Probleme feststellen. Dazu muss ich nicht den Mensch-Maschine-Vergleich bemühen (auch wenn der sicherlich interessant sein dürfte).

Insgesamt wäre so ein Labortest sicherlich interessant. Ob dann allerdings das von Dir oder Solvac vorweggenommene Ergebnis herauskommt wird sich zeigen. Bisher ist das erstmal nur Vermutung.

Ich würde hier sogar eher ein anderes Testumfeld wählen, nämlich ein Turnier oder eine Wettkampfserie mit menschlichen und elektronischen Gegnern im etwa selben ELO-Level. Die jeweiligen Gegner dürfen sich jedoch nicht am Brett sehen und die Züge werden von Mittelsmännern ausgeführt. Das heisst, der Mensch weiss nicht ob er gerade gegen einen Computer oder gegen einen Menschen spielt. Mag sein, dass er es im Laufe der Partie aufgrund bestimmter dummer Computerzüge herausfindet, aber erstmal weiss er es nicht. Damit vermeide ich Anti-Computer-Strategien und erhalte ein unabhängiges Ergebnis. So einen Test würde ich auf jeden Fall als aussagekräftig ansehen, wenngleich auch da natürlich Zufallsergebnisse nicht auszuschließen wären.

Zitieren:
Conclusio: Lassen wir die Listen wie sie sind, denn in der Welt der Compis stimmen sie ja. Eine Übertragung dieser Elozahl auf Menschen ist aber nur bedingt möglich
In der Welt der Compis stimmen sie ja auch nicht wirklich, weil sie eben auf völlig andere Art berechnet wurden. Um hier den Wert eines ELO-Unterschieds von sagen wir mal 50 ELO beurteilen zu können, müsste ich die Berechnung als Otto-Normaldoof erstmal verstehen. Und da gibt es auf den Herstellerseiten zwar viele Formeln, aber die versteht man vielleicht als Mathematiker, nicht aber als Normalsterblicher. Deswegen kommt es ja immer wieder zu solchen fruchtlosen Diskussionen wie im CSS-Forum. Weil eigentlich keiner das Prinzip der verschiedenen Wertungssysteme versteht und weil jeder meint ELO darf auch was anderes sein, als die Berechnungsgrundlage von Arpad ELO und ist dann trotzdem vergleichbar. Kommt mir vor wie die PSH-Methode beim Superconny... geht aber da wie dort schief.
__________________
Mein Profil beim ICCF (International Correspondence Chess Federation)
https://www.iccf.com/player?id=89948&tab=3
Mit Zitat antworten
Folgender Benutzer sagt Danke zu Hartmut für den nützlichen Beitrag:
Mythbuster (01.07.2017)
  #82  
Alt 02.07.2017, 10:08
Benutzerbild von Solwac
Solwac Solwac ist offline
Revelation
 
Registriert seit: 18.07.2010
Land:
Beiträge: 782
Abgegebene Danke: 189
Erhielt 338 Danke für 216 Beiträge
Aktivitäten Langlebigkeit
0/20 14/20
Heute Beiträge
0/3 ssssss782
AW: Mm5 nur 1575 ELO ??

 Zitat von borromeus Beitrag anzeigen
Er sagt einfach nur, dass 2 Compis, die auf Menschen geeicht sind, wenn diese gegeneinander spielen eine höhere Elodifferenz aufweisen werden als die ursprüngliche.
Nicht werden, ich halte so einen Unterschied für möglich. Leider stehen nicht genügend Partien gegen Menschen zur Verfügung um hier mit genügend Sicherheit eine Aussage treffen zu können.

@Hartmut: Bitte löse Dich von der aktuellen Berechnung der Elozahl für Menschen. Hier in der Diskussion braucht es mehrere Elozahlen, je nach Ermittlung. Besser ist deshalb für Computer die Verwendung des Begriffs Gewinnerwartung, das wird schließlich in einem Turnier ermittelt. Erst danach kommt die Vergabe von Elowerten um mit einem mathematischen Modell einfacher fassbare Zahlen zu bekommen. Aber hier geht es ja um die Frage, können Computer unter sich nach dem selben Modell wie Menschen beschrieben werden und dann für eine Elodifferenz dieselben Gewinnerwartungen erhalten?
Mit Zitat antworten
  #83  
Alt 02.07.2017, 12:23
Hartmut Hartmut ist offline
Lebende Foren Legende
 
Registriert seit: 01.04.2010
Ort: Nürnberg
Alter: 60
Land:
Beiträge: 2.226
Abgegebene Danke: 3.403
Erhielt 1.644 Danke für 945 Beiträge
Aktivitäten Langlebigkeit
6/20 15/20
Heute Beiträge
0/3 sssss2226
AW: Mm5 nur 1575 ELO ??

 Zitat von Solwac Beitrag anzeigen
Nicht werden, ich halte so einen Unterschied für möglich. Leider stehen nicht genügend Partien gegen Menschen zur Verfügung um hier mit genügend Sicherheit eine Aussage treffen zu können.

@Hartmut: Bitte löse Dich von der aktuellen Berechnung der Elozahl für Menschen. Hier in der Diskussion braucht es mehrere Elozahlen, je nach Ermittlung. Besser ist deshalb für Computer die Verwendung des Begriffs Gewinnerwartung, das wird schließlich in einem Turnier ermittelt. Erst danach kommt die Vergabe von Elowerten um mit einem mathematischen Modell einfacher fassbare Zahlen zu bekommen. Aber hier geht es ja um die Frage, können Computer unter sich nach dem selben Modell wie Menschen beschrieben werden und dann für eine Elodifferenz dieselben Gewinnerwartungen erhalten?
Man kann sich von dem Berechnungsmodell eigentlich nicht wirklich lösen. Die ELO-Zahl ist ein von Arpad Elo geschaffenes oder ermitteltes mathematisches Modell. Entweder ich benutze dieses Modell, dann habe ich eine ELO-Zahl oder ich benutze ein anderes Modell, dann habe ich etwas anderes. Deswegen halte ich allein aufgrund der Berechnungsgrundlagen in den ganzen Listen den Begriff ELO-Zahl für problematisch. Es ist eine BayesELO, eine ELOSTAT-ELO oder eine ORDO-ELO aber eben keine wirkliche ELO-Zahl. Es gibt nur eine ELO-Zahl (die von Arpad Elo) und es gibt die verschiedensten Wertungszahlen die auf irgendeine andere Art entstanden sind. Wie ich früher schon mal gesagt habe. Äpfel und Birnen halt. Und genau deswegen kann ich es nicht mit den menschlichen Zahlen vergleichen. Egal wie ich mir die Computerlisten durch Änderung von Startwerten schönrechne. Vergleiche es mit dem Begriff Dollar. Wenn wir von Dollar reden, meinen wir den US-Dollar. Nicht den Hongkong Dollar, nicht den kanadischen Dollar oder irgende Andere Währung, die mit dem Begriff Dollar arbeitet. Und wir können auch nicht erwarten dass der Hongkong Dollar denselben Wert hat. Arbeiten wir aber mit verschiedenen Wertungszahl-Systemen die alle den Begriff ELO verwenden, dann soll das auf einmal gehen.

Der Begriff Gewinnerwartung den Du so gerne benutzt ist ebenfalls irreführend (zumindest so, wie ich ihn von Dir verstanden habe). Entweder ich habe eine Gewinnerwartung (woher wenn nicht aus einer Elodifferenz oder einer anderen Wertungszahlendifferenz?) oder ich habe ein Turnier in dem sowas berechnet wird. Dann ist es aber keine "Erwartung" mehr sondern ein Ergebnis. Also was nun bitte?

Zurück zur von dir geposteten Frage: Können Computer unter sich nach demselben Modell wie Menschen beschrieben werden und dann für eine Elodifferenz dieselben Gewinnerwartungen erhalten.

Also erstmal erneut ein erstauntes: "Ja was nun bitte?" Erst soll ich mich von dem Modell lösen, dann kommst Du mit der Frage ob man mit dem Modell arbeiten kann. Entscheide Dich doch bitte mal.

Natürlich kann man die Geräte untereinander genau so beschreiben. Was soll denn dagegen sprechen? Das ein Computer auch mal Eröffnungen spielt von denen er nichts versteht? Das machen Menschen (zumindest in den unteren Spielklassen) oftmals auch. Dass er keine Erfahrungswerte sammelt wie ein Mensch und daher nicht dazulernt? Das machen Menschen oftmals auch. Die Tatsache dass sie dazulernen KÖNNEN heisst noch lange nicht dass sie es auch tun. Ich kenne genügend Leute die immer wieder dieselben Fehler machen, im sonstigen Leben ebenso wie im Schach.

Grundsätzlich ist das ELO-System einfach nur ein mathematisches Modell, welches durch andauernde Auswertung von Partienmaterial eine Wertungszahl ermittelt. Durch andauernde Nachberechnung (wenn eben neue Partien dazukommen) ändert sich die Wertungszahl, nähert sich damit aber auch eher einem realistischen Wert an. Die ELO-Differenz zweier Spieler bestimmt die Gewinnerwartung. Je mehr Partien man hat und je größer der Pool der bespielten Gegner ist desto mehr entspricht die Gewinnerwartung der Realität.

Rein logisch wäre diese Methode von Arpad Elo sogar bei Computern besser anwendbar wie bei Menschen. Warum? Ein mathematisches Modell kennt keinen menschlichen Faktor. Wende ich das Modell bei Computern an, die keine Formschwankungen als solches kennen, werde ich bei Berechnung mit diesem Modell auf jeden Fall mit jeder erneuten Nachberechnung realistischere Werte bekommen. Beim Menschen wird diese Annäherung an realistische Werte jedoch immer einen Ungenauigkeitsfaktor (den menschlichen Faktor, wenn Du so willst)haben. Heute ist er in Topform, morgen ist er erkältet, vielleicht setzt er sich auch mal besoffen ans Brett oder verarbeitet gerade eine Trennung oder einen Verlust. Was auch immer. Das heisst letztlich nur: Die Werte beim Computer wären sogar genauer weil solche Formschwankungen keine Rolle spielen und mit der verwendeten Formel - die ja nichts anderes ist als eine Näherungsformel - irgendwann wirklich ein realistischer Wert erreicht wird. Beim Menschen nähere ich mich allenfalls seiner "durchschnittlichen" Form über den Zeitraum der Messung an, da er eben keinen "festen" Wert hat und es auch dauert bis durch die Berechnung seine Wertungszahl der tatsächlichen momentanen Form entspricht.

Nur macht sich, zumindest seit man meint, ELO-Zahlen aufgrund von tausenden von Blitzpartien ermitteln zu wollen wie bei CCGT, keiner die Arbeit nach dem wirklichen ELO-Modell zu rechnen, sondern man verwendet andere Modelle. Das sind aber dann auch eben keine wirklichen ELO-Zahlen sondern eben Wertungszahlen nach Methode Bayes, ORDO oder wie sie alle heissen mögen. Gleichzeitig (siehe CSS-Forum) erwartet man dass diese Zahlen dann auch noch mit menschlichen ELO-Werten vergleichbar sein sollen. Da fängt dann wirklich die Dummheit an (das einzige neben dem Universum, das scheinbar wirklich keine Grenzen kennt).

Ich kann natürlich normale ELO-Werte von Computern wie von Menschen berechnen und sie werden dann auch nahezu vergleichbar sein. Ich kann auch sagen: "Scheiss auf Arpad ELO ich benutze jetzt BayesELO für Computer UND Menschen". Kann man alles machen. Dann hat man halt auch eine Bayes-Zahl für Menschen. Ich kann aber nicht hergehen und 2 Gruppen bilden (In diesem Fall Computer und Menschen, ich könnte aber auch genauso 2 Menschengruppen nehmen), deren Wertungszahlen auf verschiedene Methoden ermitteln und dann hoffen, vergleichbare Werte zu haben. Die werde ich wie gesagt auch bei gleicher Berechnungsmethode nie haben, weil die Form beim Menschen schwankt und damit die ELO-Zahl die ja nur zurückliegende Partien enthält nicht unbedingt seiner momentanen Tages/Monatsform entsprechen muss. Sie wird aber in ungefähr vergleibar sein. Werden aber Wertungszahlen nach 2 verschiedenen Methoden errechnet gibt es keine Vergleichbarkeit. Vergleiche es mit dem Dollar. Wenn wir vom Dollar reden meinen wir den US-Dollar. Keiner käme auf die Idee zu glauben, dass er für einen Hongkong-Dollar oder einen kanadischen Dollar denselben Wert in der Hand hat, nur weil da auch das Wort Dollar draufsteht.

Wir können da noch monatelang diskutieren. Rein mathematisch kann ich alles anwenden und vergleichen und es wird auch vergleichbar sein, sofern ich nicht versuche 2 Gruppen auf verschiedene Arten zu berechnen und dann zu glauben, auch noch vergleichbare Ergebisse zu erhalten. Das funktioniert nicht.
__________________
Mein Profil beim ICCF (International Correspondence Chess Federation)
https://www.iccf.com/player?id=89948&tab=3

Geändert von Hartmut (02.07.2017 um 12:53 Uhr)
Mit Zitat antworten
  #84  
Alt 02.07.2017, 13:56
borromeus borromeus ist offline
TASC R30
 
Registriert seit: 24.02.2017
Land:
Beiträge: 427
Abgegebene Danke: 1.050
Erhielt 486 Danke für 242 Beiträge
Aktivitäten Langlebigkeit
5/20 8/20
Heute Beiträge
1/3 ssssss427
AW: Mm5 nur 1575 ELO ??

 Zitat von Hartmut Beitrag anzeigen
1. Ich weiss zwar nicht welche Geräte bespielt werden, ich weiss aber dass es Computer sind, könnte also rein theoretisch eine Anti-Computer-Strategie fahren. Das würde das Ergebnis verfälschen.
Wieso, der Anti-Computer-Schachspieler spielt ja gegen beide Geräte.
Jeder Mensch spielt je 2 Partien (sw/ws) gegen beide Geräte.

 Zitat von Hartmut Beitrag anzeigen
2. Es ist nicht bekannt, gegen welche Gegner die 1700 bzw. 2000 erreicht wurden. Aber gut, das könnte man herausfinden.
Wieso? Es gibt ja "hier" eine ELO Liste- die würde ich anwenden.

 Zitat von Hartmut Beitrag anzeigen
3. Der Test müsste in mehreren Phasen durchgeführt werden. Einmal mit Geräten die eher taktisch orientiert sind, einmal mit Geräten die eher positionell orientiert spielen, wie die Langs. Es gibt immer Gegner mit denen man gut zurecht kommt und welche die einem weniger liegen. Will man also ein Zufallsergebnis ausschließen dann muss der Gegnerpool entsprechend breiter ausgelegt sein. Mit nur 2 Geräten käme man da nicht hin. Da wären Zufallsergebnisse vorprogrammiert. Und da ist es für mich mit Computern wie mit Menschen.
Wieso? Es spielen sagen wir mal minestens 20 Menschen mit. Dann ist es ja egal ob ein Mensch gegen zB taktisch orientierte Geräte ein Problem haben, andere haben das eben nicht.
Im realen Leben kann ich mir ja auch nicht aussuchen ob ich gegen einen Taktiker oder Positionsspieler gelost werde.

 Zitat von Hartmut Beitrag anzeigen
Es gibt Gegner die mir liegen und wo ich auch nominell stärkere auseinandernehme und es gibt nominell schwächere Gegner gegen die ich kein Bein auf den Boden kriege. Allein diese Ergebnisse strafen die rein wertungsmäßig berechneten Gewinnerwartungen Lügen. Muss ich da dann auch stauchen? Allein daran sieht man doch wie unsinnig die Idee einer Stauchung ist.
Gut, das sehe ich nicht so, aber vermutlich hat einer von uns beiden ein Verständnisproblem mit der Aufgabenstellung. Das meine ich jetzt genau so, wie es hier steht.... vielleicht stehe ich ja auf der Leitung.
Mit Zitat antworten
  #85  
Alt 02.07.2017, 14:02
Benutzerbild von Solwac
Solwac Solwac ist offline
Revelation
 
Registriert seit: 18.07.2010
Land:
Beiträge: 782
Abgegebene Danke: 189
Erhielt 338 Danke für 216 Beiträge
Aktivitäten Langlebigkeit
0/20 14/20
Heute Beiträge
0/3 ssssss782
AW: Mm5 nur 1575 ELO ??

 Zitat von Hartmut Beitrag anzeigen
Man kann sich von dem Berechnungsmodell eigentlich nicht wirklich lösen. Die ELO-Zahl ist ein von Arpad Elo geschaffenes oder ermitteltes mathematisches Modell. Entweder ich benutze dieses Modell, dann habe ich eine ELO-Zahl oder ich benutze ein anderes Modell, dann habe ich etwas anderes. Deswegen halte ich allein aufgrund der Berechnungsgrundlagen in den ganzen Listen den Begriff ELO-Zahl für problematisch. Es ist eine BayesELO, eine ELOSTAT-ELO oder eine ORDO-ELO aber eben keine wirkliche ELO-Zahl. Es gibt nur eine ELO-Zahl (die von Arpad Elo) und es gibt die verschiedensten Wertungszahlen die auf irgendeine andere Art entstanden sind.
Dann lass doch bitte die Verwendung von Elo ganz. Offiziell heißt es "FIDE Rating". Und wenn wir hier ein "Schachcomputer.info Rating" machen würden, dann könnte man sehr gut darüber diskutieren, ob Computer xy mit unserer Ratingzahl Spielern mit Fide Rating im gleichen Bereich einen ausgeglichenen Wettkampf spielen würden.

 Zitat von Hartmut Beitrag anzeigen
Der Begriff Gewinnerwartung den Du so gerne benutzt ist ebenfalls irreführend (zumindest so, wie ich ihn von Dir verstanden habe). Entweder ich habe eine Gewinnerwartung (woher wenn nicht aus einer Elodifferenz oder einer anderen Wertungszahlendifferenz?) oder ich habe ein Turnier in dem sowas berechnet wird. Dann ist es aber keine "Erwartung" mehr sondern ein Ergebnis. Also was nun bitte?
Ah, darin liegt wohl Dein Missverständnis.

Nehmen wir wieder zwei Computer (um Tagesform und ähnliches auszuschließen). Du kennst die beiden Computer nicht und ich sage Dir, dass Gerät eine Gewinnerwartung von 64% hat. Was sage ich damit? Bei einem Wettkampf über 10 Partien ist 6,5:3,5 das wahrscheinlichste Ergebnis. Aber auch ein 8,0:2,0 ist möglich oder ein 5,0:5,0.
Denn jede Partie ist unabhängig voneinander, bei einer Wiederholung morgen hätten wir immer noch genau dieselben 64%. Du würdest zurecht annehmen, dass die beiden Rechner sich in ihrem Rating um 100 Punkte unterscheiden (das sie es nicht tun, weil Ergebnisse gegen dritte anders ausfallen, ist unerheblich. Ohne weitere Informationen ist 100 immer noch die beste Schätzung).

Ähnliche Situation, Du gibst mir zwei Schachcomputer. Ich weiß, auch hier gibt es wieder eine Gewinnerwartung, ich kenne nur den Wert nicht. Dass es ein fester Wert ist, WEIß ich aufgrund der Eigenschaft Schachcomputer. Es findet keine Entwicklung der Spielstärke statt, für eine ganz bestimmte Stellung kann ich theoretisch den berechneten Zug bestimmen, alle nötigen Informationen sind unabhängig vom Gegner und höchstens in der Praxis schwer zu ermitteln (z.B. Hashtabelle in Abhängigkeit von der Rechenzeit vorheriger Züge).

Aber ich kenne den Wert nicht. Nach etlichen Testpartien komme ich auf einen Wert von (x+-y)%. Je kleiner y wird, desto besser die Vorhersage. Aber selbst mit y=0 kann ich das Ergebnis der nächsten Partie nicht vorhersagen. Ich kann es nur statistisch beschreiben, denn es sind Zufallselemente in der einzelnen Partie. Diese Art der Vorhersage machen wir z.B. bei den Tipps auf die von Egbert durchgeführten Matches. Und da vor dem Match x (y interessiert hier nicht mehr, es vergrößert nur die Unsicherheit, d.h. Tipps werden noch unsicherer) nur wenig Informationen verfügbar sind (z.B. durch Abschätzungen mit verwandten Programmen) sind die Vorhersagen deutlich ungenauer als bei Kenntnis der "wahren" Gewinnerwartung. Daher kommt der Spaß bei der Beschäftigung.

Nächster Schritt: Eigentlich müsste für jedes Paar von Computern eine eigene Gewinnerwartung ermittelt werden, denn die Rückschlüsse aus anderen Partien funktionieren nur mit Annahmen. Dadurch können wir einem Programm eine Ratingzahl zuordnen und aufgrund dieser Ratingzahl Vorhersagen für zukünftige Wettkämpfe treffen. Haben zwei Programme dieselbe Ratingzahl, dann schätze ich sie daher als gleichstark ein und erwarte 50% für beide. Hätte ich aber vorher schon mal 100 Partien zwischen den beiden Computern durchgeführt (mit einem Ergebnis von 70:30), was sollte ich dann erwarten?
Ich würde 70:30 erwarten, denn der direkte Vergleich enthält mehr Informationen als die eine, aus allen Partien ermittelte Ratingzahl.

 Zitat von Hartmut Beitrag anzeigen
Zurück zur von dir geposteten Frage: Können Computer unter sich nach demselben Modell wie Menschen beschrieben werden und dann für eine Elodifferenz dieselben Gewinnerwartungen erhalten.

Also erstmal erneut ein erstauntes: "Ja was nun bitte?" Erst soll ich mich von dem Modell lösen, dann kommst Du mit der Frage ob man mit dem Modell arbeiten kann. Entscheide Dich doch bitte mal.
Ich kann mit einem Modell etwas beschreiben. Wen ich das tue, dann kann ich dieses Modell für Vorhersagen verwenden und experimentell überprüfen. Bei Menschen funktioniert das Modell ganz gut und die Unsicherheiten im System sind kleiner als die Schwankungen aufgrund der zeitlichen Entwicklung der Spielstärke der Menschen (kurzfristige Formschwankungen und langfristige Entwicklungen durch mehr oder weniger Training, Gesundheit, Lebensumstände usw.).
Bei Computern funktioniert das auch ganz gut, aber es gibt viel mehr Partien und keine zeitlichen Schwankungen. Die statistischen Unsicherheiten sind klein und nur eine rein statistische Angabe. Ich kann zwei Programmen Ratingzahlen mit sehr kleiner Schwankung zuordnen, im direkten Duell kann etwas anderes herauskommen. Dies wird meist mit "Angstgegner" oder ähnlichen Begriffen beschrieben und ist damit für den Menschen "verstanden". Auch wenn die dahinter liegende Statistik zu kompliziert ist.

Und jetzt kommt das Problem: Wir haben ein System mit großen Schwankungen für Menschen und ein System mit kleinen statistischen Unsicherheiten aber einer gewissen Verteilung von Gewinnerwartungen für Computer. Wie gut passen diese beiden Systeme zueinander, die beide einer Gewinnerwartung von 76% einen Ratingunterschied von 200 Punkten geben?

 Zitat von Hartmut Beitrag anzeigen
Nur macht sich, zumindest seit man meint, ELO-Zahlen aufgrund von tausenden von Blitzpartien ermitteln zu wollen wie bei CCGT, keiner die Arbeit nach dem wirklichen ELO-Modell zu rechnen, sondern man verwendet andere Modelle. Das sind aber dann auch eben keine wirklichen ELO-Zahlen sondern eben Wertungszahlen nach Methode Bayes, ORDO oder wie sie alle heissen mögen. Gleichzeitig (siehe CSS-Forum) erwartet man dass diese Zahlen dann auch noch mit menschlichen ELO-Werten vergleichbar sein sollen. Da fängt dann wirklich die Dummheit an (das einzige neben dem Universum, das scheinbar wirklich keine Grenzen kennt).
Bayes und Co. sind aufgekommen, weil das System von Arpad Elo nur Gewinnprozente benutzt und die Verteilung von Gewinn, Remis und Verlust nicht. Dadurch ergeben sich kleine Abweichungen.
Aber auch das System Arpad Elos ist nicht frei von intrinsischen Unterschieden.

Vergleiche mal Zahlen der FIDE und der USCF auf verschiedenen Leveln aus der Zeit vor 2000. Das mathematische Modell war beides Mal gleich und dennoch war die Differenz für Durchschnittsspieler und für Spitzenspieler unterschiedlich. Und zwar in Größenordnungen wie bei der Frage -100 oder nicht für Brettcomputer.
Mit Zitat antworten
  #86  
Alt 02.07.2017, 17:09
Hartmut Hartmut ist offline
Lebende Foren Legende
 
Registriert seit: 01.04.2010
Ort: Nürnberg
Alter: 60
Land:
Beiträge: 2.226
Abgegebene Danke: 3.403
Erhielt 1.644 Danke für 945 Beiträge
Aktivitäten Langlebigkeit
6/20 15/20
Heute Beiträge
0/3 sssss2226
AW: Mm5 nur 1575 ELO ??

 Zitat von borromeus Beitrag anzeigen
Gut, das sehe ich nicht so, aber vermutlich hat einer von uns beiden ein Verständnisproblem mit der Aufgabenstellung. Das meine ich jetzt genau so, wie es hier steht.... vielleicht stehe ich ja auf der Leitung.
Mag sein. Ich les mir deinen diesbezüglichen Post nochmal durch. Aber jetzt gibts bei mir erstmal Kaffee und Kuchen. Bei dem Wettkampf. Ich habe übersehen dass wir von mehr als 2 Menschen reden. Wenn wir hier einen Pool von 20 haben, dann sieht die Sache natürlich schon anders aus. Insofern an dieser Stelle haben wir wohl wirklich aneinander vorbeigeredet...
__________________
Mein Profil beim ICCF (International Correspondence Chess Federation)
https://www.iccf.com/player?id=89948&tab=3
Mit Zitat antworten
Folgender Benutzer sagt Danke zu Hartmut für den nützlichen Beitrag:
borromeus (02.07.2017)
  #87  
Alt 03.07.2017, 01:34
Benutzerbild von Walter
Walter Walter ist offline
Resurrection
 
Registriert seit: 19.02.2011
Ort: Erlenbach a. Main
Land:
Beiträge: 586
Abgegebene Danke: 190
Erhielt 409 Danke für 157 Beiträge
Member Photo Albums
Aktivitäten Langlebigkeit
1/20 14/20
Heute Beiträge
0/3 ssssss586
AW: Mm5 nur 1575 ELO ??

Also Leute, die "Diskussion" tut mir echt körperlich weh.

Nun habe ich mich mit dem Elo-System (dem des Herrn Elo, um genau zu sein) wenig beschäftigt, aber eins ist mir klar geworden:

Die "guten" Spieler (die mit den letztendlich hohen Elo-Werten) "klauen" den niedrig bewerteten Spieler im Laufe der Zeit Punkte. Dadurch wird die Liste verschoben.

Das gilt, obwohl das Berechnungssystem an sich korrekt ist, wenn der Pool an Geräten ungleichmäßig "bespielt" wird oder Neulinge eintreten.

Wenn der Pool an Spielern nicht total geschlossen ist und nicht ständig gut durchmischt jeder gegen jeden immer wieder spielt, dann läuft das auf diesen "Klau-Effekt" hinaus. Und so ist doch die Spielpraxis: dieselben sehr starken Geräte kommen immer wieder, die schwächeren Teilnehmer wechseln in den Turnieren. Also kommt der Elo-Klau-Effekt zum Tragen. So isses. Dieser Effekt ist schuld am Anwachsen der Elo-Werte bei den starken Geräten.

Dadurch erreichen die hoch bewerteten Spieler bzw. Geräte immer höhere Elo-Werte, die sie den niedriger bewerteten Spielern bzw. Geräten abnehmen. Die mittelstarken Geräte klauen bei den schwachen, die starken bei den mittleren....

Von daher stimmt das Gefühl der Community durchaus: Die Werte der starken Geräte stimmen zunehmend weniger bzw. man hat das Gefühl, dass sie zu hoch geworden sind. Aber eine lineare Absenkung der Skala ist aus dem genannten Grund sinnlos. Man müsste den stärksten Geräten viel, den mitlleren wenig Elo-Punkte abnehmen, und den schwächeren womöglich etwas zugeben, und das alles müsste unter dem Strich bei Plus und Minus neutral bleiben, also Null ergeben.

Wie könnte man nun die Liste neu "eichen"?

Von einer Eichung gegen menschliche Spieler würde ich völlig absehen. Menschliche Spieler lernen mit mehr Partien, sich gegen die Spielweise von Schachcomputern einzustellen (danke an Wolfgang, der die Strategien beschrieb), sie haben Formschwankungen, mit einem Wort, ihr Elo-Wert schwankt stark. Wie sollen sie da brauchbare "Eichmarken" abgeben? Ganz davon abgesehen, dass Zeit und bei den starken Schachcomputern geeignete starke Schachspieler fehlen.

Meine Idee wäre, "geeichte" Geräte von früher als Fixpunkte zu nehmen, also z.B. einen MM 4 oder MM 5 oder ähnliche. Man vergleiche deren Elowerte von gestern und heute, und weil man davon ausgehen kann, dass ein Schachcomputer nichts dazu lernt, hat man hier einen Anhaltspunkt für eine Verschiebung. Man müsste nun die "geeichten" Geräte auf ihre früheren WErte zurücksetzen.

Ich würde hier einfach die früheren Werte ohne lange Diskussion als Eichmarken übernehmen, ganz einfach, weil wir nichts besseres haben.

Wenn man dazu einige weitere (ältere) schwächere "geeichte" und stärkere "geeichte" Geräte hätte, dann könnte man einschätzen, wie sich die Struktur der Liste verschoben hat. Wenn man das in Zahlen fasst, könnte man daraus ein rechnerisches Verfahren zur Anpassung ermitteln. Das könnte dann bei starken Geräten mehr Punktabzug, beim mittleren weniger oder keinen, bei schwächeren Punktzugabe bedeuten, alles nach einem rechnerischen Verfahren. Per Saldo müsste die Gesamtpunktzahl diesselbe bleiben, also muss es Gewinner und Verlierer an Elo-Punkten geben.

Und jetzt beende ich mit der ziemlich kleinen Hoffnung, dass die weitere Diskussion sich etwas klarer bewegt und mir nicht mehr heftige Schmerzen bereitet. Si tacuisses....

Walter
Mit Zitat antworten
Folgender Benutzer sagt Danke zu Walter für den nützlichen Beitrag:
Wolfgang2 (03.07.2017)
  #88  
Alt 03.07.2017, 01:35
Hartmut Hartmut ist offline
Lebende Foren Legende
 
Registriert seit: 01.04.2010
Ort: Nürnberg
Alter: 60
Land:
Beiträge: 2.226
Abgegebene Danke: 3.403
Erhielt 1.644 Danke für 945 Beiträge
Aktivitäten Langlebigkeit
6/20 15/20
Heute Beiträge
0/3 sssss2226
AW: Mm5 nur 1575 ELO ??

 Zitat von Solwac Beitrag anzeigen
Dann lass doch bitte die Verwendung von Elo ganz. Offiziell heißt es "FIDE Rating". Und wenn wir hier ein "Schachcomputer.info Rating" machen würden, dann könnte man sehr gut darüber diskutieren, ob Computer xy mit unserer Ratingzahl Spielern mit Fide Rating im gleichen Bereich einen ausgeglichenen Wettkampf spielen würden.
Naja, ich hab mit dem Begriff ELO-Zahl nicht angefangen, sondern die Threadüberschrift beginnt schon mit dem Begriff. Wenn wir jetzt den allgemeinen Begriff Wertungszahl benutzen wollen und dabei im Auge behalten dass wir von verschiedenen Systemen reden, dann habe ich da kein Problem damit.

Zitieren:
Ah, darin liegt wohl Dein Missverständnis.
Bei mir liegt kein Missverständnis vor. Es ist wohl eher so, dass Du Begriffe oder Werte benutzt (Gewinnerwartung) ohne zu sagen wo Du die hernimmst. Sorry, ich kann vieles, aber Gedankenlesen gehört nicht dazu.

Zitieren:
Nehmen wir wieder zwei Computer (um Tagesform und ähnliches auszuschließen). Du kennst die beiden Computer nicht und ich sage Dir, dass Gerät eine Gewinnerwartung von 64% hat. Was sage ich damit? Bei einem Wettkampf über 10 Partien ist 6,5:3,5 das wahrscheinlichste Ergebnis. Aber auch ein 8,0:2,0 ist möglich oder ein 5,0:5,0.
Soweit völlig richtig, wenn wir mal beiseitelassen, dass Du erneut nicht verrätst wo Du die Gewinnerwartung her hast.


Zitieren:
Denn jede Partie ist unabhängig voneinander, bei einer Wiederholung morgen hätten wir immer noch genau dieselben 64%.
Warum? Hätte der Wettkampf über 10 Partien tatsächlich nun mit einem anderen Ergebnis als jenen 65 % stattgefunden, hätte sich für einen zukünftigen Wettkampf auch die Gewinnerwartung geändert. Alles andere ist im Sinne der Wahrscheinlichkeitsrechnung erstmal mathematischer Unfug

Zitieren:
Du würdest zurecht annehmen, dass die beiden Rechner sich in ihrem Rating um 100 Punkte unterscheiden (das sie es nicht tun, weil Ergebnisse gegen dritte anders ausfallen, ist unerheblich. Ohne weitere Informationen ist 100 immer noch die beste Schätzung).
Soweit richtig. Hat man keine andere Information dann muss man erstmal mangels Information von diesen ca. 100 Puinkten ausgehen. Das ist dann halt keine wirklich gefestigte Wertungszahl sondern eine Schätzung. Genauso wie ich - würde ich gegen einen beliebigen Spieler eine 65 % Performance über eine ausreichende Anzahl Partien erzielen - davon ausgehen würde dass der etwa 100 Punkte unter mir angesiedelt ist. Soweit ja legitim, denn wir reden jetzt von sehr groben Schätzungen mangels zusätzlicher Information.

Zitieren:
Ähnliche Situation, Du gibst mir zwei Schachcomputer. Ich weiß, auch hier gibt es wieder eine Gewinnerwartung, ich kenne nur den Wert nicht. Dass es ein fester Wert ist, WEIß ich aufgrund der Eigenschaft Schachcomputer. Es findet keine Entwicklung der Spielstärke statt, für eine ganz bestimmte Stellung kann ich theoretisch den berechneten Zug bestimmen, alle nötigen Informationen sind unabhängig vom Gegner und höchstens in der Praxis schwer zu ermitteln (z.B. Hashtabelle in Abhängigkeit von der Rechenzeit vorheriger Züge).
Hier ist allerdings ein Denkfehler. Ratings erhalten die Spieler(Geräte) ja nicht indem man nur 2 Stück gegeneinander spielen lässt sondern durch viele Wettkämpfe und Turniere. Rein theoretisch könnte man natürlich glauben, dass es sich um ein endliches Problem handelt, weil
- keine Entwicklung stattfindet,
- weil die vielleicht vorgegebenen Eröffnungsdatenbanken und damit die Endstellungen von denen es weiter geht endlich sind, etc.
Dabei wird aber unterschlagen dass z.B,
- Algorithmen existieren die bei 2 oder 3 gleichwertigern möglichen Zügen per Zufallsgenerator entscheiden,
- dass der Pool (fast jeden Tag kommt eine neue Version irgendeiner Engine raus) sich stetig vergrößert,
- dass mit jedem Gerät jeder gegen jeden das gegebene Eröffnungsbuch ausspielen müsste um den exakten Wert zu ermitteln, etc.

Und damit ist es eben kein endliches Problem mehr, wie man sehr leicht mathematisch mit Hilfe der vollständigen Induktion nachweisen könnte, falls Dir dieses Nachweisprinzip bekannt ist.

Schränke ich jetzt den Pool nur auf diese 2 Geräte ein, dann kann ich zwar nicht ihre Wertungszahl ermitteln, wohl aber davon ausgehen dass es eine feste Gewinnerwartung gibt. In diesem Fall wäre es wirklich ein endliches Problem. Und selbst wenn man solche Gags wie Zufallsgenerator bei gleichwertigen Zügen etc. mit einbezieht und damit ein unendliches Problem erschafft, ist der Wert doch näherungsweise so gut zu ermitteln dass man von einem relativ festen Wert ausgehen kann, auch wenn es kleine Unsicherheiten noch geben mag.

Zitieren:
Aber ich kenne den Wert nicht. Nach etlichen Testpartien komme ich auf einen Wert von (x+-y)%. Je kleiner y wird, desto besser die Vorhersage. Aber selbst mit y=0 kann ich das Ergebnis der nächsten Partie nicht vorhersagen. Ich kann es nur statistisch beschreiben, denn es sind Zufallselemente in der einzelnen Partie.
Dann hast Du genau das im Kleinen gemacht, was ein Ratingsystem im Großen macht, denn was Du beschreibst ist das Prinzip jedes Ratingsystems. Statistisch einen Wert zu ermitteln der nahezu die durchschnittliche Erwartungshaltung zwischen 2 oder mehr Spielern beschreibt. Der Ausgang einer bestimmten Partie oder eines bestimmten Matches kann deshalb trotzdem nicht vorhergesehen werden. Wäre ja auch Unsinn. Könnte man das exakt vorhersagen, bräuchte man das Match ja nicht spielen und wir können uns stattdessen anderen Hobbies widmen.

Zitieren:
Diese Art der Vorhersage machen wir z.B. bei den Tipps auf die von Egbert durchgeführten Matches. Und da vor dem Match x (y interessiert hier nicht mehr, es vergrößert nur die Unsicherheit, d.h. Tipps werden noch unsicherer) nur wenig Informationen verfügbar sind (z.B. durch Abschätzungen mit verwandten Programmen) sind die Vorhersagen deutlich ungenauer als bei Kenntnis der "wahren" Gewinnerwartung. Daher kommt der Spaß bei der Beschäftigung.
Es gibt, da es eben kein endliches Problem ist, keine "wahre" Gewinnerwartung. Jedwede Gewinnerwartung ist nur eine Momentaufnahme basierend auf bestehenden Wertungszahlen (welchen auch immer) und basierend auf den gegebenen Informationen. Habe ich wenig Partien als Basis, ist die Gewinnerwartung ein sehr unsicherer Wert. Soweit gehen wir beide hier natürlich konform.

Zitieren:
Nächster Schritt: Eigentlich müsste für jedes Paar von Computern eine eigene Gewinnerwartung ermittelt werden, denn die Rückschlüsse aus anderen Partien funktionieren nur mit Annahmen. Dadurch können wir einem Programm eine Ratingzahl zuordnen und aufgrund dieser Ratingzahl Vorhersagen für zukünftige Wettkämpfe treffen. Haben zwei Programme dieselbe Ratingzahl, dann schätze ich sie daher als gleichstark ein und erwarte 50% für beide. Hätte ich aber vorher schon mal 100 Partien zwischen den beiden Computern durchgeführt (mit einem Ergebnis von 70:30), was sollte ich dann erwarten?
Und was willst Du damit sagen? Diese Situation trifft man unter Menschen doch auch an. Ich sagte es schon. Es gibt Gegner mit gleicher Wertungszahl wie ich, gegen die ich nie verloren und einen Score von 70 % erreicht habe und es gibt andere (ebenfalls mit gleicher Wertungszahl) wo ich regelmäßig kein Bein auf die Erde kriege. Trotzdem ist natürlich bei gleicher Wertungszahl die Gewinnerwartung 50 %. Letztlich beschreibst Du hier nur eine Situation die für Menschen ebenso gilt wie für Programme. Im Schnitt und unter der Voraussetzung dass ein genügend großer Partienpool vorhanden ist, sind zwei Spieler mit derselben Ratingzahl in ungefähr gleichstark. Trotzdem kann der eine ein angenehmer Gegner sein weil seine Spielweise wie für mich gemacht ist und der andere ist mir unangenehm, weil ich mit seinem Spilstil nicht so gut klar komme. Und was sagt uns das? Nichts anderes als das was schon Einstein wusste... alles ist relativ.

Zitieren:
Ich würde 70:30 erwarten, denn der direkte Vergleich enthält mehr Informationen als die eine, aus allen Partien ermittelte Ratingzahl.
Wenn Du die Gewinnerwartung für ein Match daraus ermittelst dass Du genau dasselbe Match mit denselben Gegnern vorher schon durchgeführt hast, dann ist das ja legitim. Trotzdem kannst Du damit genauso auf die Schnauze fliegen wie mit der Erwartung 50:50. Die Frage ist halt nur, was Du damit zeigen willst. Das A stärker als B einzuschätzen ist und C Dich nicht interessiert? Klar, aber dafür braucht es dann auch keine Ratingliste sondern nur einen Wettkampf.

Zitieren:
Ich kann mit einem Modell etwas beschreiben. Wen ich das tue, dann kann ich dieses Modell für Vorhersagen verwenden und experimentell überprüfen. Bei Menschen funktioniert das Modell ganz gut und die Unsicherheiten im System sind kleiner als die Schwankungen aufgrund der zeitlichen Entwicklung der Spielstärke der Menschen (kurzfristige Formschwankungen und langfristige Entwicklungen durch mehr oder weniger Training, Gesundheit, Lebensumstände usw.).
Das ist unbestritten...

Zitieren:
Bei Computern funktioniert das auch ganz gut, aber es gibt viel mehr Partien und keine zeitlichen Schwankungen. Die statistischen Unsicherheiten sind klein und nur eine rein statistische Angabe. Ich kann zwei Programmen Ratingzahlen mit sehr kleiner Schwankung zuordnen, im direkten Duell kann etwas anderes herauskommen. Dies wird meist mit "Angstgegner" oder ähnlichen Begriffen beschrieben und ist damit für den Menschen "verstanden". Auch wenn die dahinter liegende Statistik zu kompliziert ist.
Und genau das ist ein Vorteil ebenso wie ein Nachteil. Allein an meinen Beispielen zur Erstellung der CCRL-Liste habe ich schon ausgeführt dass die Qualität der Partien oder im Falle dieser speziellen Liste bereits die Qualität der Umrechnung (Bedenkzeiten bezogen auf diesen und jenen Rechner) ein Problem darstellt (zugegebenermaßen ein Problem das wir hier bei unserer Liste zumindest nicht haben, weil hier die Hardware durch den reinen Schachcomputer ja vorgegeben ist und getunte Geräte extra aufgeführt sind). Bei allen anderen Listen ist es aber ein Problem. Sowohl bei der CCRL als auch bei der CCGT-Liste wird wild umhergerechnet. Es finden Benchmarks aufgrund eines bestimmten Programms (Crafty) statt. Dass der Benchmark unmöglich alle Partiephasen abdecken kann, dass ein Programm die Hardware anders ausnutzt als ein anderes, dass eventuell sogar das Zeitmanagement des Programms sich total verändern kann, wenn es aufgrund der Schnelligkeit des Prozessors eine andere Zeitvorgabe bekommt, all das wird nicht berücksichtigt. Sprich: die Listen sind - auch wenn sie mathematisch gesehen richtig berechnet wurden - qualitativ wertlos. Stimmt die Voraussetzung für eine saubere Berechnung schon nicht, kann auch keine saubere Berechnung rauskommen.

Ein Vorteil wäre sicherlich die Menge der Partien. Wenn man die aber nur dadurch zustande bringt, dass man mit verschiedener Hardware arbeitet, dann bezüglich der Zeitvorgaben umrechnen muss ohne Berücksichtigung der Tatsache, dass sich das Programm mit solcher Einstellung dann vielleicht ganz anders verhält als normal, dann hilft auch die Menge der Partien nicht. Ganz im Gegenteil. Je mehr Partien mit solch mangelhafter Qualität ich habe, umso mehr wird die Statistik verfälscht. Und über das Thema zeitliche Veränderung könnte man jetzt vortrefflich streiten. Das die ganze Partienliste immer auf einem gegebenen Startwert bezogen komplett durchgerechnet wird und zeitliche Veränderungen nicht berücksichtigt werden, sorgt eben gerade für große statistische Unsicherheiten. Auch und gerade deshalb weil hier oftmals recht willkürliche Partienanzahlen als Basis dienen. Gegen den einen Gegner lasse ich 50 Partien spielen, gegen den anderen 300. Aber klar, die Abweichungen sind natürlich nur ganz gering. Sorry, wers glaubt ist selber schuld. Die einzige Liste die wirklich auf bestimmter Hardware aufbaut und nicht irgendwas umrechnet ist die IPON-Liste. Dafür kann mir da keiner erklären, warum manche Engines über zehntrausend Partien gespielt haben und einige andere nur wenige hundert. Man rechnet sich die Welt, wie sie einem gefällt. Hauptsache die richtigen Engines sind in der Liste weit oben. Wer mit wem wieviele Partien gespielt hat... wen juckts... Sorry, aber das hat mit Statistik absolut nichts mehr zu tun.

Zitieren:
Und jetzt kommt das Problem: Wir haben ein System mit großen Schwankungen für Menschen und ein System mit kleinen statistischen Unsicherheiten aber einer gewissen Verteilung von Gewinnerwartungen für Computer.
Und genau das ist aufgrund des oben gesagten in Zweifel zu ziehen. So wie bei den meisten Listen gerechnet wird, ist der Begriff "kleine statistische Unsicherheiten" eigentlich schon sehr dreist. Die genannten Listen sind an fragwürdigen Methoden und ungenauigkeiten schon beim Ausgangsmaterial der Partien nicht mehr zu toppen. Da bisher kaum jemand im Netz eine vernünftige nachvollziehbare Partienbasis geliefert hat (da nehmen sich die Listen leider alle nichts) kann man im Moment noch gar nicht beurteilen wie groß die Unsicherheiten unter vernünftigen Bediungungen wären.

Zitieren:
Bayes und Co. sind aufgekommen, weil das System von Arpad Elo nur Gewinnprozente benutzt und die Verteilung von Gewinn, Remis und Verlust nicht. Dadurch ergeben sich kleine Abweichungen. Aber auch das System Arpad Elos ist nicht frei von intrinsischen Unterschieden.
Nein Bayes und Co sind aufgekommen, weil man damit eine Quick and Dirty Berechnungsmöglichkeit hat die einfach ein pgn File durchläuft, egal wie groß, und sich nicht die Mühe machen eine Datenbank richtig zu pflegen, Veränderungen zu berechnen etc. Zudem findet sich im Netz kein frei verfügbares Programm zur Berechnung von FIDE-Ratings oder DWZ im größeren Stil. Da sitzen die Organisationen drauf, wie die Glucke auf dem Ei. Die Programme die es können sind aber vergleichsweise schweineteuer und meist allenfalls für einen Schachverein geeignet, nicht aber für solche Riesenlisten.

Die Berechnungsmethode nach FIDE hätte vor allem vorausgesetzt, dass man eine Datenbank anlegt und pflegt. Das ist für die Wertungslistenjunkies bei IPON und Co, die möglichst nach Erscheinen einer Engine an 3 Tagen schon 500 Partien gespielt haben wollen, aber zuviel Arbeit. Neue Partien an eine bestehende Datenbank anhängen und dann die Berechnung einfach neu starten ist halt einfacher. Quick and Dirty eben. Verkauft werden einem dann die von der FIDE-Berechnung abweichenden Listen mit nicht nachvollziehbaren Argumenten wie: 10 Siege und 10 Niederlagen gegen einen ELO 1500 werden bei der Fide ebenso behandelt wie 10 Siege gegen einen ELO 500 und 10 Verluste gegen einen ELO 2500 (so auf der Bayesian Seite zu lesen). Das eben aus diesem Grund eine ELO-Differenz von mehr als 400 Punkten für die Berechnung nicht berücksichtigt wird, damit genau dieser Fall eben nicht vorkommt, wird natürlich verschwiegen. Hauptsache, ich habe einen Grund die Quick und Dirty-Lösung zu nehmen. Wenn dann auch noch das Material, welches ausgewertet werden soll, schon fehlerhaft ist (wie oben beschrieben), wie soll da was vernünftiges bei rauskommen. Bisher hat mir noch niemand bewiesen dass die verschiedenen Berechnungsmethoden ala Bayes alltagstauglich sind, weil noch niemand (vielleicht von unserem Forum hier mal abgesehen) ein vernünftiges Ausgangsmaterial ausgewertet hat. Das von IPON CCGT und Co ist jedenfalls aufgrund der sehr fragwürdigen Erstellungsmethode absolut unbrauchbar.

Zitieren:
Vergleiche mal Zahlen der FIDE und der USCF auf verschiedenen Leveln aus der Zeit vor 2000. Das mathematische Modell war beides Mal gleich und dennoch war die Differenz für Durchschnittsspieler und für Spitzenspieler unterschiedlich. Und zwar in Größenordnungen wie bei der Frage -100 oder nicht für Brettcomputer.
Äh ja, und was erwartest Du bitte wenn die Basis der Partien eine andere ist? Die Berechnungsmethode war gleich, aber das Ligensystem ist unterschiedlich, die Partiebasis ist unterschiedlich und höchstwahrscheinlich ist auch allgemein das Level der Spieler im Vergleich unterschiedlich. Zudem mögen sich auch die Regeln unterscheiden die bestimmen, welche Turniere unter welchen Bedingungen überhaupt ausgewertet werden oder nicht. Da ist jedes Land in seiner Entscheidung frei drüber. Spielt ein Amerikaner zum Beispiel nur im eigenen Ländle wird halt dort die USCF-Ratingzahl ausgewertet. Spielt er ein internationales Turnier mit hat es auf die USCF keine Auswertung, dafür wird es von der FIDE ausgewertet. Insofern unterscheiden sich die Werte bereits aufgrund unterschiedlichen Partiematerials und unterschiedlicher Gegnerschaft. Ist doch normal. Wären dieselben Partien von beiden Organisationen ausgewertet worden, wäre das Ergebnis gleich gewesen. Ist aber eben nicht passiert. So what?

OK, sei's drum, du kannst weiter die Argumente der Listenanbieter und Programierer von Bayes und Co nachplappern oder mir mathematisch beweisen, was an diesen Listen jetzt besser sein soll. Ansonsten müssen wir das Thema nicht weiter ausweiten, denn weiterkommen werden wir hier auf andere Art nicht. Dass Listen die nicht auf dieselbe Art entstanden sind, nicht direkt vergleichbar sind, darüber dürften wir uns ja einig sein. Ansonsten zieh ich mich aus dem Thema jetzt erstmal raus. Meine Fernschachpartien warten...
__________________
Mein Profil beim ICCF (International Correspondence Chess Federation)
https://www.iccf.com/player?id=89948&tab=3
Mit Zitat antworten
  #89  
Alt 03.07.2017, 11:45
Benutzerbild von Chessguru
Chessguru Chessguru ist offline
Administrator
 
Registriert seit: 29.06.2004
Ort: Rostock
Alter: 55
Land:
Beiträge: 6.570
Bilder: 1
Abgegebene Danke: 1.779
Erhielt 4.812 Danke für 1.442 Beiträge
Member Photo Albums
Aktivitäten Langlebigkeit
3/20 20/20
Heute Beiträge
0/3 sssss6570
AW: Mm5 nur 1575 ELO ??

Hallo Zusammen,

über die Stärken und Schwächen der momentan zur Anwendung kommenden Berechnungsprogramme wurde nun ja lang und breit diskutiert.

Da ich aber ein praktisch veranlagter Mensch bin, würde ich auch gerne Lösungsvorschläge lesen. Die Probleme sind bekannt und genannt worden, nun sollte der zweite Schritt erfolgen, Lösungsmöglichkeiten aufzeigen.

Nick hatte seine Lösung vor nicht allzu langer Zeit präsentiert, zumindest bezüglich 1000 Elo Untergrenze: http://www.spacious-mind.com/html/ra...justments.html

Da ich aber kaum eine praktikable Lösung sehe, werde ich in Zukunft einfach das Wörtchen Elo durch Rating ersetzen. Blöd aber genial, gell?

Gruß
Micha
Mit Zitat antworten
Folgende 2 Benutzer sagen Danke zu Chessguru für den nützlichen Beitrag:
borromeus (03.07.2017), Walter (03.07.2017)
  #90  
Alt 03.07.2017, 12:40
borromeus borromeus ist offline
TASC R30
 
Registriert seit: 24.02.2017
Land:
Beiträge: 427
Abgegebene Danke: 1.050
Erhielt 486 Danke für 242 Beiträge
Aktivitäten Langlebigkeit
5/20 8/20
Heute Beiträge
1/3 ssssss427
AW: Mm5 nur 1575 ELO ??

 Zitat von Chessguru Beitrag anzeigen
Blöd aber genial, gell?

Gruß
Micha
Nein, ganz perfekt!
Mit Zitat antworten
Antwort

Themen-Optionen
Ansicht

Forumregeln
Du bist nicht berechtigt, neue Themen zu erstellen.
Du bist nicht berechtigt, auf Beiträge zu antworten.
Du bist nicht berechtigt, Anhänge hochzuladen.
Du bist nicht berechtigt, deine Beiträge zu bearbeiten.

BB code ist An
Smileys sind An.
[IMG] Code ist An.
HTML-Code ist An.

Gehe zu


Alle Zeitangaben in WEZ +1. Es ist jetzt 11:46 Uhr.



Powered by vBulletin (Deutsch)
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
©Schachcomputer.info