|
||||||||||||
AW: Im Fadenkreuz
![]() Jeff Sonas versucht das jedenfalls im ersten Teil seiner Artikelserie in der CSS (2004) statistisch zu belegen.
Da meine Anmerkungen offenbar nicht hinreichend zur Kenntnis genommen worden sind, hier die Kernaussage noch einmal etwas deutlicher: Wird ein Vergleich zwischen einem stärkeren und schwächeren Gegner gewertet, ist dies ein Nachteil für den stärkeren Spieler. Jeff Sonas hat in 262.000 Turnierpartien von 1996-2001 nachgewiesen, daß die stärkeren Spieler durchschnittlich weniger Punkte gemacht haben als ihrer ELO-Erwartung entsprach. Dies veranlaßt ihn in dem o.g. Artikel, von der Gaußschen Normalverteilung Elos Abstand zu nehmen, denn aus der Statistik ergibt sich eher ein linearer Zusammenhang. Wenn wir uns also Gedanken um eine ausgeglichene Gegnerschaft machen, dann höchstens, um ein stärkeres Gerät einem anderen gegenüber nicht zu benachteiligen, indem man es gegen schwache Gegner spielen läßt. Das ist zum Beispiel auch die Grundidee der CSS-Rangliste (www.computerschach.de), die alle Programme gegen die gleichen Gegner spielen läßt, im Grunde in einem großen Rundenturnier. Es bleibt allerdings die Frage nach der Signifikanz. Bei unserer geringen Partienzahl und der damit verbundenen hohen Standardabweichung dürfte eine eventuelle Verfälschung des Ergebnisses durch unausgewogene Paarungen völlig im "Rauschen" untergehen. Vielleicht stellen sich Micha oder Stefan mal für ein kleines Experiment zur Verfügung: Bitte erstellt in der Datenbank mal 20 Fake-Partien R30-MMII (Ergebnis 19:1 -- Eloerwartung 0.96 ein bißchen abgerundet, s.o.). Um wie viele Punkte sinkt dann das Rating des R30? Viele Grüße, Dirk |
|
|||||||||||
AW: Im Fadenkreuz
![]() Hallo Dirk,
ich habe einmal folgendes Experiment gemacht und habe unserer Auswerteliste 2 mal jeweils 20 fiktive Partien zugefügt und dann mit dem gleichen Startwert 2113 nochmals neu berchnet. Mit folgenden Ergebnissen: A) R30 V 2.5 vs MMII 20:0 Ergebnis: Der R30 verschlechtert sich von 2339 auf 2332 Der MMII bleibt bei 1849 Punkten B) Montreux 512 K vs MMI 20:0 (ohne die Ergebnisse aus A)) Ergebnis: Der Montreux verschlechtert sich von 2253 auf 2248 Der MMII verschlechtert sich ebenfalls von 1849 auf 1828 ... Womit aus meiner Sicht das Problem, daß ein Gerät bei solcherlei Zweikämpfen permanent Punkte ansammelt, widerlegt ist. Gruß Stefan Gruß kosakenzipfel |
|
||||||||||||
AW: Im Fadenkreuz
![]() Ok. Dafür bekommen wir ein Problem von der anderen Seite, dass ein Gerät bei solcherlei Zweikämpfen (trotz 100%-Score) permanent Punkte verliert. Was wieder dafür spricht, davon abzusehen.
Gruß kosakenzipfel langsam fehlt mir ein wenig das Verständnis, mir wird nicht so recht klar worauf Du hinaus willst. Wie schon angedeutet, werden wir versuchen "objektivere" Paarungen zusammenzustellen. Aufgrund der Resonanzen im Forum werden wir wohl aber aber davon absehen, den Schachfreunden diesbezüglich Vorschriften zu machen. Wir haben das im übrigen in der Frühzeit schon einmal versucht, als Partien vom Vancouver 68000 fehlten. Nach anfänglich positiver Resonanz ist die Sache dann leider sehr schnell eingeschlafen. Wir vertrauen daher weiter darauf, daß die Leute unsere Liste lesen, Schlüsse ziehen und selbständig zum Anlaß nehmen Partien zusammen zu stellen. Es bleibt daher, wenn Du so willst beim VERSUCH. ![]() Die Botschaft hör´ich wohl, allein ich stehe nicht unter Beweispflicht. Ich habe einen Vorschlag zur Diskussion gestellt. Den kann man aufgreifen oder auch nicht.
![]() Ich muss mich dafür nicht mit Partien revanchieren. Ich kann mir auch überlegen, was das neue Saitek-Modul können sollte. Deshalb muss ich es aber nicht bauen o Natürlich bin auch ich weiter für alles offen
müssen muß hier niemand ![]() ... und wenn wir schon beim wir sind nochmal die Frage: Wie könnte Dein Beitrag aussehen bzgl. des "Problems"? Partien zu spielen können und wollen wir natürlich nicht einfordern, aber es wäre schon ganz nett wenn ein Kritiker sich im positiven Sinne einbringen könnte, zumal er einen Vorschlag gemacht, wie man es aus seiner Sicht besser machen könnte. Viele Grüße Stefan Geändert von Stefan (03.09.2004 um 18:02 Uhr) |
|
||||||||||||
AW: Im Fadenkreuz
Hallo Stefan,
danke für Deine Mühe! ![]() A) R30 V 2.5 vs MMII 20:0
Ergebnis: Der R30 verschlechtert sich von 2339 auf 2332 Der MMII bleibt bei 1849 Punkten ![]() B) Montreux 512 K vs MMI 20:0 (ohne die Ergebnisse aus A))
Ergebnis: Der Montreux verschlechtert sich von 2253 auf 2248 Der MMII verschlechtert sich ebenfalls von 1849 auf 1828 Und wenn man Herrn Sonas (CSS) glauben darf, könnte es über diese Distanz sogar ein 2:18 geben! Das macht ja fast schon Lust auf einen solchen Zweikampf... ![]() Viele Grüße, Dirk |
|
||||||||||||
AW: ELO-Liste 02-2004
![]() Zitat von Eckehard
"Ich finde, mit einer Einschränkung der Paarungen sollte man vorsichtig sein. Gerade die Siege der Underdogs machen doch den Reiz dieser Wettkämpfe aus." Zitat von Robert "Und wenn man sich die Turniertabellen z. B. der Welser Turniere anschaut, dann sieht man, dass es doch immer wieder mal Überraschungssiege von Underdogs gab! Und gerade das macht doch den Reiz solcher Paarungen aus!" Und was spricht dagegen, dass uns solche Überraschungen Spass machen? Natürlich wollen wir alle eine möglichst korrekte Liste, aber es ist halt die Frage, wo man die Grenze ziehen soll! Dass deine 100-150 Punkte viel zu wenig sind, dürfte ja wohl klar sein; deshalb auch mein Vorschlag mit den 400 Punkten. Zitieren:
Nun, ich möchte niemandem das Salz aus der Suppe nehmen. Ich bestreite auch nicht den hohen Unterhaltungswert von Turnieren oder ihren hohen kommunikativen Wert für die „Gemeinde“. Es sollte jeder die Geräte gegeneinander spielen lassen, wie er mag. –Nur:
Muss man denn all das in e i n e Auswertung werfen? Ich weiss es nicht, aber ich kann es mir nicht vorstellen! ![]() Zitieren:
Ich denke, man sollte die Liste nicht mit zusätzlichen Aufgaben befrachten und klar trennen: Macht Unterhaltung wo ihr Unterhaltung (Zufall) wollt und Information wo ihr Information (Fakten) wollt.
Um eine wirklich korrekte Liste (sowas gibt es ja überhaupt nicht) zu erstellen, müßten wir wesentlich mehr Partien spielen, als wir überhaupt dazu in der Lage sind. Zitieren:
Gerät 1 spielt eine Serie von 20 Partien gegen Gerät 2 und gewinnt 20:0. Wie hoch ist nun die Veränderung für Gerät 1? Laut FIDE Elo Berechnung wären es 30 Punkte. In unserer Liste wären es 2 Punkte. Gut könnte man sagen, es sind immerhin 2 Punkte. Was passiert nun aber nach 30 Partien, wenn Gerät 1 30:0 führt? Wenn man in der FIDE Berechnung alle 30 Partien zusammen berechnet, wären es 45 Punkte. Bei uns sieht die Sache aber völlig anders aus. Gerät 1 fällt auf 2216 zurück."
Hier brauche ich etwas Aufklärung: Wenn Gerät 1 mit 2216 startet, wie kann es (bei 30:0) auf den identischen Wert 2216 „zurückfallen“? Das heißt, das Gerät erhält 0 Punkte? Wenn dem so ist, wäre das m.E. nicht leistungsgerecht. Zwar hat Gerät 1 seine 30:0 mit wenig „Leistung“ erbracht. Aber mehr als 30 Punkte sind aus 30 Partien nun mal nicht herauszuholen ![]() ![]() Dass diese beiden Gegner viel zu weit auseinander liegen, um sinnvoll bewertet zu werden, darüber sind wir uns ja einig. Denn wenn der "30"-er ein 2500-er-Spieler ist, könnte der "0"-er könnte ein absoluter Anfänger sein (mit 800 ELO o.ä.) oder einer mit 1400 Elo! Dass deine Argumente nicht von der Hand zu weisen sind, habe ich ja auch zugegeben. Nur mit deiner Grenze von 100-150 bin ich nicht einverstanden. Ich kann mir nicht vorstellen, dass in einem GM-Turnier, in dem ja auch eine recht große Streuung vorkommt, bei der Elo-Auswertung so vorgegangen wird, wie du es hier vorschlägst... Zitieren:
B) Neue Geräte werden durch die Paarungen gezielt eingekreist. Das heißt: Ausgehend von bereits gelisteten, gesicherten Geräten wird eine Gegnerliste erstellt, die sich in 10-20Elopunkten Abstand beidseitig nähert,also –60;-40;-20; X; +20;+40;+60 (oder feiner). Als grobe Anhaltspunkte für die Opponenten von „X“ dienen analoge Hardware und Programmumfang, z.B. 6502; 32K-Progr., 8K RAM. Zugleich sollten bei der Auswahl unterschiedliche Charaktere vertreten sein (Taktiker/Positionelle) um ein ausgewogenes Gegnerfeld zu haben. Nach dem ersten Durchlauf in diesem FADENKREUZ kann mit zusätzlichen Geräten nachjustiert und somit die Wertung präzisiert werden. Ich habe keine Lust, mir von der Liste vorschreiben zu lassen, welche Geräte ich gegeneinander antreten lassen darf, wenn ich etwas zur Liste beitragen will! Ich denke nicht, dass das Ziel, eine möglichst korrekte Liste zu erarbeiten, absoluten Vorrang gegenüber dem Spass haben sollte, den wir mit unseren Geräten haben wollen. Schliesslich handelt es sich immer noch um ein Hobby! Wir wollen doch hier nicht päpstlicher werden als der Papst! Wenn wir das hier so tierisch ernst nehmen würden, wie du es dir vorstellst, würde das Interesse ganz schnell auf Null sinken! Und damit würde sich das Problem mit der Liste von selbst lösen... ![]() Und ich bin gerne bereit, ein paar Unkorrektheiten in der Liste in Kauf zu nehmen, wenn ich weiterhin meinen Spass an der Sache haben darf! Schließlich kann man über unkorrekte Zahlen ja auch wunderbar diskutieren (wie man hier sieht!) ![]() viele Grüße, Robert |
|
||||||||||||
![]() Hallo Jungs,
eine sehr interessante Diskussion. Auch wenn ich kein Statistiker, sondern nur ein "gemeiner" Mathematiker bin, erlaubt mir vielleicht eine kleine Bemerkung. Mir scheint, ein Teil des Problems hängt mit einer kleinen Verwechslung des Modells mit der Realität zusammen - oder wenn man es etwas philosophischer formulieren wollte, mit der Frage "Was ist die 'wahre' Spielstärke?". Die Elo-Zahl bzw. genauer die Differenz zweier solcher Zahlen soll, wenn ich es recht verstehe, die (statistisch ermittelte) Gewinnerwartung/Punkteverteilung zwischen zwei Kontrahenten angeben. Wie aber die Experimente von Stefan und Herrn Sonas zeigen, ist dummerweise diese Größe nicht über alle Gegner-Spielstärken konstant, vielleicht ist sie nicht einmal exakt transitiv (A ist besser als B, B ist besser als C, also muss A deutlich besser als C sein...?). Jeder der selbst Turnierschach spielt, hat dies wahrscheinlich auch schon am eigenen Leibe erleben dürfen. Im Grunde ist also die ELO-Zahl ein Gewinnerwartungs-Modell, das bei großen Differenzen die Zähigkeit des schwächeren Partners - oder die Remistendenz des Schachspiels generell - offenbar unterschätzt. Um diesen Sachverhalt genauer abzubilden, müsste man einem Spieler daher statt einer einzigen Zahl eher einen n-dimensionalen Vektor, oder gar eine Funktion zuordnen. Statt also Code:
Eigene Elo-Zahl ^ | | |************* | | ---------------> Gegner-Spielstärke Code:
Eigene Elo-Zahl ^ | **** | * | ******* | * |* | ---------------> mittlere Gegner-Spielstärke Nun sehen wir daran, dass es nicht so ganz praktikabel sein kann, all' diese Dinge in einem einfach anzuwendenen System unterzubringen. Da wir Menschen gerne Aussagen am besten in einer einzigen Zahl zusammengefasst sehen möchten, muss man dabei zwangsläufig gewisse Informationen weglassen oder zumindest wegmitteln (Über den generellen Sinn eines solchen Wunsches kann man natürlich diskutieren: Zahlen suggerieren oft eine Aussagekraft, die Ihnen eigentlich nicht immer zusteht. Fakt ist allerdings, dass dieser Umstand gerne und (zu) oft ignoriert wird). Im Endeffekt wird also eine ELO-Zahl, selbst bei Schachcomputern, immer, weil prinzipbedingt nur eine Näherung an die 'tatsächliche' Gewinnerwartung unserer Protagonisten sein. So gesehen und weil 'die Spielstärke' eines R30 auch aus einem Vergleich gegen den MMII resultiert (natürlich nicht nur), sind m.E. etwaige Ungereimtheiten wie sie im obigen Experiment auftreten, leicht zu verkraften. Zumindest weit leichter als die Verzerrungen wie sie in der SSDF-Liste offenbar vorkommen. Viele Grüße, Martin P.S. @Micha: Iterative Verfahren werden nicht nur bei nicht-linearen Gleichungen angewendet. ![]() Geändert von Martin (03.09.2004 um 14:31 Uhr) |
|
|||||||||||
AW: Im Fadenkreuz
Lieber Stefan,
wenn mich das Handling nach der 1. Zeitkontrolle auch interessiert, der zweite Absatz im zweiten Zitat meines Postings stammt nicht von mir. A bisserl mehr Sorgfalt beim Zitiern, gell müssen muß hier niemand ![]() Na, da hab´ich ja noch mal Glück gehabt ... und wenn wir schon beim wir sind nochmal die Frage: Wie könnte Dein Beitrag aussehen bzgl. des "Problems"? Partien zu spielen können und wollen wir natürlich nicht einfordern, aber es wäre schon ganz nett wenn ein Kritiker sich im positiven Sinne einbringen könnte, zumal er einen Vorschlag gemacht, wie man es aus seiner Sicht besser machen könnte. Folgende Geräte könnte ich anbieten (allerdings nur Aktiv-Schach) Die Zeit für Turnierpartien hab´ ich leider nicht: Mephisto: SuMo II; MMII+HG240; MMIV+HG440; Academy; RomaII Saitek: Travel Champion; Centurion Novag: SuperVIP; Sapphire Zufrieden? Gruß kosakenzipfel ![]() ![]() |
|
||||||||||||
AW: Im Fadenkreuz
![]() A bisserl mehr Sorgfalt beim Zitiern, gell ![]() ![]() Gruß Stefan Geändert von Stefan (03.09.2004 um 18:03 Uhr) |
|
||||||||||||
Frage an Kosakenzipfel
Hallo Jungs,
irgendwie reden wir aneinander vorbei. Ich dachte, dass mein langes Posting die Sache geklärt hat. Scheint aber nicht so. Ich versuche es noch einmal ganz einfach darzustellen bzw. auszudrücken. Diesmal mit einer Frage zum Schluß. Vielleicht versteht man es ja so besser. Aber zuerst noch einmal die Ausgangspunkte. ![]() Mir scheint, ein Teil des Problems hängt mit einer kleinen Verwechslung des Modells mit der Realität zusammen - oder wenn man es etwas philosophischer formulieren wollte, mit der Frage "Was ist die 'wahre' Spielstärke?".
[Quote=Martin]Die Elo-Zahl bzw. genauer die Differenz zweier solcher Zahlen soll, wenn ich es recht verstehe, die (statistisch ermittelte) Gewinnerwartung/Punkteverteilung zwischen zwei Kontrahenten angeben. Wie aber die Experimente von Stefan und Herrn Sonas zeigen, ist dummerweise diese Größe nicht über alle Gegner-Spielstärken konstant, vielleicht ist sie nicht einmal exakt transitiv (A ist besser als B, B ist besser als C, also muss A deutlich besser als C sein...?). Im Grunde ist also die ELO-Zahl ein Gewinnerwartungs-Modell, das bei großen Differenzen die Zähigkeit des schwächeren Partners - oder die Remistendenz des Schachspiels generell - offenbar unterschätzt. Um diesen Sachverhalt genauer abzubilden, müsste man einem Spieler daher statt einer einzigen Zahl eher einen n-dimensionalen Vektor, oder gar eine Funktion zuordnen.[/Martin] Ja genau Martin, du hast das Prinzip erkannt. Nur machen einige immer den Fehler, die Elo Zahlen in unserer Liste mit den eigenen Elo Zahlen zu vergleichen. Dieser Vergleich hat aber einen Haken. Ein Schachcomputer hat eine feste "Spielstärke". Die Spielstärke eines menschlichen Spielers kann ständigen Schwankungen unterworfen sein. ![]() Im Endeffekt wird also eine ELO-Zahl, selbst bei Schachcomputern, immer, weil prinzipbedingt nur eine Näherung an die 'tatsächliche' Gewinnerwartung unserer Protagonisten sein. So gesehen und weil 'die Spielstärke' eines R30 auch aus einem Vergleich gegen den MMII resultiert (natürlich nicht nur), sind m.E. etwaige Ungereimtheiten wie sie im obigen Experiment auftreten, leicht zu verkraften. Zumindest weit leichter als die Verzerrungen wie sie in der SSDF-Liste offenbar vorkommen.
Unser Ansatz bzw. der von EloStat sieht so aus. Wie gesagt, wir gehen davon aus, dass ein Schachcomputer eine feste "Spielstärke" hat. Wobei wir wieder bei dem Punkt ankommen, ob ein Vergleich z.B. zwischen R30 und MMII sinnvoll ist. Aus meiner Sicht ja. Unter folgenden Voraussetzungen. Wenn man es wirklich korrekt angehen will, müssen sogar alle Geräte gegeneinander antreten. Wenn alle Geräte die gleiche Gesamtanzahl an Partien aufweisen und dabei gewährleistet ist, dass jedes Gerät gegen alle anderen Vertreter die gleichen Anzahl an Vergleichspartien gespielt hat, ist eine relative statistische Auswertung möglich. Wobei die Gesamtanzahl der Partien ins Unendliche tendieren müßte, um der Wahrheit nahe zu kommen. Aufgrund dieser Partien, entsteht so ein Tabelle, sozusagen eine riesige Turniertabelle, welche die Abstände der Geräte darstellt. Und aufgrund dieser Abstände können wir den einzelnen Geräten Werte zuordnen. Jetzt das Beispiel. Und ich hoffe diesmal nicht auf Antworten, sondern ich erwarte welche, damit wir das Thema "ausdiskutieren" können. Daher ist diese Diskussion schon sinnvoll. Wir nehmen mal das Beispiel mit den 18:2 Ergebnissen. Bei diesem Turnier spielten 2 Geräte. Wenn wir das Turnier jetzt auswerten (Startwert z.B. 2000) bekommen wir nach z.B. 20 Partien und einem Ergebnis von 18:2, diese Liste: Code:
Program Elo + - Games Score Av.Op. Draws 1 Vancouver 68000 : 2191 115 391 20 90.0 % 1809 0.0 % 2 Elite Privat : 1809 391 115 20 10.0 % 2191 0.0 % Gehen wir weiter davon aus, dass sich dieses Turnier jedes Jahr wiederholt und auch die Ergebnisse immer die Gleichen (bitte jetzt nicht fragen warum, ist nur ein Beispiel zur Demonstration der geposteten 18:2 Problematik) sind. Jetzt meine Frage vor allem an Kosakenzipel, aber auch an alle anderen. Wie verändern sich die Elo-Zahlen der beiden Geräte nach 100 Partien? Wie viel gewinnt und verliert ein Gerät und warum? Gruß, Micha |
![]() |
Themen-Optionen | |
Ansicht | |
|
|
![]() |
||||
Thema | Erstellt von | Forum | Antworten | Letzter Beitrag |
Neue ELO-Liste | Stefan | Teststellungen und Elo Listen / Test positions and Elo lists | 20 | 13.04.2005 14:35 |
Aktivschach Elo Liste | Chessguru | Teststellungen und Elo Listen / Test positions and Elo lists | 0 | 02.04.2005 18:44 |
D.A.CH 2004 Turnier | 'hard | Usertreffen, Veranstaltungen / User Meetings, Events | 32 | 24.11.2004 16:51 |