|
||||||||||||
AW: ELO-Liste 02-2004
![]() Hallo Freunde der Zahlen,
es ist vollbracht, die neue Liste ist fertig!! Es hat wieder einiges an Schweiß und Zeit gekostet aber wir finden es hat sich gelohnt. Großer Dank an alle, die dazu beigetragen haben, daß wir so schnell ein "Update" herausbringen konnten!! Einige interessante und diskussionswürdige Einträge sind drin! Dass z. B. der Risc 1 MB 25 Punkte vor seinem Nachfolger liegt, ist (für mich) doch etwas überraschend (Micha, gib' zu: du hast da was gedreht! ![]() Und dass der London 68020 so weit vor der 68030-Version liegt, ist schon auch etwas verwunderlich. Aber die Zeit wirds wohl noch richten... Der Atlanta/Magellan konnte die 2200-er Grenze doch noch halten! ![]() Der Diablo/Scorpio scheint mir viel zu hoch bewertet zu sein. Etwas fragwürdig scheinen mir auch die Zahlen der beiden Super Forte C (6 und 5 Mhz). Dass dieses 1 Mhz glatte 175 Punkte ausmachen soll, kann doch eigentlich nicht stimmen (damit will ich natürlich nicht eure Rechenkünste anzweifeln, nur das Ergebnis ![]() Ach ja, dass der Roma 68020 hinter seinem 68000-er Vorgänger liegt, finde ich auch bemerkenswert! Dass die Schwankungsbreite der meisten Zahlen noch recht hoch ist, ist mir natürlich klar! Wie ich oben schon sagte: die Zeit (sprich: weitere Partien ![]() Der Travelchampion, was für eine Version ist das: die Urversion (2080? also die rechteckige ![]() Zitieren:
Eine kommentierte pdf-Version mit komplettem Statistikteil ist noch in Arbeit und wird nachgeliefert.
![]() Auch die graphische Aufbereitung der Liste finde ich eine tolle Idee, aber dazu hätte ich ein paar Verbesserungsvorschläge: Die 200-er Abstufung der Elo-Achse finde ich etwas grob. Eine 100-er fände ich besser. Könntet ihr auf der linken Seite anstatt der Zahl der Games (ist ja sowieso bei jedem Eintrag zu lesen (sogar in Klarschrift)) fände ich eine zweite Elo-Achse besser (so wie auf der rechten Seite) Das würde die Ablesbarkeit für die Einträge auf der linken Seite deutlich verbessern. Und wenn Ihr die beiden Achsen noch mit Linien verbinden würdet (zumindest die wichtigsten Zahlen wie 2100, 2000, 1900 usw.), dann würde ich sagen, wäre es fast perfekt (zumindest in meinem Augen) Macht weiter so! (und lasst euch nicht von irgendwelchen Nörglern entmutigen! ![]() viele Grüße, Robert P.S.: Das da oben ist natürlich nicht als Nörgelei gedacht, sondern als Versuch eines Beitrags, um die (ohnehin schon fantastische) Liste und deren graphische Auswertung noch attraktiver zu machen! |
|
||||||||||||
AW: ELO-Liste 02-2004
Hallo zusammen,
ja, ausgezeichnet! Die Liste wird ja immer besser (auch wenn ich diesmal (noch) nichts dazu beitragen konnte). ![]() Das Ergebnis des Scorpio/Diablo finde ich übrigens nicht so außerordentlich überraschend: Bei mir hat er sich z.B. in zwei Schnellpartien relativ gut gegen den Vanc 32bit behauptet. Gut, das ist natürlich statistisch nicht relevant, aber einen kleinen Einblick in die Spielstärke/Spielweise gewinnt man mit der Beschäftigung mit den Kisten dann doch und ich kann mir gut vorstellen, dass er nicht wesentlich (vielleicht ein bisschen) schlechter als der Vanc 68000 tatsächlich ist. Dass einige der schnelleren Protagonisten gegen die langsameren Geschwister etwas abfallen, wird die Zeit schon noch ausbügeln, das denke ich auch. Grüße, Martin P.S. Die grafische Darstellung ist wirklich gut gelungen, insbesondere durch die Anzahl der Partien (bzw. die Fehlerbalken) kann man gut sehen wo noch etwas zu tun ist... ![]() |
|
|||||||||||
Im Fadenkreuz
Eine kritische Anmerkung zur neuen Liste
Gerätepaarungen von weit auseinander liegenden Geräten scheinen mir sehr fragwürdig, sowohl im Aussagewert für das betreffende Gerät als auch in ihrem Einfluss auf die Liste. Als Beispiel sei der MMII aufgeführt, der in dieser Liste neu vertreten ist. Hier einige der Paarungen (Opponenten): Atlanta/Magellan, Meph. 2 + 0 = 0 - 2 0.0 % Dallas 68000/Mondial XL 2 + 0 = 0 - 2 0.0 % Lyon 68000, Mephisto 2 + 0 = 0 - 2 0.0 % Polgar 10 MHz, Mephisto 2 + 0 = 0 - 2 0.0 % Roma 68020, Mephisto 2 + 0 = 0 - 2 0.0 % Berlin Pro 68020, Meph. 2 + 0 = 0 - 2 0.0 % R30 V 2.5, TASC 2 + 0 = 0 - 2 0.0 % RISC 2500, Saitek 2 + 0 = 0 - 2 0.0 % Alle diese Gegner spielen in einer anderen Liga. Die Ergebnisse sind ebenso vorhersehbar wie nichtssagend. M. E. sprechen 3 Gründe gegen solche Paarungen, auch wenn sie nach der Elo-Formel korrekt ausgewertet sind: 1.) Zu den Qualitäten des schwächeren Geräts sagen sie nichts aus. Will ich einen Elo 2000-Spieler einschätzen, bringt es nichts ihn gegen Kasparov, Anand oder Kramnik spielen zu lassen. Das gleiche Problem gibt es bei Teststellungen wie dem BT-Test. Ein Gerät, das keine Aufgabe löst, erhält nach der korrekten Anwendung der Formel einen Grundwert zugemessen. Dieser ist aber durch nichts belegt und abhängig vom eingesetzten Grundwert. Erhöht man den Grundwert der Formel, erhöht sich (bei gleichbleibend „Nichts“) auch der zugemessene Elowert, ohne dass es dafür eine Basis gäbe. 2.) Zu den Qualitäten des stärkeren Gerätes sagt der Vergleich auch nichts aus. Das Kasparov gegen einen 2000-Elo Spieler gewinnt ist klar. Niemand würde aber aus 20 oder mehr solcher Partien eine Aussage zu seiner Leistung treffen. Es tritt aber noch ein Problem hinzu. Das Elo-stärkere Gerät sammelt trotzdem Punkte an. Das mögen vielleicht nur 1 oder 2 Punkte sein. Über 20/30 solcher Partien sind das aber auch 30 Punkte Und das macht im Vergleich mit benachbarten Geräten in der Spitze, wo die Differenzen klein und die Luft dünn wird, eben deutliche Unterschiede in der Platzierung aus. Ein Effekt, wenn man neutral, oder ein „Verfahren“, wenn man unfreundlich sein will, was leider in der SSDF schon zu sehen war. 3.) In Anbetracht der mangelnden Verwendbarkeit der Ergebnisse ist die Ausführung solcher Partien auch Zeitverschwendung. Ich halte es daher für geboten, solche Paarungen jetzt, wo die Liste noch im Anfang steckt, zu vermeiden bzw. wieder zu entfernen, um verzerrende Effekte von vornherein auszuschließen. Die geht nicht darum , möglichst schnell viele Partien abzureißen, sondern für jedes Gerät eine möglichst nahekommende Einschätzung zu erreichen. Ich schlage dafür zwei Punkte vor: A) Keine Paarungen mit einem Abstand von mehr als 100-150 Elo. B) Neue Geräte werden durch die Paarungen gezielt eingekreist. Das heißt: Ausgehend von bereits gelisteten, gesicherten Geräten wird eine Gegnerliste erstellt, die sich in 10-20Elopunkten Abstand beidseitig nähert, also –60;-40;-20; X; +20;+40;+60 (oder feiner). Als grobe Anhaltspunkte für die Opponenten von „X“ dienen analoge Hardware und Programmumfang, z.B. 6502; 32K-Progr., 8K RAM. Zugleich sollten bei der Auswahl unterschiedliche Charaktere vertreten sein (Taktiker/Positionelle) um ein ausgewogenes Gegnerfeld zu haben. Nach dem ersten Durchlauf in diesem FADENKREUZ kann mit zusätzlichen Geräten nachjustiert und somit die Wertung präzisiert werden. Mit der Bitte um sachliche Diskussion kosakenzipfel |
|
||||||||||||
AW: ELO-Liste 02-2004
Hallo Robert,
wohl war. Einige Elo Werte sollten sich noch ändern. Oder auch nicht. Wir sollten uns nicht zwangsläufig an der SSDF orientieren. Denn dann macht unsere Liste ja keinen Sinn. Unser Bestreben ist es ja gerade, eine Liste zu erstellen, die nachvollziehbar und durch jeder man kontrolliert werden kann. Die Liste basiert nicht auch irgendwelchen von uns erdachten Elo Berechnungen, sondern auf dem Programm EloStat, welches die relativen Spielstärkeunterschiede der Geräte unter einander errechnet. Gut, einige Werte halte ich auch (noch) für fragwürdig. Aber nicht weil die SSDF uns andere Werte vorlegt, sondern weil die eigenen Erfahrungen eine andere Sprache sprechen. Schauen wir uns doch mal einige Geräte an. Der Diablo spielt bisher recht gut mit. Ein Elo Wert zwischen 2070 - 2110 scheint mir realistisch. Auch die bisherigen Ergebnisse bestätigen meine These. Der MMV hatte nach 10 Partien nur 3 Remisen zu verbuchen. Wie dieses Gerät in der SSDF ein 10:10 erreicht haben soll, bleibt mir ein Rätsel. Der MMV fällt im Endspiel dermaßen stark ab, dass der Diablo häufig leichtes Spiel hatte. In der ersten Partie erzeugte der MMV in besserer Stellung ein Selbst-Matt in drei Zügen, wirklich sehenswert. Dann durfte der Milano Pro sein Glück versuchen, aber auch er hat nach 8 Partien nur einen 3,5:4,5 Rückstand auf der Haben Seite. Wiederum fällt hier das schwache Endspielverhalten des Milano Pro ins Gewicht. Wenn es dem Diablo gelingt in ein Endspiel zu kommen, welches in etwa ausgeglichen ist, hat er zumeist das Remis häufig schon in der Tasche. In 3 Fällen reichte es sogar zum Sieg. Ok, dann nehmen wir halt den Vancouver 68000. Dieser sollte dem Novag doch deutlich seine Grenzen aufzeigen, dachte ich zumindest. Aber auch diesmal konnte sich der Novag behaupten. 5:5 nach 10 Partien, nicht schlecht. Interessant bei diesem Vergleich ist die Tatsache, dass der Diablo teilweise dem Vancouver im Endspiel überlegen war. Zu mehr Diablo Partien reichte es bisher nicht. Das Problem London sollte klar sein, wenn man sich die wenigen Partien des 68030 ansieht. Hier fehlen uns einfach die Partien. Bei den RISC Geräten sehe ich die Sache nicht so eng. Beide Geräte scheinen gleich stark zu sein. Der RISC II scheint taktisch ein klein wenig besser zu sein. Dem RISC II hängt einfach das 3.RSCO noch ein wenig in den Chips. Dort spielte er weit unter seinen Möglichkeiten. Aber das wird schon. Ein Wettkampf gegen den R30 wird in den nächsten Wochen folgen. Hier konnte der RISC I, ob wohl er gut mitspielte, nur ein 2,5 : 7,5 erreichen. Was wieder einmal die Ausnahmestellung des R30 dokumentiert. Bei den SFC Geräten fehlen mir ein wenig die Argumente. Das der SFC 6 MHz die klare Nummer 1 im 8 Bit Bereich ist, haben wir alle anhand von vielen Beispielen bei uns im Forum gesehen. Gerade Eckehard konnte dies mit vielen Partien beweisen. Warum nun die 5 MHz Version so schlecht abschneidet, tja, schwierig. Auch kann ich zu den anderen Geräten (Roma 68020, Travel Champ, MM IV Turbo, MM II usw.) bzw. Partien nicht viel sagen. Vielleicht kann Wolfgang etwas dazu beitragen , da die Partien aus seinem großen Turnier stammen. Dieses Turnier wurde doppelrundig ausgetragen, womit statistische Schwankungen wohl nicht ganz ausgeschlossen werden können. Aber ich möchte noch einmal auf die Spalte Rating Evaluation (RE) in der neuen Liste hinweisen. Zwar haben wir schon einige Partien gesammelt, aber die Schwankungsbreite ist nach wie vor sehr groß. Die Zeit und viele neue Partien werden langsam Licht ins Dunkel bringen. Nicht ungeduldig werden. Wir fangen doch gerade erst an. Viele Grüße, Micha Geändert von Chessguru (01.09.2004 um 00:13 Uhr) |
|
||||||||||||
AW: Im Fadenkreuz
Hallo kosakenzipfel,
zunächst einmal vielen Dank für das konstruktive Feedback, genau so sollte es sein. Ich versuche mal einige Antworten zu geben: ![]() Gerätepaarungen von weit auseinander liegenden Geräten scheinen mir sehr fragwürdig, sowohl im Aussagewert für das betreffende Gerät als auch in ihrem Einfluss auf die Liste.
Als Beispiel sei der MMII aufgeführt, der in dieser Liste neu vertreten ist. Hier einige der Paarungen (Opponenten): Atlanta/Magellan, Meph. 2 + 0 = 0 - 2 0.0 % Dallas 68000/Mondial XL 2 + 0 = 0 - 2 0.0 % Lyon 68000, Mephisto 2 + 0 = 0 - 2 0.0 % Polgar 10 MHz, Mephisto 2 + 0 = 0 - 2 0.0 % Roma 68020, Mephisto 2 + 0 = 0 - 2 0.0 % Berlin Pro 68020, Meph. 2 + 0 = 0 - 2 0.0 % R30 V 2.5, TASC 2 + 0 = 0 - 2 0.0 % RISC 2500, Saitek 2 + 0 = 0 - 2 0.0 % Alle diese Gegner spielen in einer anderen Liga. Die Ergebnisse sind ebenso vorhersehbar wie nichtssagend. In wieweit sich solche Paarungen auf die Auswertung mit dem Programm ELO-Stat auswirken, bin ich gerne bereit beim Autor des Programms, Frank Schubert, zu erfragen, gegen den ich gerade eine Fernschachpartie spiele. ![]() Ich halte es daher für geboten, solche Paarungen jetzt, wo die Liste noch im Anfang steckt, zu vermeiden bzw. wieder zu entfernen, um verzerrende Effekte von vornherein auszuschließen.
Kurz nach Veröffentlichung der Liste sind uns weitere 300 Partien zugegangen, die wir natürlich auch uneingeschränkt auswerten möchten. ![]() Ich schlage dafür zwei Punkte vor:
A) Keine Paarungen mit einem Abstand von mehr als 100-150 Elo. B) Neue Geräte werden durch die Paarungen gezielt eingekreist. Das heißt: Ausgehend von bereits gelisteten, gesicherten Geräten wird eine Gegnerliste erstellt, die sich in 10-20 Elopunkten Abstand beidseitig nähert, also –60;-40;-20; X; +20;+40;+60 (oder feiner). Als grobe Anhaltspunkte für die Opponenten von „X“ dienen analoge Hardware und Programmumfang, z.B. 6502; 32K-Progr., 8K RAM. Zugleich sollten bei der Auswahl unterschiedliche Charaktere vertreten sein (Taktiker/Positionelle) um ein ausgewogenes Gegnerfeld zu haben. Nach dem ersten Durchlauf in diesem FADENKREUZ kann mit zusätzlichen Geräten nachjustiert und somit die Wertung präzisiert werden. Danke nochmal für ihr Posting! Gruß Stefan Ottow Geändert von Stefan (31.08.2004 um 22:42 Uhr) |
|
||||||||||||
AW: Im Fadenkreuz
![]() Eine kritische Anmerkung zur neuen Liste
Gerätepaarungen von weit auseinander liegenden Geräten scheinen mir sehr fragwürdig, sowohl im Aussagewert für das betreffende Gerät als auch in ihrem Einfluss auf die Liste. Als Beispiel sei der MMII aufgeführt, der in dieser Liste neu vertreten ist. Hier einige der Paarungen (Opponenten): Atlanta/Magellan, Meph. 2 + 0 = 0 - 2 0.0 % Dallas 68000/Mondial XL 2 + 0 = 0 - 2 0.0 % Lyon 68000, Mephisto 2 + 0 = 0 - 2 0.0 % Polgar 10 MHz, Mephisto 2 + 0 = 0 - 2 0.0 % Roma 68020, Mephisto 2 + 0 = 0 - 2 0.0 % Berlin Pro 68020, Meph. 2 + 0 = 0 - 2 0.0 % R30 V 2.5, TASC 2 + 0 = 0 - 2 0.0 % RISC 2500, Saitek 2 + 0 = 0 - 2 0.0 % Alle diese Gegner spielen in einer anderen Liga. Die Ergebnisse sind ebenso vorhersehbar wie nichtssagend. M. E. sprechen 3 Gründe gegen solche Paarungen, auch wenn sie nach der Elo-Formel korrekt ausgewertet sind: Teilweise kann ich deine Einsprüche nachvollziehen. Aber eins vorneweg. Wir berechnen die angegebenen Werte nicht mit Hilfe einer Elo Formel. Ich kann mich nur wiederholen. Die Werte werden mit Hilfe von EloStat errechnet. Dieses Programm errechnet die relativen Spielstärkeunterschiede der Geräte untereinander. Es berechnet keine Elo Zahlen, sondern stellt die Abstände der Geräte untereinander aufgrund der zugrundliegenden Partien in Zahlen dar. Die von dir angegebenen Partien stammen aus dem Turnier von Wolfgang. In diesem Turnier kamen 18 Geräte zum Einsatz. Wolfgang hat einfach versucht ein interessantes Teilnehmerfeld zusammenzustellen. Was ihm wohl auch gelungen ist. Natürlich kam es dabei auch zu den oben genannten Paarungen. Wobei sein Augenmerk wohl eher auf Unterhalt denn Auswertung lag. Man will ja auch seinen Spaß bei der ganzen Geschichte haben. Schließlich sind es ja auch die sogenannten Kleinen, die das Salz in der Suppe ausmachen, zumindest teilweise. Aber deine Kritik zielt wohl auf einen anderen Punkt. Zitieren:
1.) Zu den Qualitäten des schwächeren Geräts sagen sie nichts aus. Will ich einen Elo 2000-Spieler einschätzen, bringt es nichts ihn gegen Kasparov, Anand oder Kramnik spielen zu lassen. Das gleiche Problem gibt es bei Teststellungen wie dem BT-Test. Ein Gerät, das keine Aufgabe löst, erhält nach der korrekten Anwendung der Formel einen Grundwert zugemessen. Dieser ist aber durch nichts belegt und abhängig vom eingesetzten Grundwert. Erhöht man den Grundwert der Formel, erhöht sich (bei gleichbleibend „Nichts“) auch der zugemessene Elowert, ohne dass es dafür eine Basis gäbe.
Zu dem BT-Test ist anzumerken, dass Geräte mit einem BT-Wert von weniger als 1650 aus dem Test genommen werden sollten, da die Ungenauigkeit in diesem Bereich stark zunimmt. So zumindest die Aussage der Entwickler des BT2450 Tests. Zitieren:
2.) Zu den Qualitäten des stärkeren Gerätes sagt der Vergleich auch nichts aus. Das Kasparov gegen einen 2000-Elo Spieler gewinnt ist klar. Niemand würde aber aus 20 oder mehr solcher Partien eine Aussage zu seiner Leistung treffen. Es tritt aber noch ein Problem hinzu. Das Elo-stärkere Gerät sammelt trotzdem Punkte an. Das mögen vielleicht nur 1 oder 2 Punkte sein. Über 20/30 solcher Partien sind das aber auch 30 Punkte Und das macht im Vergleich mit benachbarten Geräten in der Spitze, wo die Differenzen klein und die Luft dünn wird, eben deutliche Unterschiede in der Platzierung aus. Ein Effekt, wenn man neutral, oder ein „Verfahren“, wenn man unfreundlich sein will, was leider in der SSDF schon zu sehen war.
Zumal dein Ansatz nicht korrekt ist. Der von dir beschriebene Zuwachs von 1-2 Punkten pro Partie, ist für eine normale Elo Berechnung korrekt. Aber für unsere Liste trifft er eben nicht zu! Ein Beispiel bezogen auf unsere momentane Liste: Gerät 1 hat eine Elo von 2216 (RISC 2500) Gerät 2 hat eine Elo von 1849 (MM II) Gerät 1 spielt eine Serie von 20 Partien gegen Gerät 2 und gewinnt 20:0. Wie hoch ist nun die Veränderung für Gerät 1? Laut FIDE Elo Berechnung wären es 30 Punkte. In unserer Liste wären es 2 Punkte. Gut könnte man sagen, es sind immerhin 2 Punkte. Was passiert nun aber nach 30 Partien, wenn Gerät 1 30:0 führt? Wenn man in der FIDE Berechnung alle 30 Partien zusammen berechnet, wären es 45 Punkte. Bei uns sieht die Sache aber völlig anders aus. Gerät 1 fällt auf 2216 zurück. Zumal sich aufgrund dieser neuen Konstellation auch die Werte anderer Geräte verschieben. Warum dieser Effekt eintritt, habe ich oben erklärt. Zitieren:
3.) In Anbetracht der mangelnden Verwendbarkeit der Ergebnisse ist die Ausführung solcher Partien auch Zeitverschwendung.
Ich halte es daher für geboten, solche Paarungen jetzt, wo die Liste noch im Anfang steckt, zu vermeiden bzw. wieder zu entfernen, um verzerrende Effekte von vornherein auszuschließen. Zitieren:
Die geht nicht darum , möglichst schnell viele Partien abzureißen, sondern für jedes Gerät eine möglichst nahekommende Einschätzung zu erreichen.
Zitieren:
Ich schlage dafür zwei Punkte vor:
A) Keine Paarungen mit einem Abstand von mehr als 100-150 Elo. B) Neue Geräte werden durch die Paarungen gezielt eingekreist. Das heißt: Ausgehend von bereits gelisteten, gesicherten Geräten wird eine Gegnerliste erstellt, die sich in 10-20Elopunkten Abstand beidseitig nähert, also –60;-40;-20; X; +20;+40;+60 (oder feiner). Als grobe Anhaltspunkte für die Opponenten von „X“ dienen analoge Hardware und Programmumfang, z.B. 6502; 32K-Progr., 8K RAM. Zugleich sollten bei der Auswahl unterschiedliche Charaktere vertreten sein (Taktiker/Positionelle) um ein ausgewogenes Gegnerfeld zu haben. Nach dem ersten Durchlauf in diesem FADENKREUZ kann mit zusätzlichen Geräten nachjustiert und somit die Wertung präzisiert werden. Das würde z.B. heißen (wenn man die SSDF zu Rate zieht) ein Sparc dürfte nicht gegen einen Berlin 68000 antreten? Oder ein Milano Pro nicht gegen einen RISC 2? Warum nicht? Sollte nicht viel mehr eine breite Streuung in der Gegnerschaft liegen? Welche Paarungen würdest du als sinnvoll erachten, unter Berücksichtigung der von dir genannten Kriterien? Gut finde ich persönlich den Ansatzpunkt, unterschiedliche Charaktere auszuwählen, um eben eine gewisse Streuung zu erhalten und die Hardware der einzelnen Geräte zu beachten. Welche Geräte könntest du ins Feld schicken, um das Gesagte zu illustrieren? Zitieren:
Mit der Bitte um sachliche Diskussion
Micha Geändert von Chessguru (01.09.2004 um 00:05 Uhr) |
|
||||||||||||
AW: Im Fadenkreuz
Guten Morgen!
![]() 2.) Zu den Qualitäten des stärkeren Gerätes sagt der Vergleich auch nichts aus. Das Kasparov gegen einen 2000-Elo Spieler gewinnt ist klar. Niemand würde aber aus 20 oder mehr solcher Partien eine Aussage zu seiner Leistung treffen. Es tritt aber noch ein Problem hinzu. Das Elo-stärkere Gerät sammelt trotzdem Punkte an. Das mögen vielleicht nur 1 oder 2 Punkte sein. Über 20/30 solcher Partien sind das aber auch 30 Punkte.
Wenn man Elos Formel glaubt, dann sollte es statistisch eigentlich egal sein, gegen welche Gegner man spielt. Es gibt allerdings eine größere Ungenauigkeit, wenn Gegner mit sehr unterschiedlichem Rating gegeneinander spielen: Stellt man die Formel grafisch dar (x-Achse: Ratingdifferenz, y-Achse: Performance), dann wird sie zu den Rändern hin immer flacher. Ab 600 Punkten Differenz holt man schon 100% der Punkte, ein größerer Unterschied macht sich nach Elo nicht mehr bemerkbar. Die größte Genauigkeit ergibt sich demnach im mittleren Bereich, wo die Kurve halbwegs linear verläuft. In der Praxis scheint es aber so auszusehen, daß Spieler mit einer geringeren Elo-Zahl in Matches mehr Punkte holen, als sie es statistisch (nach Elo) sollten. Jeff Sonas versucht das jedenfalls im ersten Teil seiner Artikelserie in der CSS (2004) statistisch zu belegen. Wer aktiv Schach spielt, kennt vielleicht auch die Haltung vieler Spieler, die, um eine möglichst gute Ratingzahl zu erhalten, lieber gegen stärkere Gegner spielen. Das geht ja sogar bis zur äußersten Weltspitze, die auch lieber unter sich spielt. Und die achtet wirklich auf ihre ELO-Zahl, schließlich entscheiden sich darüber oft Turniereinladungen. An dieser Annahme könnte also was dran sein. Entsprechend müßte also ein Gerät in unserer Liste gehandicapt sein, wenn es gegen deutlich schwächere Gegner gespielt hat. Falls diese Annahme wahr ist, bleibt allerdings noch die praktische Auswirkung auf unsere Liste zu bedenken. Aus Gründen des Interesses werden längere Matches im Regelfall nur mit Computern gespielt, die halbwegs in einer Liga spielen. Wenn mal eine Paarung gegen viel stärkere/schwächere Gegner dabei ist, dann, soweit ich das sehe, nur im Rahmen eines größeren Turniers über eine oder höchstens zwei Partien. Ich denke, gemessen an der viel größeren Zahl der in längeren Matches gegen ähnlich starke Computer gespielten Partien werden diese "Ausreißer" nicht so stark ins Gewicht fallen. Das ist natürlich nur eine pauschale Aussage. Vielleicht findet sich ja jemand, der mich mit einem konkreten Beispiel aus unserer Liste widerlegt? ![]() Viele Grüße, Dirk |
|
||||||||||||
AW: Im Fadenkreuz
![]() Eine kritische Anmerkung zur neuen Liste
Gerätepaarungen von weit auseinander liegenden Geräten scheinen mir sehr fragwürdig, sowohl im Aussagewert für das betreffende Gerät als auch in ihrem Einfluss auf die Liste. [...] A) Keine Paarungen mit einem Abstand von mehr als 100-150 Elo. Und wenn man sich die Turniertabellen z. B. der Welser Turniere anschaut, dann sieht man, dass es doch immer wieder mal Überraschungssiege von Underdogs gab! Und gerade das macht doch den Reiz solcher Paarungen aus! In meinem Turnier hat z. B. der Diablo eine Partie gegen den London 68020 18 Mhz gewinnen können; der Sparc musste sich mit 2 Remisen begnügen; der Star Sapphire gab sogar beide Punkte gegen den Designer 2265 ab! Alles sind Paarungen, die nach deiner Meinung gar nicht sinnvoll gewesen wären! Wo man allerdings jetzt die Grenze ziehen soll, ist die nächste gute Frage ![]() 400 Punkte? Da wäre der MM II ein Grenzfall gewesen... viele Grüße, Robert |
|
|||||||||||
AW: ELO-Liste 02-2004
Hallo !
Ich finde, mit einer Einschränkung der Paarungen sollte man vorsichtig sein. Gerade die Siege der Underdogs machen doch den Reiz dieser Wettkämpfe aus. Als ich vor zwei Jahren alle meine SC in einem vierrundigen Turnier antreten ließ ( Magellan, Diamond I, Milano Pro, Miami, Turbostar, Superconny, Supermondial) gab es trotz des starken Elogefälles nur selten ein 4:0 (Mag-Turbostar, Diamond-Supermondial, Miami-Superconny (glücklich) ). Der Miami holte gegen den Mag mit Weiß 1,5 aus 2, ebenso der Turbostar gegen den Milano Pro. Gerade diese Partien möchte ich nicht missen. Gruß Eckehard |
![]() |
Themen-Optionen | |
Ansicht | |
|
|
![]() |
||||
Thema | Erstellt von | Forum | Antworten | Letzter Beitrag |
Neue ELO-Liste | Stefan | Teststellungen und Elo Listen / Test positions and Elo lists | 20 | 13.04.2005 14:35 |
Aktivschach Elo Liste | Chessguru | Teststellungen und Elo Listen / Test positions and Elo lists | 0 | 02.04.2005 18:44 |
D.A.CH 2004 Turnier | 'hard | Usertreffen, Veranstaltungen / User Meetings, Events | 32 | 24.11.2004 16:51 |