Einzelnen Beitrag anzeigen
  #15  
Alt 02.09.2004, 15:50
kosakenzipfel kosakenzipfel ist offline
SPARC
 
Registriert seit: 12.08.2004
Beiträge: 229
Abgegebene Danke: 1
Erhielt 29 Danke für 5 Beiträge
Aktivitäten Langlebigkeit
0/20 20/20
Heute Beiträge
0/3 ssssss229
AW: ELO-Liste 02-2004

Vorausschickend vielen Dank für die rege Anteilnahme an meinem Vorschlag. Ich möchte versuchen, die aufgeworfenen Fragen zu beantworten. Ich tue dies allerdings in einem Posting, um mich nicht auf die zahlreichen Antworten zu zerstreuen. Dabei beziehe ich mich zunächst auf die Reaktionen zum Problem der ungleichen Gegner und dann auf die Anmerkungen zum Vorschlag „Fadenkreuz“.

Zitat Stefan OTTOW:
"Ich vermisse aber gerade beim MM2 in Ihrer Auflistung das Ergebnis gegen den Elite 68060, der nämlich ein Remis abgegeben hat."

Danke für den Hinweis. Was wiegt denn schwerer: Der Block der Verlustpartien oder das singuläre Remis? Neutralisierende Effekte der Statistik sollte man hier nicht erwarten.

Zitat weiter:
"Ein Großteil der neu hinzugekommenen Partien (> 330) wurden uns von Schachfreund Wolfgang Spiekermann zur Verfügung gestellt, der seit ca. 3 Jahren ein Turnier mit seinen Geräten austrägt und da kommen halt auch Paarungen zu Stande, die möglicherweise in einer reinen Zweikampfansetzung nicht sehr sinnvoll sind. ..."

Eben! Da die Liste auf genau diesen Paarungen basiert, sollte hier nicht vermischt werden.

Zitat weiter:
"Wir wollen aber allen Interessierten die Möglichkeit bieten sich hier einzubringen und nicht von vornherein diejenigen ausschließen, die z. B. einen Superconstellation und einen RISC 2500 haben, nur weil die Geräte von der Spielstärke her nicht zueinander passen.

In der Praxis ergibt sich aber leider das Problem, daß die Schachfreunde nicht alle am selben Ort wohnen und hier zwangläufig eine Einschränkung vorhanden ist, da nicht jeder über beliebig viele Schachcomputer verfügt. Und ich möchte abschließend noch einmal darauf hinweisen, daß wir grundsätzlich jedem Brettcomputerfreund die Möglichkeit geben wollen sich hier einzubringen."

Zitat von CHESSGURU
"Die von dir angegebenen Partien stammen aus dem Turnier von Wolfgang. In diesem Turnier kamen 18 Geräte zum Einsatz. Wolfgang hat einfach versucht ein interessantes Teilnehmerfeld zusammenzustellen. ... Wobei sein Augenmerk wohl eher auf Unterhaltung denn Auswertung lag. Man will ja auch seinen Spaß bei der ganzen Geschichte haben. Schließlich sind es ja auch die sogenannten Kleinen, die das Salz in der Suppe ausmachen, zumindest teilweise."

Zitat von Eckehard
"Ich finde, mit einer Einschränkung der Paarungen sollte man vorsichtig sein. Gerade die Siege der Underdogs machen doch den Reiz dieser Wettkämpfe aus."

Zitat von Robert
"Und wenn man sich die Turniertabellen z. B. der Welser Turniere anschaut, dann sieht man, dass es doch immer wieder mal Überraschungssiege von Underdogs gab! Und gerade das macht doch den Reiz solcher Paarungen aus!"


Nun, ich möchte niemandem das Salz aus der Suppe nehmen. Ich bestreite auch nicht den hohen Unterhaltungswert von Turnieren oder ihren hohen kommunikativen Wert für die „Gemeinde“. Es sollte jeder die Geräte gegeneinander spielen lassen, wie er mag. –Nur:

Muss man denn all das in e i n e Auswertung werfen?

Ich denke, man sollte die Liste nicht mit zusätzlichen Aufgaben befrachten und klar trennen: Macht Unterhaltung wo ihr Unterhaltung (Zufall) wollt und Information wo ihr Information (Fakten) wollt.

Die Turnierergebnisse kann man ja mitteilen, nur sollte man sie nicht in die Leistungsermittlung einbeziehen. In jeder Art von Leistungssport oder Leistungstechnik werden aus gutem Grund Klasseneinteilungen vorgenommen und nur sinnvolle Gegnerpaarungen angesetzt. Es werden doch die Zweiervergleiche über viele Partien angesetzt, um die Zufallswirkungen von Turnieren auszuschalten. Macht es Sinn dies zuzulassen und dann von der Statistik zu erwarten, sie werde „die paar Ausreißer“ schon ausbügeln?

Es gibt viele Möglichkeiten, sich einzubringen. Verhalten der Geräte in einzelnen Partienphasen, bei bestimmten Problemen (Taktik/Strategie) etc. Das Einbringen in die Liste ist eine Möglichkeit, aber kein Grundrecht.


Zitat von CHESSGURU
"Wir berechnen die angegebenen Werte nicht mit Hilfe einer Elo Formel. Ich kann mich nur wiederholen. Die Werte werden mit Hilfe von EloStat errechnet. Dieses Programm errechnet die relativen Spielstärkeunterschiede der Geräte untereinander. Es berechnet keine Elo Zahlen, sondern stellt die Abstände der Geräte untereinander aufgrund der zugrundliegenden Partien in Zahlen dar."

???

Warum heißt ein Programm, dass KEINE Elos berechnet ELOSTAT?
Warum heißt eure damit erstellte Liste dann „Private ELO-Liste“?

Ich schrieb: „Das Elo-stärkere Gerät sammelt trotzdem Punkte an. Das mögen vielleicht nur 1 oder 2 Punkte sein. Über 20/30 solcher Partien sind das aber auch 30 Punkte Und das macht im Vergleich mit benachbarten Geräten in der Spitze, wo die Differenzen klein und die Luft dünn wird, eben deutliche Unterschiede in der Platzierung aus. Ein Effekt, wenn man neutral, oder ein „Verfahren“, wenn man unfreundlich sein will, was leider in der SSDF schon zu sehen war.“

Dazu Zitat von CHESSGURU
"Damit unterstellst du uns, dass wir nach dem gleichen Prinzip wie die SSDF ´arbeiten´ und so eventuell Geräte bevorteilen. ..."

Definitiv nicht. Ich schrieb „schon“ nicht „auch“. Damit ist die Gefahr und nicht der Willen zu einem methodischen Fehler gemeint.

Zitat von CHESSGURU
"Zumal dein Ansatz nicht korrekt ist. Der von dir beschriebene Zuwachs von 1-2 Punkten pro Partie, ist für eine normale Elo Berechnung korrekt. Aber für unsere Liste trifft er eben nicht zu!"

Das freut mich zu hören.

Zitat von CHESSGURU
"Ein Beispiel bezogen auf unsere momentane Liste:

Gerät 1 hat eine Elo von 2216 (RISC 2500)
Gerät 2 hat eine Elo von 1849 (MM II)

Gerät 1 spielt eine Serie von 20 Partien gegen Gerät 2 und gewinnt 20:0. Wie hoch ist nun die Veränderung für Gerät 1? Laut FIDE Elo Berechnung wären es 30 Punkte. In unserer Liste wären es 2 Punkte. Gut könnte man sagen, es sind immerhin 2 Punkte. Was passiert nun aber nach 30 Partien, wenn Gerät 1 30:0 führt? Wenn man in der FIDE Berechnung alle 30 Partien zusammen berechnet, wären es 45 Punkte. Bei uns sieht die Sache aber völlig anders aus. Gerät 1 fällt auf 2216 zurück."

Hier brauche ich etwas Aufklärung:

Wenn Gerät 1 mit 2216 startet, wie kann es (bei 30:0) auf den identischen Wert 2216 „zurückfallen“? Das heißt, das Gerät erhält 0 Punkte?

Wenn dem so ist, wäre das m.E. nicht leistungsgerecht. Zwar hat Gerät 1 seine 30:0 mit wenig „Leistung“ erbracht. Aber mehr als 30 Punkte sind aus 30 Partien nun mal nicht herauszuholen ). Und das kann man schlecht mit 0 Punkten bewerten. Oder?

Erteilt man aber mindestens einen Punkt pro Partie, sind wir wieder am Anfang. Will ich benachbarte Geräte in der Spitze nicht benachteiligen, muss ich ihnen auch die Möglichkeit zu solchen 30:0 Vergleichen geben. Das hieße aber umständlich nachtesten, um einen Mangel auszugleichen, den man mit Verzicht auf solche Paarungen im schon im Ansatz hätte ausschließen können.

Zitat von CHESSGURU
"Welchen verzerrenden Effekt meinst du?"

Das Punktesammeln der Starken. Wenn das mit eurer Formel ausgeschlossen wird. Ok.


Beim FADENKREUZ hatte ich 2 Punkte vorgeschlagen:

A) Keine Paarungen mit einem Abstand von mehr als 100-150 Elo.

B) Neue Geräte werden durch die Paarungen gezielt eingekreist. Das heißt: Ausgehend von bereits gelisteten, gesicherten Geräten wird eine Gegnerliste erstellt, die sich in 10-20Elopunkten Abstand beidseitig nähert,also –60;-40;-20; X; +20;+40;+60 (oder feiner). Als grobe Anhaltspunkte für die Opponenten von „X“ dienen analoge Hardware und Programmumfang, z.B. 6502; 32K-Progr., 8K RAM. Zugleich sollten bei der Auswahl unterschiedliche Charaktere vertreten sein (Taktiker/Positionelle) um ein ausgewogenes Gegnerfeld zu haben. Nach dem ersten Durchlauf in diesem FADENKREUZ kann mit zusätzlichen Geräten nachjustiert und somit die Wertung präzisiert werden.

Zitat von CHESSGURU
"Ein interessanter Vorschlag. Nur stellt sich die Frage, woher wissen wir, wie stark ein Gerät wirklich ist? Genau das wollen wir ja mit unserer neuen Liste herausfinden."

Nun, die Liste entsteht ja nicht im luftleeren Raum. Zahlreiche Erfahrungswerte und andere Ratings, ob nun Listen oder Tests liegen vor. Sie haben zwar auch methodische Mängel, können aber Anhaltspunkte zur Auswahl liefern. Genau deshalb soll das Gerät eingekreist werden, ausgehend von formalen Punkten, siehe B (Anhaltspunkte) und Erfahrungswerten der zahlreichen fleißigen Besitzer.

Ein großer Vorteil der jetzt entstehende Liste ist doch, dass zahlreiche Fehler von anderen vorher gemacht wurden, so dass man jetzt eine Testmethodik erarbeiten kann, die diese vermeidet.

Zitat von Robert
"Prinzipiell bin ich deiner Meinung, allerdings sollte die Grenze wesentlich weiter gesteckt sein."

Das FADENKREUZ ist eine Möglichkeit, die in ihren Details verändert werden kann und soll, wenn das zielführend ist. Zur Illustration:
Soll die Leistung eines Geräts möglichst genau erfaßt werden, sollte der Testablauf sehr genau umgrenzt sein. Da man mit Schwankungen rechnen muss und sollte die Methode sich schrittweise annähern, bis die Restschwankung vertretbar gering ist. Je weiter der Testraum (Eloabstand) angelegt wird, desto mehr Annäherungsschritte (Paarungen) muss ich durchführen, denn mit Blick auf die Restschwankung sollten diese relativ fein sein (10-20 Elo). Um daher die Zahl der notwendigen Paarungen klein zu halten, muss der Radius schmal ausfallen. Zur Festlegung dienen dann die genannten Auswahlkriterien. Hat man den ersten Durchlauf absolviert, sieht man, wohin das Gerät tendiert und kann in dieser Richtung mit weiteren Geräten den Radius erweitern. Bei den formell stärksten Geräten (nach Hardwarebasis) kann man sich natürlich nur einseitig annähern.

Zitat von CHESSGURU
"Sollte nicht viel mehr eine breite Streuung in der Gegnerschaft liegen?"

Streuung ja, aber innerhalb einer Leistungsklasse.

Zitat weiter:
"Welche Paarungen würdest du als sinnvoll erachten, unter Berücksichtigung der von dir genannten Kriterien?"

Einige Ausgangskriterien habe ich in B vorgeschlagen. Die konkreten Paarungen müssen für das jeweilige Gerät gefunden werden. Ein Einzelbeispiel würde daher zunächst nur für sich selbst sprechen. Im Übrigen verlangt das Testmodell ja nicht, das ein Tester alle Paarungen realisiert, also alle Geräte der Gegnerliste dafür vorrätig haben muss. Das kann auf verschiedene Tester aufgeteilt werden. Das hätte ohnedies den Vorteil, zeitgleich zu testen und so schneller zu Ergebnissen zu kommen.

Gruß
kosakenzipfel
Mit Zitat antworten