dummies
 
 

Suchen und Finden

Titel

Autor/Verlag

Inhaltsverzeichnis

Nur ebooks mit Firmenlizenz anzeigen:

 

Statistik mit Excel für Dummies

Statistik mit Excel für Dummies

von: Joseph Schmuller

Wiley-VCH, 2017

ISBN: 9783527811700 , 528 Seiten

Format: ePUB

Kopierschutz: DRM

Windows PC,Mac OSX geeignet für alle DRM-fähigen eReader Apple iPad, Android Tablet PC's Apple iPod touch, iPhone und Android Smartphones

Preis: 23,99 EUR

Exemplaranzahl:  Preisstaffel

Für Firmen: Nutzung über Internet und Intranet (ab 2 Exemplaren) freigegeben

Derzeit können über den Shop maximal 500 Exemplare bestellt werden. Benötigen Sie mehr Exemplare, nehmen Sie bitte Kontakt mit uns auf.


Mehr zum Inhalt

Statistik mit Excel für Dummies


 

Kapitel 1

Echte Daten auswerten


In diesem Kapitel

Im Rahmen der Statistik geht es immer darum, Entscheidungen zu treffen, die auf Zahlengruppen beruhen. Statistiker stellen ständig Fragen: Was sagen uns die Zahlen? Welche Trends zeichnen sich ab? Welche Vorhersagen können wir treffen? Welche Schlüsse können wir ziehen?

Um diese Fragen zu beantworten, haben Statistiker eine beeindruckende Menge an Analysetools entwickelt. Mit diesen Tools wird den Bergen an Daten, die darauf warten, dass wir uns eingehend mit ihnen beschäftigen, eine Bedeutung zugeschrieben. Und mit diesen Tools können wir die Zahlen verstehen, die wir bei unserer Arbeit generieren.

Die statistischen (und damit verwandten) Begriffe, die Sie einfach kennen müssen


Da intensives Rechnen häufig fester Bestandteil der Arbeit eines Statistikers ist, haben viele Leute die falsche Vorstellung, dass es bei der Statistik ausschließlich um die Verarbeitung großer Zahlenmengen geht. Das Rechnen ist jedoch nur ein kleiner Teil auf dem Weg hin zu einer vernünftigen Entscheidung.

Die Software nimmt uns diese Arbeit ab, so dass wir auf unserem Weg schneller vorankommen. Einige Software‐Pakete sind auf die statistische Analyse spezialisiert und enthalten viele der Tools, die Statistiker verwenden. Excel wird zwar nicht explizit als Statistikpaket verkauft, enthält aber dennoch eine Reihe dieser Tools. Daher habe ich auch dieses Buch geschrieben.

Ich schrieb, Rechnen sei nur ein kleiner Teil auf dem Weg hin zu einer vernünftigen Entscheidung. Der wichtigste Teil sind die Konzepte, mit denen Statistiker arbeiten, und um diese geht es in diesem Kapitel in erster Linie.

Stichproben und Grundgesamtheiten


An Wahlabenden sagen Fernsehkommentatoren regelmäßig noch vor Schließung der Wahllokale das Ergebnis der Wahlen voraus. Meist liegen sie richtig. Wie geht das?

Ganz einfach: Eine Stichprobe von Wählern wird nach Abgabe ihrer Stimme befragt. Unter der Voraussetzung, dass die Wähler ehrlich sagen, wen sie gewählt haben, und vorausgesetzt, die Stichprobe ist für die Grundgesamtheit (oder Population) repräsentativ, können die Analysten in den Fernsehanstalten aufgrund der Stichprobendaten Rückschlüsse auf die Grundgesamtheit der Wähler ziehen.

Das ist die Aufgabe von Statistikern: aufgrund der Ergebnisse einer Stichprobe Rückschlüsse auf die Grundgesamtheit zu ziehen, aus der die Stichprobe entnommen wurde. Manchmal erweisen sich jedoch die anhand der Zahlen gezogenen Rückschlüsse als falsch. Das falsche Ergebnis einer Wahlumfrage führte zu dem denkwürdigen Bild von US‐Präsident Harry Truman mit einer Ausgabe der Chicago Daily Tribune in der Hand mit der berühmten, aber falschen Schlagzeile »Dewey Defeats Truman« (Dewey schlägt Truman) nach der Wahl 1948. Zu der Aufgabe eines Statistikers gehört es mitzuteilen, für wie realistisch er die Schlussfolgerung hält. Ein anderes Beispiel ebenfalls aus dem Bereich der Wahlforschung zeigt, dass derartige Schlussfolgerungen durchaus realistisch sein können. Das Ergebnis einer Wahlumfrage (wir gehen wieder von einer repräsentativen Stichprobe von Wählern aus) gibt an, wie viel Prozent der Wähler aus der Stichprobe die einzelnen Kandidaten favorisieren. Das Meinungsforschungsinstitut gibt an, für wie genau das Umfrageergebnis eingeschätzt wird. Wenn ein Nachrichtensprecher so etwas wie »auf 3 % genau« sagt, hören Sie eine Beurteilung der Glaubwürdigkeit.

Noch ein Beispiel. Nehmen wir einmal an, Sie haben die Aufgabe, die durchschnittliche Lesegeschwindigkeit aller Fünftklässler herauszufinden, Sie verfügen jedoch weder über die Zeit noch über die finanziellen Mittel, alle Fünftklässler zu testen. Was würden Sie tun?

Am besten nehmen Sie eine Stichprobe von Fünftklässlern, messen deren Lesegeschwindigkeit (in Wörtern pro Minute) und berechnen den Mittelwert dieser Lesegeschwindigkeit der Stichprobe. Sie können dann den Mittelwert der Stichprobe zur Schätzung des Mittelwerts der Grundgesamtheit heranziehen.

Das Schließen auf den Mittelwert einer Grundgesamtheit ist eine Art Inferenz, die Statistiker aus Stichprobendaten ziehen. Die Inferenz wird im Abschnitt »Inferenzstatistik: Testen von Hypothesen« ausführlicher beschrieben.

  • , s, r) für Statistiken. In Abbildung 1.1 sind die Beziehungen zwischen Grundgesamtheiten und Stichproben sowie zwischen Parametern und Statistiken dargestellt.

Abbildung 1.1: Die Beziehung zwischen Grundgesamtheiten, Stichproben, Parametern und Statistiken

Abhängige und unabhängige Variablen


Einfach ausgedrückt, ist eine Variable etwas, das mehrere Werte annehmen kann. (Etwas, das nur einen Wert annehmen kann, wird Konstante genannt.) Einige Variablen, die Sie bereits kennen, sind Tagestemperatur, Dow‐Jones‐Index, Ihr Alter und der Wert des Dollar in Euro.

Für Statistiker sind zwei Arten von Variablen wichtig: unabhängige Variablen und abhängige Variablen. Beide Variablen tauchen in jeder Studie und Untersuchung auf und Statistiker bewerten die Beziehung zwischen beiden.

Stellen Sie sich beispielsweise vor, es gebe eine neue Möglichkeit, Lesen so zu lehren, dass Fünftklässler schneller lesen können. Bevor diese neue Methode an Schulen eingeführt wird, soll sie getestet werden. Dazu müsste ein Forscher eine Stichprobe von Fünftklässlern nach dem Zufallsprinzip in zwei Gruppen teilen. Eine Gruppe wird nach der neuen Methode unterrichtet, die andere nach der herkömmlichen. Der Forscher misst vor und nach dem Unterricht die Lesegeschwindigkeit aller Kinder, die an dieser Studie teilnehmen. Was dann geschieht, erfahren Sie in einem der nächsten Abschnitte (»Inferenzstatistik: Testen von Hypothesen«).

Hier geht es zunächst darum, dass Sie wissen, dass die unabhängige Variable in diesem Beispiel die Unterrichtmethode ist. Die beiden möglichen Werte dieser Variablen sind Neu und Herkömmlich. Die abhängige Variable ist die Lesegeschwindigkeit.

Arten von Daten


Es gibt vier verschiedene Arten von Daten. Wenn Sie mit einer Variablen arbeiten, hängt es von der Datenart ab, wie Sie mit der Variablen arbeiten.

Die erste Art wird als nominalskalierte oder nominale Daten bezeichnet. Wenn eine Zahl eine nominale Variable ist, handelt es sich lediglich um einen Namen. Der Zahlenwert bedeutet nichts. Ein gutes Beispiel hierfür ist die Zahl auf dem Trikot eines Sportlers. Sie dient lediglich der Identifizierung des Sportlers, um ihn von den anderen Mitgliedern seines Teams unterscheiden zu können. Die Zahl ist kein Hinweis auf das Können des Sportlers.

Als Nächstes kommen die ordinalskalierten oder ordinalen Daten. Bei ordinalen Daten geht es um Ordnung. Die Zahlen erhalten eine Bedeutung, die über die bloße Identifizierung hinausgeht. Eine höhere Zahl bedeutet, dass eine Eigenschaft in einem höheren Maß vorhanden ist als bei einer niedrigeren Zahl. Ein Beispiel hierfür ist die Mohssche Härteskala. Diese Skala wird seit 1822 verwendet und gibt Werte zwischen 1 und 10 an. Mit dieser Skala geben Mineralogen den Härtegrad von Mineralen an. Diamant ist mit dem Härtegrad 10 das härteste Mineral und Talk mit dem Härtegrad 1 das weichste. Mit einem Mineral einer bestimmten Härte lässt sich jedes Mineral mit einer geringeren Härte ritzen.

Was bei der Mohsschen Skala (und allen Ordinalskalen) fehlt, ist das Konzept von gleichen Intervallen oder gleichen Differenzen. Die Differenz zwischen dem Härtegrad 10 und dem Härtegrad 8 ist nicht dieselbe wie zwischen dem Härtegrad 6 und dem Härtegrad 4.

Intervallskalierte Daten geben Differenzen an. Temperaturangaben in Celsius und Fahrenheit sind ein Beispiel für intervallskalierte Daten. Die Differenz zwischen 10 °C und 20 °C ist dasselbe wie die Differenz zwischen 30 °C und 40 °C.

Eine Tatsache bei den Temperaturangaben in Celsius oder Fahrenheit wird Sie überraschen: 20 °C ist nicht doppelt so warm wie 10 °C. Um eine Aussage hinsichtlich der Relation (doppelt so viel wie, halb so viel wie) machen zu können, muss null bedeuten, dass vom gemessenen Attribut absolut nichts vorhanden ist. Ein Temperaturwert von 0 °C bedeutet jedoch nicht, dass keine Wärme vorhanden ist. 0 °C ist lediglich ein willkürlicher Punkt auf der Celsius‐Skala.

Zum letzten Datentyp zählen verhältnisskalierte Daten. Hier ist ein sinnvoll interpretierbarer Nullpunkt vorhanden. Bei Temperaturangaben liefert die Kelvin‐Skala verhältnisskalierte Daten. 100 °K ist doppelt so warm wie 50 °K. Dies liegt daran, dass der Nullpunkt der Kelvin‐Skala ein absoluter Nullpunkt ist, bei dem es keine molekulare Bewegung (die Voraussetzung für Wärme) mehr gibt. Ein weiteres Beispiel ist das Lineal. 8 cm ist doppelt so lang wie 4 cm. Der Wert 0 bedeutet, dass keine Länge vorhanden ist.

Ein bisschen Wahrscheinlichkeit


Wenn Statistiker Rückschlüsse ziehen, drücken sie ihre Einschätzung der...