Thursday, 19 October 2017

5 7 Standardisierte Test Prep Scatter Plots Und Trend Lines Forex


Das wirkliche Leben ist unordentlich, so dass es erwartet wird, dass Messungen aus dem wirklichen Leben genommen werden auch chaotisch. Wenn Sie Messungen des wirklichen Lebens graphisch darstellen, wird erwartet, dass die Punkte nicht genau in einer netten ordentlichen Linie aufrichten, sondern stattdessen eine Streuung von Punkten bilden, die bestenfalls eine nette ordentliche Linie vorschlagen könnte. Diese Punkte werden als Scatterplot bezeichnet. Erstellen eines Scatterplots aus den folgenden Daten: (1, 49), (3, 51), (4, 52), (6, 52), (6, 53), (7, 53), (8, 54) (11, 56), (12, 56), (14, 57), (14, 58), (17, 59), (18, 59), (20, 60) Erste Dinge, die ich tun müssen, wenn Grafik dieser Punkte ist herauszufinden, was meine Achse Skala Werte werden. Wenn ich versuche, ein Achsensystem mit dem quotstandardquot ndash10 bis 10 Werte zu tun, wird keiner der oben genannten Punkte sogar auf meinem Diagramm angezeigt. Wie bei diesen Arten von Datensätzen üblich, sind alle x - und y-Werte positiv, so dass ich nur wirklich Skalen für den ersten Quadranten benötige. Die y-Werte sind viel größer als die x-Werte, aber anstatt alle y-Werte zusammenzudrücken, breite ich sie aus (damit ich sie besser sehen kann), indem ich eine unterbrochene Skala verwende. Der kleine Quothicky-Bobquot am unteren Rand meiner y - Achse oben zeigt, dass Ive einige der Skalenwerte übersprungen hat. Aus irgendeinem Grund scheint diese gebrochene Achsenbezeichnung fast nie in den Schulen gelehrt zu werden, obwohl sie sehr häufig in der realen Welt verwendet wird. Wenn Sie finanzielle Zeitschriften lesen, sind Sie sehr wahrscheinlich, um viele Graphen mit dieser Art von Achsen-Notation zu sehen. Wenn Sie diese Notation in Ihrer Hausaufgabe verwenden, seien Sie nicht überrascht, wenn Sie es Ihrem Lehrer erklären müssen. Youll vermutlich erwartet, um Ihre scatterplots in Ihrem Diagrammrechner zu tun. Mein Rechner gibt mir dieses Bild: Copyright copyright Elizabeth Stapel 2005-2011 Alle Rechte vorbehalten Sie müssen oft Ihre WINDOW-Einstellungen anpassen, damit alle Ihre Datenpunkte auf dem Bildschirm angezeigt werden. Ich benutzte Fenstereinstellungen von 0 lt X lt 25 mit einer X-Skala von 5 und 45 lt Y lt 65 mit einer Y-Skala von 5 für das obige Diagramm. Wenn Sie mit dem Scatterplot fertig sind, vergessen Sie nicht, das STATPLOT-Quotoffing zu drehen, oder die Parameter für die Statistik-Grafik könnten mit Ihrem regulären Diagramm-Dienstprogramm durcheinander kommen. Ich gebe Ihnen jetzt eine gute Warnung: Es ist modisch geworden, das Thema der Streudiagramme und Regressionen in Algebra und andere nicht-statistische Klassen einzufügen und die Schüler dazu aufzufordern, einen grafischen Taschenrechner zu verwenden, um Fragen zu beantworten. Während sie geben Ihnen die Steigung Formel und die quadratische Formel und alle möglichen anderen Sachen auf dem Test (obwohl Sie sollten sie auswendig gelernt haben), werden sie nicht geben Ihnen Hilfe mit Ihrem Taschenrechner. Sie oft scheinen nicht zu interessieren, wenn youve gelernt, die Mathematik, aber Sie hatten gosh-verdammt besser wissen, Ihren Taschenrechner So ziehen Sie Ihre Besitzer Handbuch, oder gehen Sie auf die Hersteller-Website oder online suchen, oder sich mit einem Freund JETZT, denn Wenn du dieses Zeug in der Klasse machst, wirst du es wissen müssen, und weißt es gut, auf dem Test. Zitieren Sie diesen Artikel als: Stapel, Elizabeth. Zitate und Regressionen. quot Purplemath. Erhältlich bei purplemathmodulesscattreg. htm. Zugrunde Datum Monat 2016Handbuch der biologischen Statistik Korrelation und lineare Regression Diagramm der Anzahl der Eier vs Trockengewicht in der Amphipod Platorchestia platensis. Es gibt drei Dinge, die Sie mit dieser Art von Daten tun können. Einer ist ein Hypothesentest, um zu sehen, ob es eine Assoziation zwischen den beiden Variablen gibt, dh, wenn die X-Variable nach oben geht, tendiert die Y-Variable dazu, sich zu ändern (nach oben oder unten). Für die Trainingsdaten möchten Sie wissen, ob die Pulsfrequenz bei höheren Geschwindigkeiten deutlich höher war. Der P-Wert beträgt 1,3 × 10 minus8. Aber die Beziehung ist so offensichtlich aus der Grafik, und so biologisch nicht überraschend (natürlich meine Pulsfrequenz steigt, wenn ich härter trainieren), dass die Hypothese-Test wäre nicht ein sehr interessanter Teil der Analyse. Für die amphipod Daten möchten Sie wissen, ob größere Weibchen mehr Eier oder weniger Eier als kleinere Amphipoden hatten, die weder biologisch offensichtlich noch offensichtlich aus dem Diagramm ist. Es kann wie eine zufällige Streuung von Punkten aussehen, aber es gibt eine signifikante Beziehung (P 0,015). Das zweite Ziel ist zu beschreiben, wie eng die beiden Variablen zugeordnet sind. Dies wird üblicherweise mit r ausgedrückt. Die von minus 1 bis 1 reicht oder r 2, die von 0 bis 1 reicht. Für die Übungsdaten gibt es eine sehr enge Beziehung, wie die r 2 von 0,98 zeigt dies bedeutet, dass wenn man meine Geschwindigkeit auf der elliptischen Maschine kannte, Sie sind in der Lage, meinen Puls ganz genau vorauszusagen. Die r 2 für die amphipod Daten ist viel niedriger, bei 0,21 bedeutet dies, dass obwohl theres eine signifikante Beziehung zwischen weiblichem Gewicht und Anzahl der Eier, zu wissen, das Gewicht einer Frau würde nicht zulassen, dass Sie die Anzahl der Eier, die sie hatte mit sehr viel vorauszusagen Genauigkeit. Das letzte Ziel ist es, die Gleichung einer Linie, die durch die Wolke der Punkte geht zu bestimmen. Die Gleichung einer Gerade ist in der Form Y 770 abX gegeben. Wobei Y 770 der Wert von Y ist, der für einen gegebenen Wert von X vorhergesagt wird. A ist der Y-Schnittpunkt (der Wert von Y, wenn X Null ist) und b die Steigung der Linie (die Änderung in Y 770 für eine Änderung in X einer Einheit). Für die Übungsdaten ist die Gleichung Y 77063.53.75 X dies sagt voraus, dass mein Impuls 63.5 sein würde, wenn die Geschwindigkeit der elliptischen Maschine 0 km / h beträgt, und mein Puls würde um 3,75 Schläge pro Minute für jede Geschwindigkeit von 1 km / h steigen . Dies ist wahrscheinlich der nützlichste Teil der Analyse für die Übung Daten, wenn ich mit einem bestimmten Maß an Aufwand, wie durch Pulsfrequenz gemessen ausüben wollte, könnte ich die Gleichung verwenden, um die Geschwindigkeit vorherzusagen, die ich verwenden sollte. Für die Amphipoddaten ist die Gleichung Y 77012.71.60 X. Für die meisten Zwecke, nur zu wissen, dass größere Amphipoden haben deutlich mehr Eier (die Hypothese-Test) wäre interessanter als die Gleichung der Linie wissen, aber es hängt von den Zielen Ihres Experiments. Verwenden Sie die Korrelationslinear-Regression, wenn Sie zwei Messvariablen haben. Wie Nahrungsaufnahme und Gewicht, Arzneimitteldosierung und Blutdruck, Lufttemperatur und Stoffwechselrate, etc. Theres auch eine Nenngröße, die die beiden Messungen in Paaren zusammenhält, wie der Name eines einzelnen Organismus, experimentelle Studie oder Ort. Ich bin nicht bewusst, dass jeder andere betrachtet diese nominale Variable Teil der Korrelation und Regression sein, und seine nicht etwas, was Sie wissen müssen, um den Wert von mdashyou könnte darauf hinweisen, dass eine Messung der Nahrungsaufnahme und Gewichtsmessung kam von der gleichen Ratte, indem sie beide Zahlen auf der Dieselbe Linie, ohne jemals der Ratte einen Namen zu geben. Aus diesem Grund nennen wir es eine versteckte Nennvariable. Der Hauptwert der versteckten nominalen Variablen ist, dass sie mir die Decke Aussage machen, dass jedes Mal, wenn Sie zwei oder mehr Messungen aus einer einzigen Person (Organismus, experimentelle Studie, Ort, etc.), die Identität dieser Person ist eine nominal Variable, wenn Sie nur eine Messung von einem Individuum haben, ist das Individuum keine Nenngröße. Ich denke, diese Regel hilft Klärung der Unterschied zwischen One-Way-, Zwei-Wege-, und verschachtelte Anova. Wenn die Idee der versteckten nominalen Variablen in der Regression Sie verwirrt, können Sie es ignorieren. Es gibt drei Hauptziele für Korrelation und Regression in der Biologie. Eine ist zu sehen, ob zwei Messgrößen einander zugeordnet sind, ob eine Variable zunimmt, die andere dazu neigt, sich zu erhöhen (oder zu verringern). Sie fassen diesen Assoziationstest mit dem P-Wert zusammen. In einigen Fällen geht es um eine biologische Frage nach Ursache-Wirkungs-Beziehungen. Eine signifikante Assoziation bedeutet, dass unterschiedliche Werte der unabhängigen Variablen unterschiedliche Werte der abhängigen Variablen verursachen. Ein Beispiel wäre, die Menschen verschiedenen Mengen eines Medikaments und Messung ihrer Blutdruck. Die Null-Hypothese wäre, dass es keine Beziehung zwischen der Menge des Medikaments und dem Blutdruck. Wenn Sie die Nullhypothese zurückweisen, würden Sie schließen, dass die Menge des Arzneimittels die Änderungen im Blutdruck verursacht. In dieser Art von Experiment, bestimmen Sie die Werte der unabhängigen Variable zum Beispiel, entscheiden Sie, welche Dosis des Medikaments jede Person bekommt. Die Übungs - und Pulsdaten sind ein Beispiel dafür, da ich die Geschwindigkeit auf der elliptischen Maschine bestimmt und dann die Wirkung auf die Pulsfrequenz gemessen habe. In anderen Fällen möchten Sie wissen, ob zwei Variablen zugeordnet sind, ohne zwangsläufig eine Ursache-Wirkungs-Beziehung herbeizuführen. In diesem Fall werden Sie nicht bestimmen, entweder Variable vor der Zeit beide sind natürlich variabel und Sie beide messen. Wenn Sie eine Assoziation finden, schlussfolgern Sie, dass Variation in X Variationen in Y verursachen kann. Oder Variation in Y zu einer Variation in X führen kann. Oder Variation in einem anderen Faktor können sowohl Y als auch X beeinflussen. Ein Beispiel wäre die Messung der Menge eines bestimmten Proteins auf der Oberfläche von einigen Zellen und dem pH-Wert des Cytoplasmas dieser Zellen. Wenn die Proteinmenge und der pH-Wert korreliert sind, kann es sein, dass die Proteinmenge den internen pH-Wert beeinflusst oder der interne pH-Wert die Proteinmenge beeinflusst oder einen anderen Faktor, wie die Sauerstoffkonzentration, sowohl die Proteinkonzentration als auch den pH-Wert beeinflusst. Häufig schlägt eine signifikante Korrelation weitere Experimente vor, um eine Ursache-Wirkungs-Beziehung zu testen, wenn die Proteinkonzentration und der pH-Wert korreliert sind. Vielleicht möchten Sie die Proteinkonzentration manipulieren und sehen, was mit dem pH-Wert passiert, oder manipuliert den pH-Wert und mißt das Protein oder manipuliert Sauerstoff Was mit beiden geschieht. Die Amphipoddaten sind ein weiteres Beispiel dafür, dass größere Amphipodien mehr Eier haben können, oder dass mit mehr Eiern die Mütter größer werden (vielleicht essen sie mehr, wenn sie mehr Eier tragen) oder einen dritten Faktor (Alter Nahrungsaufnahme ) Macht Amphipoden größer und hat mehr Eier. Das zweite Ziel der Korrelation und Regression ist die Schätzung der Stärke der Beziehung zwischen zwei Variablen, mit anderen Worten, wie nah die Punkte auf der Grafik auf die Regressionsgeraden sind. Sie fassen dies mit dem r 2 - Wert zusammen. Zum Beispiel können Sie sagen, Sie haben gemessene Lufttemperatur (von 15 bis 30degC) und Laufgeschwindigkeit in der Eidechse Agama savignyi. Und Sie finden eine signifikante Beziehung: wärmer Eidechsen schneller laufen. Sie wollen auch wissen, ob theres eine enge Beziehung (high r 2), die Ihnen sagen, dass die Lufttemperatur ist der wichtigste Faktor für die laufende Geschwindigkeit, wenn die r 2 niedrig ist, würde es Ihnen sagen, dass andere Faktoren neben Lufttemperatur sind auch Wichtig, und Sie könnten mehr Experimente machen, um sie zu suchen. Sie könnten auch wissen wollen, wie die r 2 für Agama savignyi verglichen mit denen für andere Eidechsenarten, oder für Agama savignyi unter verschiedenen Bedingungen. Das dritte Ziel der Korrelation und Regression ist die Gleichung einer Linie, die passt die Wolke der Punkte. Sie können dann diese Gleichung für die Vorhersage verwenden. Zum Beispiel, wenn Sie freiwillige Diäten mit 500 bis 2500 mg Salz pro Tag gegeben haben und dann ihren Blutdruck gemessen haben, könnten Sie die Regressionsgerade verwenden, um zu schätzen, wie viel ein Blutdruck des Patienten untergehen würde, wenn sie 500 mg weniger Salz aßen pro Tag. Korrelation und lineare Regression Die für die Hypothesentests verwendeten statistischen Werkzeuge, die die Nähe der Assoziation beschreiben und eine Linie durch die Punkte zeichnen, sind Korrelation und lineare Regression. Leider finde ich die Beschreibungen von Korrelation und Regression in den meisten Lehrbüchern unnötig verwirrend. Einige Statistiken Lehrbücher haben Korrelation und lineare Regression in separaten Kapiteln, und es scheint, als ob es immer wichtig ist, eine Technik oder die andere auswählen. Ich denke, das überbetont die Unterschiede zwischen ihnen. Andere Bücher verschmelzen Korrelation und Regression zusammen, ohne wirklich zu erklären, was der Unterschied ist. Es gibt echte Unterschiede zwischen Korrelation und lineare Regression, aber zum Glück, sie in der Regel keine Rolle. Korrelation und lineare Regression geben den gleichen P-Wert für den Hypothesentest, und für die meisten biologischen Experimente, das ist das einzige wirklich wichtige Ergebnis. Also, wenn youre vor allem in der P-Wert interessiert, müssen Sie nicht über den Unterschied zwischen Korrelation und Regression Sorgen. In den meisten Fällen, Ill behandeln Korrelation und lineare Regression als verschiedene Aspekte einer einzigen Analyse, und Sie können Korrelation lineare Regression zu einem einzigen statistischen Test zu betrachten. Seien Sie sich bewusst, dass mein Ansatz ist wahrscheinlich anders, was youll anderswo sehen. Der Hauptunterschied zwischen Korrelation und Regression besteht darin, dass Sie bei der Korrelation beide Messgrößen nach dem Zufallsprinzip aus einer Population auswerten, während Sie bei der Regression die Werte der unabhängigen (X) Variablen wählen. Zum Beispiel können Sie sagen, Sie sind ein forensischer Anthropologe, interessiert an der Beziehung zwischen Fußlänge und Körpergröße beim Menschen. Wenn Sie einen abgetrennten Fuß an einem Tatort finden, möchten Sie in der Lage sein, die Höhe der Person abzuschätzen, von der es abgetrennt wurde. Sie messen die Fußlänge und Körperhöhe einer Stichprobe von Menschen, erhalten einen signifikanten P-Wert und berechnen r 2 auf 0,72. Dies ist eine Korrelation, weil Sie Messungen der beiden Variablen auf eine zufällige Stichprobe von Menschen. Die r 2 ist daher eine aussagekräftige Schätzung der Stärke der Assoziation zwischen Fußlänge und Körpergröße beim Menschen, und Sie können sie mit anderen r 2 - Werten vergleichen. Sie können sehen, ob die r 2 für Füße und Höhe ist größer oder kleiner als die r 2 für Hände und Höhe, zum Beispiel. Als Beispiel für die Regression, können Sie sagen, youve entschieden forensische Anthropologie ist zu eklig, so dass jetzt Sie interessiert sich für die Wirkung der Lufttemperatur auf Laufgeschwindigkeit in Eidechsen. Sie stellen einige Eidechsen in einer Temperaturkammer, die auf 10degC eingestellt ist, jagen sie und notieren, wie schnell sie laufen. Sie tun das gleiche für 10 verschiedene Temperaturen, bis zu 30degC. Dies ist eine Regression, denn Sie haben entschieden, welche Temperaturen verwendet werden sollen. Youll wahrscheinlich noch zu berechnen wollen r 2. nur weil hohe Werte sind beeindruckender. Aber seine nicht eine sehr sinnvolle Schätzung von etwas über Eidechsen. Das liegt daran, dass r 2 von den Werten der unabhängigen Variablen abhängt, die Sie gewählt haben. Für die exakt gleiche Beziehung zwischen Temperatur und Laufgeschwindigkeit würde ein engerer Temperaturbereich ein kleineres r 2 ergeben. Hier sind drei Graphen, die einige simulierte Daten mit der gleichen Streuung (Standardabweichung) von Y-Werten bei jedem Wert von X zeigen. Wie Sie sehen können, wird mit einem schmaleren Bereich von X-Werten die r 2 kleiner. Wenn Sie ein anderes Experiment auf Feuchtigkeit und Laufgeschwindigkeit in Ihrem Eidechsen und bekam einen niedrigeren r 2. Sie konnte nicht sagen, dass Laufgeschwindigkeit stärker mit Temperatur als mit Feuchtigkeit verbunden ist, wenn Sie eine engere Auswahl an Temperaturen und eine breite Palette von Feuchtigkeiten gewählt hatte , Feuchtigkeit könnte eine größere r 2 als Temperatur haben. Simulierte Daten, die den Effekt des Bereichs von X-Werten auf dem r 2 zeigen. Für genau dieselben Daten ergibt die Messung von Y über einen kleineren Bereich von X-Werten eine kleinere r 2. Wenn Sie versuchen, jedes Experiment entweder als Regression oder Korrelation zu klassifizieren, Youll schnell feststellen, dass es viele Experimente, die nicht klar fallen in eine Kategorie. Zum Beispiel können Sie sagen, dass Sie Lufttemperatur und Laufgeschwindigkeit in Eidechsen zu studieren. Sie gehen in die Wüste jeden Samstag für die acht Monate des Jahres, dass Ihre Eidechsen aktiv sind, messen die Lufttemperatur, dann jagen Eidechsen und messen ihre Geschwindigkeit. Sie havent bewusst die Lufttemperatur gewählt, nur eine Probe der natürlichen Variation der Lufttemperatur genommen, so ist es eine Korrelation Aber Sie haben nicht eine Probe des gesamten Jahres, nur diese acht Monate, und Sie didnt Pick Tage zufällig, nur Samstags, so ist es eine Regression Wenn Sie hauptsächlich daran interessiert sind, den P-Wert für Hypothesentests zu verwenden, um zu sehen, ob es eine Beziehung zwischen den beiden Variablen gibt, spielt es keine Rolle, ob Sie den statistischen Test eine Regression oder Korrelation aufrufen. Wenn Sie daran interessiert sind, die Stärke der Beziehung (r 2) mit der Stärke anderer Beziehungen zu vergleichen, tun Sie eine Korrelation und sollten Ihr Experiment so gestalten, dass Sie X und Y auf einer zufälligen Stichprobe von Individuen messen. Wenn Sie die X-Werte bestimmen, bevor Sie das Experiment durchführen, tun Sie eine Regression und sollten die r 2 als eine Schätzung von etwas Allgemeinem über die Bevölkerung, die Sie beobachtet haben, interpretieren. Korrelation und Verursachung Sie haben vermutlich Leute gehört, die Sie warnen, Korrelation bedeutet nicht Verursachung. Dies ist eine Erinnerung, dass, wenn Sie natürliche Variation in zwei Variablen Probe sind, gibt es auch natürliche Variation in einer Menge von möglichen confounding Variablen, die die Assoziation zwischen A und B verursachen könnte. Also, wenn Sie eine signifikante Assoziation zwischen A und B sehen Bedeutet nicht notwendigerweise, dass Variation in A Ursachen Variation in B kann es einige andere Variable, C, die sich auf beide von ihnen. Zum Beispiel können Sie sagen, Sie ging zu einer Grundschule, gefunden 100 zufällige Studenten, gemessen, wie lange es dauerte, um ihre Schuhe zu binden, und messen die Länge ihrer Daumen. Im hübsches sicheres youd finden eine starke Verbindung zwischen den zwei Variablen, mit den längeren Daumen, die mit kürzeren Schuh-bindenden Zeiten verbunden sind. Ich bin sicher, Sie könnten kommen mit einer klugen, anspruchsvolle biomechanische Erklärung für warum mit längeren Daumen verursacht Kinder, um ihre Schuhe schneller, komplett mit Kraft-Vektoren und Momentwinkel und Gleichungen und 3D-Modellierung zu binden. Allerdings wäre das dumm Ihre Probe von 100 zufälligen Studenten hat natürliche Variation in einer anderen Variable, Alter und ältere Schüler haben größere Daumen und nehmen weniger Zeit, um ihre Schuhe zu binden. So was, wenn Sie sicherstellen, dass alle Ihre Studenten Freiwilligen sind im gleichen Alter, und Sie sehen noch eine signifikante Beziehung zwischen Schuh-bindende Zeit und Daumenlänge würde, dass die Korrelation implizieren Ursache Nein, weil zu denken, warum verschiedene Kinder haben unterschiedliche Länge Daumen. Einige Menschen sind genetisch größer als andere können die Gene, die die Gesamtgröße beeinflussen auch Feinmotorik beeinflussen Vielleicht. Nährstoffe beeinflussen die Größe, und Familien-Ökonomie beeinflusst Ernährung können arme Kinder haben kleinere Daumen aufgrund schlechter Ernährung, und haben auch langsamere Schuh-bindende Zeiten, weil ihre Eltern waren zu überarbeitet, um sie zu leihen, ihre Schuhe zu binden, oder weil sie so arm waren, dass sie Erhielten nicht ihre ersten Schuhe, bis sie Schulalter erreichten Vielleicht. Ich weiß nicht, vielleicht einige Kinder verbringen so viel Zeit saugt ihren Daumen, dass der Daumen tatsächlich länger wird, und mit einem schleimigen Spieß bedeckt Daumen macht es schwieriger, einen Schnürsenkel zu greifen. Aber es gäbe mehrere plausible Erklärungen für die Assoziation zwischen Daumenlänge und Schuh-bindende Zeit, und es wäre falsch zu schließen, Längerer Daumen machen Sie Ihre Schuhe schneller zu binden. Da es möglich ist, an mehrere Erklärungen für eine Assoziation zwischen zwei Variablen zu denken, heißt das, dass Sie zynisch singen sollten. Korrelation bedeutet keine Verursachung und verzichtet auf Korrelationsstudien der natürlich vorkommenden Variation. Zum einen lässt sich eine Korrelation zwischen zwei Variablen beobachten Theres etwas interessantes gehend, etwas, das Sie weiter untersuchen möchten. Zum Beispiel haben Studien eine Korrelation zwischen dem Essen von mehr frischem Obst und Gemüse und niedrigerem Blutdruck gezeigt. Es ist möglich, dass die Korrelation ist, weil Menschen mit mehr Geld, die frisches Obst und Gemüse leisten können, haben weniger stressige Leben als arme Menschen, und es ist der Unterschied in Stress, der Blutdruck beeinflusst seine auch möglich, dass Menschen, die über ihre Gesundheit besorgt sind, zu essen Mehr Obst und Gemüse und Bewegung mehr, und seine die Ausübung, die den Blutdruck beeinflusst. Aber die Korrelation deutet darauf hin, dass das Essen von Obst und Gemüse kann den Blutdruck senken. Sie wollen diese Hypothese weiter untersuchen, indem Sie die Korrelation in Stichproben von Personen mit ähnlichem sozioökonomischen Status und Trainingsniveaus durch statistisches Kontrollieren möglicher verstörender Variablen unter Verwendung von Techniken wie multipler Regression durch Tierversuche oder durch die Bereitstellung von menschlichen Freiwilligen kontrollierten Diäten suchen Verschiedene Mengen an Obst und Gemüse. Wenn Ihre ursprüngliche Korrelationsstudie keine Verbindung des Blutdrucks mit Obst und Gemüse gefunden hatte, hätten Sie keinen Grund, diese weiteren Studien durchzuführen. Korrelation kann nicht verursachen Kausalität, aber es sagt Ihnen, dass etwas Interessantes los ist. In einer Regressionsstudie legen Sie die Werte der unabhängigen Variablen fest und steuern oder randomisieren Sie alle möglichen Variablen. Zum Beispiel, wenn Sie untersuchen die Beziehung zwischen Blutdruck und Obst-und Gemüsekonsum, könnten Sie denken, dass es das Kalium in den Früchten und Gemüse, die Blutdruck senkt. Sie könnten dies zu untersuchen, indem sie eine Reihe von Freiwilligen des gleichen Geschlechts, Alter und sozioökonomischen Status. Sie wählen zufällig die Kaliumaufnahme für jede Person, geben ihnen die entsprechenden Pillen, haben sie die Pillen für einen Monat nehmen, dann messen ihren Blutdruck. Alle möglichen verwirrenden Variablen sind entweder kontrolliert (Alter, Geschlecht, Einkommen) oder randomisiert (Beruf, psychischer Stress, Bewegung, Diät), so dass, wenn Sie eine Assoziation zwischen Kaliumaufnahme und Blutdruck sehen, die einzige mögliche Ursache wäre, dass Kalium Beeinflusst den Blutdruck. Wenn Sie also Ihr Experiment richtig entworfen haben, bedeutet Regression Verursachung. Null-Hypothese Die Nullhypothese der Korrelations-linearen Regression ist, dass die Steigung der Best-Fit-Linie gleich Null ist, mit anderen Worten, wenn die X-Variable größer wird, wird die zugehörige Y-Variable weder höher noch niedriger. Es ist auch möglich, die Nullhypothese zu testen, dass der Y-Wert, der durch die Regressionsgleichung für einen gegebenen Wert von X vorhergesagt wird, gleich einer theoretischen Erwartung ist, die am häufigsten die Nullhypothese testen würde, dass der Y-Intercept 0 ist In biologischen Experimenten, so dass ich es hier zu decken, aber bewusst sein, dass es möglich ist. Wenn Sie eine Ursache-Wirkungs-Beziehung testen, wird die Variable, die die Beziehung verursacht, als unabhängige Variable bezeichnet, und Sie zeichnen sie auf der X-Achse auf, während der Effekt die abhängige Variable genannt wird und Sie auf der Y-Achse aufzeichnen. In einigen Experimenten stellen Sie die unabhängige Variable auf Werte, die Sie zum Beispiel gewählt haben, wenn youre Interesse an der Wirkung der Temperatur auf rufende Rate von Fröschen, könnten Sie Frösche in Temperaturkammern setzen auf 10degC, 15degC, 20degC, etc. In anderen Fälle, beide Variablen natürliche Variation, aber jede Ursache-Wirkung-Verhältnis wäre in einer Weise, wenn Sie messen die Lufttemperatur und Frosch Calling Rate an einem Teich an mehreren verschiedenen Nächten, sowohl die Lufttemperatur und die rufende Rate wäre natürlich angezeigt Variation, aber wenn theres eine Ursache-Wirkungs-Beziehung, seine Temperatur beeinflussen Anrufrate die Rate, mit der Frösche rufen nicht die Lufttemperatur beeinflussen. Manchmal ist es nicht klar, welches die unabhängige Variable ist und welche abhängig ist, auch wenn man glaubt, dass es eine Ursache-Wirkungs-Beziehung geben kann. ZB wenn Sie prüfen, ob Salzgehalt in der Nahrung den Blutdruck beeinflußt, konnten Sie den Salzgehalt der Völkerdiäten und ihren Blutdruck messen und Salzgehalt als die unabhängige Variable behandeln. Aber wenn Sie die Idee, dass hoher Blutdruck die Menschen nach hohen Salz-Salben verlangen Tests sind, machen Sie Blutdruck die unabhängige Variable und Salzzufuhr die abhängige Variable. Manchmal sind Sie nicht auf der Suche nach einer Ursache-und-Wirkung-Beziehung überhaupt, Sie wollen nur sehen, ob zwei Variablen verwandt sind. Wenn Sie zum Beispiel die Bewegungsfreiheit der Hüfte und der Schulter messen, versuchen Sie nicht zu sehen, ob flexiblere Hüften zu flexibleren Schultern führen oder flexiblere Schultern zu mehr flexiblen Hüften führen, sondern nur versuchen, zu sehen, ob Menschen Mit mehr flexible Hüften neigen auch dazu, mehr flexible Schultern haben, vermutlich aufgrund einiger Faktoren (Alter, Ernährung, Bewegung, Genetik), die insgesamt Flexibilität beeinflusst. In diesem Fall wäre es völlig willkürlich, welche Variable Sie auf die X-Achse setzen und welche Sie auf die Y-Achse setzen. Glücklicherweise werden der P-Wert und der r 2 nicht davon beeinflusst, welche Variable Sie das X aufrufen und die Sie Y yull erhalten, erhalten Sie mathematisch identische Werte in beide Richtungen. Die kleinste Quadrate-Regressionslinie hängt davon ab, welche Variable das X ist und welche Y ist, die beiden Zeilen können ganz unterschiedlich sein, wenn die r 2 niedrig ist. Wenn Sie wirklich nur daran interessiert, ob die beiden Variablen Covary, und Sie sind nicht versuchen, eine Ursache-Wirkung-Beziehung, sollten Sie vermeiden, die Verwendung der linearen Regressionsgeraden als Dekoration in Ihrem Diagramm. Forscher in einigen Feldern setzen traditionell die unabhängige Variable auf die Y-Achse. Ozeanographen z. B. oft auf der Y-Achse (mit 0 oben) und einer Variable, die direkt oder indirekt durch Tiefe, wie Chlorophyllkonzentration, auf der X-Achse beeinflusst wird. Ich würde dies empfehlen, es sei denn, es ist eine sehr starke Tradition in Ihrem Bereich, da es zu Verwirrung über die Variable youre unter Berücksichtigung der unabhängigen Variable in einer linearen Regression führen könnte. Funktionsweise Der Graph zeigt die Datenpunkte (Punkte), die lineare Regressionsgerade (dicke Linie) und die Datenpunkte, die mit dem Punkt auf der Regressionsgeraden mit demselben X-Wert (dünne Linien) verbunden sind. Die Regressionslinie ist die Linie, die die Summe der quadrierten vertikalen Abstände zwischen den Punkten und der Linie minimiert. Regressionslinie Lineare Regression findet die Linie, die am besten zu den Datenpunkten passt. Es gibt tatsächlich eine Reihe von verschiedenen Definitionen der besten Passform, und daher eine Reihe von verschiedenen Methoden der linearen Regression, die etwas andere Linien passen. Bei weitem die häufigste ist die gewöhnliche Kleinste-Quadrate-Regression, wenn jemand nur die kleinste Quadrate-Regression oder lineare Regression oder Regression sagt, bedeuten sie die gewöhnliche kleinste Quadrate-Regression. In der gewöhnlichen Kleinste-Quadrate-Regression wird die beste Passung als die Linie definiert, die die quadrierten vertikalen Abstände zwischen den Datenpunkten und der Linie minimiert. Für einen Datenpunkt mit einem X-Wert von X 1 und einem Y-Wert von Y 1. Wird die Differenz zwischen Y 1 und Y 770 1 (der vorhergesagte Wert von Y bei X 1) berechnet und dann quadriert. Diese quadrierte Abweichung wird für jeden Datenpunkt berechnet, und die Summe dieser quadrierten Abweichungen misst, wie gut eine Linie die Daten passt. Die Regressionslinie ist diejenige, für die diese Summe von quadrierten Abweichungen am kleinsten ist. Ill lassen Sie die Mathematik, die verwendet wird, um die Steigung zu finden und Intercept der am besten passende Linie youre ein Biologe und haben mehr wichtige Dinge zu denken. Die Gleichung für die Regressionsgerade wird üblicherweise als Y 770 a bX ausgedrückt. Wobei a der Y-Schnittpunkt und b die Steigung ist. Sobald Sie a und b kennen. Können Sie diese Gleichung verwenden, um den Wert von Y für einen gegebenen Wert von X vorherzusagen. Zum Beispiel ist die Gleichung für die Herzfrequenz-Geschwindigkeit-Experiment Rate 63,3573,749fach Geschwindigkeit. Ich könnte dies verwenden, um zu prognostizieren, dass für eine Geschwindigkeit von 10 km / h, würde meine Herzfrequenz 100.8 bpm. Sie sollten diese Art von Vorhersage innerhalb des Bereichs von X-Werten, die in dem ursprünglichen Datensatz (Interpolation) gefunden werden, durchführen. Vorhersagen von Y-Werten außerhalb des Bereichs der beobachteten Werte (Extrapolation) ist manchmal interessant, aber es kann leicht zu lächerlichen Ergebnissen führen, wenn Sie weit außerhalb der beobachteten Bereich von X gehen. In der Frosch-Beispiel unten, könnten Sie mathematisch vorhersagen, dass die Inter-Call-Intervall wäre etwa 16 Sekunden bei minus40degC. Tatsächlich wäre das Intervallintervall bei dieser Temperatur unendlich, da alle Frösche fest gefroren wären. Manchmal möchten Sie X von Y vorhersagen. Die gebräuchlichste Verwendung ist die Konstruktion einer Standardkurve. Zum Beispiel können Sie einige trockenes Protein wiegen und es in Wasser auflösen, um Lösungen zu bilden, die 0, 100, 200 hellip 1000 microg Protein pro ml enthalten, einige Reagenzien hinzufügen, die Farbe in Gegenwart von Protein drehen und dann die Lichtabsorption jeder Lösung messen Unter Verwendung eines Spektrophotometers. Dann, wenn Sie eine Lösung mit einer unbekannten Konzentration von Protein haben, fügen Sie die Reagenzien, messen die Lichtabsorption und schätzen die Konzentration des Proteins in der Lösung. Es gibt zwei gängige Methoden, um X aus Y zu schätzen. Eine Möglichkeit ist, die übliche Regression mit X als unabhängige Variable und Y als abhängige Variable für das Proteinbeispiel zu tun. Sie haben Protein als unabhängige Variable und Extinktion als abhängige Variable. Sie erhalten die übliche Gleichung Y 770 a bX. Dann neu anordnen, um für X zu lösen, so dass Sie X 770 (Yminusa) b. Dies wird als klassische Schätzung bezeichnet. Das andere Verfahren besteht darin, lineare Regression mit Y als unabhängige Variable und X als abhängige Variable, auch als Regressing X auf Y bekannt, durchzuführen. Für die Protein-Standardkurve würden Sie eine Regression mit Extinktion als X-Variable und Proteinkonzentration als Y-Variable durchführen. Sie verwenden dann diese Regressionsgleichung, um unbekannte Werte von X von Y vorherzusagen. Dies wird als inverse Schätzung bezeichnet. Mehrere Simulationsstudien deuten darauf hin, dass die inverse Schätzung eine genauere Schätzung von X liefert als die klassische Schätzung (Krutchkoff 1967, Krutchkoff 1969, Lwin und Maritz 1982, Kannan et al., 2007). Jedoch bevorzugen einige Statistiker die klassische Schätzung (Sokal und Rohlf 1995, S. 491-493). Wenn r 2 hoch ist (die Punkte sind nahe der Regressionsgeraden), ist die Differenz zwischen klassischer Schätzung und inverser Schätzung ziemlich klein. Wenn Sie eine Standardkurve für etwas wie Proteinkonzentration konstruieren, ist das r 2 normalerweise so hoch, dass der Unterschied zwischen klassischer und umgekehrter Schätzung trivial sein wird. Aber die beiden Methoden können ganz verschiedene Schätzungen von X geben, wenn die ursprünglichen Punkte um die Regressionslinie gestreut wurden. Für die Trainings - und Pulsdaten mit einem r 2 von 0,98 prognostiziert die klassische Schätzung, dass, um einen Puls von 100 bpm zu erhalten, ich mit 9,8 kph laufen sollte, während die inverse Schätzung eine Geschwindigkeit von 9,7 kph prognostiziert. Die Amphipodaten haben eine viel niedrigere r 2 von 0,25, so dass der Unterschied zwischen den beiden Techniken größer ist, wenn ich wissen möchte, welche Größe amphipod 30 Eier haben würde, die klassische Schätzung prognostiziert eine Größe von 10,8 mg, während inverse Schätzung prognostiziert eine Größe von 7,5 mg. Manchmal ist Ihr Ziel beim Zeichnen einer Regressionslinie nicht voraussagen Y aus X. Oder Vorhersagen von X aus Y. Sondern die Beziehung zwischen zwei Variablen beschreibt. Wenn eine Variable die unabhängige Variable und die andere die abhängige Variable ist, sollten Sie die kleinste Quadrate-Regressionslinie verwenden. Wenn es jedoch keine Ursache-Wirkungs-Beziehung zwischen den beiden Variablen gibt, ist die Regressionsgerade der kleinsten Quadrate unangemessen. Dies liegt daran, dass Sie zwei verschiedene Zeilen erhalten, abhängig davon, welche Variable Sie wählen, um die unabhängige Variable zu sein. Wenn Sie zum Beispiel die Beziehung zwischen der Daumenlänge und der großen Zehelänge beschreiben möchten, erhalten Sie eine Zeile, wenn Sie die Daumenlänge der unabhängigen Variablen und eine andere Linie angeben, wenn Sie die grosse Länge der unabhängigen Variablen gemacht haben. Die Wahl wäre völlig willkürlich, da es keinen Grund zu der Annahme gibt, dass die Daumenlänge eine Variation der Großzehenlänge verursacht oder umgekehrt. A number of different lines have been proposed to describe the relationship between two variables with a symmetrical relationship (where neither is the independent variable). The most common method is reduced major axis regression (also known as standard major axis regression or geometric mean regression). It gives a line that is intermediate in slope between the least-squares regression line of Y on X and the least-squares regression line of X on Y in fact, the slope of the reduced major axis line is the geometric mean of the two least-squares regression lines. While reduced major axis regression gives a line that is in some ways a better description of the symmetrical relationship between two variables (McArdle 2003, Smith 2009), you should keep two things in mind. One is that you shouldnt use the reduced major axis line for predicting values of X from Y . or Y from X you should still use least-squares regression for prediction. The other thing to know is that you cannot test the null hypothesis that the slope of the reduced major axis line is zero, because it is mathematically impossible to have a reduced major axis slope that is exactly zero. Even if your graph shows a reduced major axis line, your P value is the test of the null that the least-square regression line has a slope of zero. Coefficient of determination ( r 2 ) Three relationships with the same slope, same intercept, and different amounts of scatter around the best-fit line. The coefficient of determination, or r 2. expresses the strength of the relationship between the X and Y variables. It is the proportion of the variation in the Y variable that is explained by the variation in the X variable. r 2 can vary from 0 to 1 values near 1 mean the Y values fall almost right on the regression line, while values near 0 mean there is very little relationship between X and Y . As you can see, regressions can have a small r 2 and not look like theres any relationship, yet they still might have a slope thats significantly different from zero. To illustrate the meaning of r 2. here are six pairs of X and Y values: If you didnt know anything about the X value and were told to guess what a Y value was, your best guess would be the mean Y for this example, the mean Y is 10. The squared deviates of the Y values from their mean is the total sum of squares, familiar from analysis of variance. The vertical lines on the left graph below show the deviates from the mean the first point has a deviate of 8, so its squared deviate is 64, etc. The total sum of squares for these numbers is 641111625108. Deviations from the mean Y and from the regression line. Deviations from the mean Y and from the regression line. If you did know the X value and were told to guess what a Y value was, youd calculate the regression equation and use it. The regression equation for these numbers is Y 7702.02861.5429 X . so for the first X value youd predict a Y value of 2.02861.5429times13.5715, etc. The vertical lines on the right graph above show the deviates of the actual Y values from the predicted Y 770 values. As you can see, most of the points are closer to the regression line than they are to the overall mean. Squaring these deviates and taking the sum gives us the regression sum of squares, which for these numbers is 10.8. Deviate from predicted Regression sum of squares: The regression sum of squares is 10.8, which is 90 smaller than the total sum of squares (108). This difference between the two sums of squares, expressed as a fraction of the total sum of squares, is the definition of r 2. In this case we would say that r 2 0.90 the X variable explains 90 of the variation in the Y variable. The r 2 value is formally known as the coefficient of determination, although it is usually just called r 2. The square root of r 2. with a negative sign if the slope is negative, is the Pearson product-moment correlation coefficient, r . or just correlation coefficient. You can use either r or r 2 to describe the strength of the association between two variables. I prefer r 2. because it is used more often in my area of biology, it has a more understandable meaning (the proportional difference between total sum of squares and regression sum of squares), and it doesnt have those annoying negative values. You should become familiar with the literature in your field and use whichever measure is most common. One situation where r is more useful is if you have done linear regressioncorrelation for multiple sets of samples, with some having positive slopes and some having negative slopes, and you want to know whether the mean correlation coefficient is significantly different from zero see McDonald and Dunn (2013) for an application of this idea. Test statistic The test statistic for a linear regression is t s radic d. f.times r 2 radic (1minus r 2 )nbsp. It gets larger as the degrees of freedom ( n minus2) get larger or the r 2 gets larger. Under the null hypothesis, the test statistic is t - distributed with n minus2 degrees of freedom. When reporting the results of a linear regression, most people just give the r 2 and degrees of freedom, not the t s value. Anyone who really needs the t s value can calculate it from the r 2 and degrees of freedom. For the heart ratendashspeed data, the r 2 is 0.976 and there are 9 degrees of freedom, so the t s - statistic is 19.2. It is significant ( P 1.3times10 -8 ). Some people square t s and get an F-statistic with 1 degree of freedom in the numerator and n minus2 degrees of freedom in the denominator. The resulting P value is mathematically identical to that calculated with t s . Because the P value is a function of both the r 2 and the sample size, you should not use the P value as a measure of the strength of association. If the correlation of A and B has a smaller P value than the correlation of A and C, it doesnt necessarily mean that A and B have a stronger association it could just be that the data set for the AndashB experiment was larger. If you want to compare the strength of association of different data sets, you should use r or r 2 . Assumptions Normality and homoscedasticity. Two assumptions, similar to those for anova, are that for any value of X . the Y values will be normally distributed and they will be homoscedastic. Although you will rarely have enough data to test these assumptions, they are often violated. Fortunately, numerous simulation studies have shown that regression and correlation are quite robust to deviations from normality this means that even if one or both of the variables are non-normal, the P value will be less than 0.05 about 5 of the time if the null hypothesis is true (Edgell and Noon 1984, and references therein). So in general, you can use linear regressioncorrelation without worrying about non-normality. Sometimes youll see a regression or correlation that looks like it may be significant due to one or two points being extreme on both the x and y axes. In this case, you may want to use Spearmans rank correlation. which reduces the influence of extreme values, or you may want to find a data transformation that makes the data look more normal. Another approach would be analyze the data without the extreme values, and report the results with or without them outlying points your life will be easier if the results are similar with or without them. When there is a significant regression or correlation, X values with higher mean Y values will often have higher standard deviations of Y as well. This happens because the standard deviation is often a constant proportion of the mean. For example, people who are 1.5 meters tall might have a mean weight of 50 kg and a standard deviation of 10 kg, while people who are 2 meters tall might have a mean weight of 100 kg and a standard deviation of 20 kg. When the standard deviation of Y is proportional to the mean, you can make the data be homoscedastic with a log transformation of the Y variable. Linearity. Linear regression and correlation assume that the data fit a straight line. If you look at the data and the relationship looks curved, you can try different data transformations of the X . the Y . or both, and see which makes the relationship straight. Of course, its best if you choose a data transformation before you analyze your data. You can choose a data transformation beforehand based on previous data youve collected, or based on the data transformation that others in your field use for your kind of data. A data transformation will often straighten out a J-shaped curve. If your curve looks U-shaped, S-shaped, or something more complicated, a data transformation wont turn it into a straight line. In that case, youll have to use curvilinear regression . Independence. Linear regression and correlation assume that the data points are independent of each other, meaning that the value of one data point does not depend on the value of any other data point. The most common violation of this assumption in regression and correlation is in time series data, where some Y variable has been measured at different times. For example, biologists have counted the number of moose on Isle Royale, a large island in Lake Superior, every year. Moose live a long time, so the number of moose in one year is not independent of the number of moose in the previous year, it is highly dependent on it if the number of moose in one year is high, the number in the next year will probably be pretty high, and if the number of moose is low one year, the number will probably be low the next year as well. This kind of non-independence, or autocorrelation, can give you a significant regression or correlation much more often than 5 of the time, even when the null hypothesis of no relationship between time and Y is true. If both X and Y are time seriesmdashfor example, you analyze the number of wolves and the number of moose on Isle Royalemdashyou can also get a significant relationship between them much too often. To illustrate how easy it is to fool yourself with time-series data, I tested the correlation between the number of moose on Isle Royale in the winter and the number of strikeouts thrown by major league baseball teams the following season, using data for 2004ndash2013. I did this separately for each baseball team, so there were 30 statistical tests. Im pretty sure the null hypothesis is true (I cant think of anything that would affect both moose abundance in the winter and strikeouts the following summer), so with 30 baseball teams, youd expect the P value to be less than 0.05 for 5 of the teams, or about one or two. Instead, the P value is significant for 7 teams, which means that if you were stupid enough to test the correlation of moose numbers and strikeouts by your favorite team, youd have almost a 1-in-4 chance of convincing yourself there was a relationship between the two. Some of the correlations look pretty good: strikeout numbers by the Cleveland team and moose numbers have an r 2 of 0.70 and a P value of 0.002: Number of moose on Isle Royale and strikeouts by the Cleveland baseball team, showing how easy it is to get an impressive-looking correlation from two autocorrelated data sets. There are special statistical tests for time-series data. I will not cover them here if you need to use them, see how other people in your field have analyzed data similar to yours, then find out more about the methods they used. Spatial autocorrelation is another source of non-independence. This occurs when you measure a variable at locations that are close enough together that nearby locations will tend to have similar values. For example, if you want to know whether the abundance of dandelions is associated with the among of phosphate in the soil, you might mark a bunch of 1 m 2 squares in a field, count the number of dandelions in each quadrat, and measure the phosphate concentration in the soil of each quadrat. However, both dandelion abundance and phosphate concentration are likely to be spatially autocorrelated if one quadrat has a lot of dandelions, its neighboring quadrats will also have a lot of dandelions, for reasons that may have nothing to do with phosphate. Similarly, soil composition changes gradually across most areas, so a quadrat with low phosphate will probably be close to other quadrats that are low in phosphate. It would be easy to find a significant correlation between dandelion abundance and phosphate concentration, even if there is no real relationship. If you need to learn about spatial autocorrelation in ecology, Dale and Fortin (2009) is a good place to start. Another area where spatial autocorrelation is a problem is image analysis. For example, if you label one protein green and another protein red, then look at the amount of red and green protein in different parts of a cell, the high level of autocorrelation between neighboring pixels makes it very easy to find a correlation between the amount of red and green protein, even if there is no true relationship. See McDonald and Dunn (2013) for a solution to this problem. A common observation in ecology is that species diversity decreases as you get further from the equator. To see whether this pattern could be seen on a small scale, I used data from the Audubon Societys Christmas Bird Count. in which birders try to count all the birds in a 15-mile diameter area during one winter day. I looked at the total number of species seen in each area on the Delmarva Peninsula during the 2005 count. Latitude and number of bird species are the two measurement variables location is the hidden nominal variable. Latitude and bird species on the Delmarva Peninsula. The result is r 2 0.214, with 15 d. f. so the P value is 0.061. The trend is in the expected direction, but it is not quite significant. The equation of the regression line is number of speciesminus12.039timeslatitude585.14. Even if it were significant, I dont know what youd do with the equation I suppose you could extrapolate and use it to predict that above the 49th parallel, there would be fewer than zero bird species. Gayou (1984) measured the intervals between male mating calls in the gray tree frog, Hyla versicolor . at different temperatures. The regression line is intervalminus0.205timestemperature8.36, and it is highly significant ( r 2 0.29, 45 d. f. P 9times10 minus5 ). You could rearrange the equation, temperature(intervalminus8.36)(minus0.205), measure the interval between frog mating calls, and estimate the air temperature. Or you could buy a thermometer. Goheen et al. (2003) captured 14 female northern grasshopper mice ( Onchomys leucogaster ) in north-central Kansas, measured the body length, and counted the number of offspring. There are two measurement variables, body length and number of offspring, and the authors were interested in whether larger body size causes an increase in the number of offspring, so they did a linear regression. The results are significant: r 2 0.46, 12 d. f. P 0.008. The equation of the regression line is offspring0.108timeslengthminus7.88. Graphing the results In a spreadsheet, you show the results of a regression on a scatter graph, with the independent variable on the X axis. To add the regression line to the graph, finish making the graph, then select the graph and go to the Chart menu. Choose Add Trendline and choose the straight line. If you want to show the regression line extending beyond the observed range of X values, choose Options and adjust the Forecast numbers until you get the line you want. Similar tests Sometimes it is not clear whether an experiment includes one measurement variable and two nominal variables, and should be analyzed with a two-way anova or paired t ndashtest, or includes two measurement variables and one hidden nominal variable, and should be analyzed with correlation and regression. In that case, your choice of test is determined by the biological question youre interested in. For example, lets say youve measured the range of motion of the right shoulder and left shoulder of a bunch of right-handed people. If your question is Is there an association between the range of motion of peoples right and left shouldersmdashdo people with more flexible right shoulders also tend to have more flexible left shoulders, youd treat right shoulder range-of-motion and left shoulder range-of-motion as two different measurement variables, and individual as one hidden nominal variable, and analyze with correlation and regression. If your question is Is the right shoulder more flexible than the left shoulder, youd treat range of motion as one measurement variable, right vs. left as one nominal variable, individual as one nominal variable, and youd analyze with two-way anova or a paired t ndashtest. If the dependent variable is a percentage, such as percentage of people who have heart attacks on different doses of a drug, its really a nominal variable, not a measurement. Each individual observation is a value of the nominal variable (heart attack or no heart attack) the percentage is not really a single observation, its a way of summarizing a bunch of observations. One approach for percentage data is to arcsine transform the percentages and analyze with correlation and linear regression. Youll see this in the literature, and its not horrible, but its better to analyze using logistic regression. If the relationship between the two measurement variables is best described by a curved line, not a straight one, one possibility is to try different transformations on one or both of the variables. The other option is to use curvilinear regression. If one or both of your variables are ranked variables, not measurement, you should use Spearman rank correlation. Some people recommend Spearman rank correlation when the assumptions of linear regressioncorrelation (normality and homoscedasticity) are not met, but Im not aware of any research demonstrating that Spearman is really better in this situation. To compare the slopes or intercepts of two or more regression lines to each other, use ancova. If you have more than two measurement variables, use multiple regression. How to do the test Spreadsheet I have put together a spreadsheet to do linear regression and correlation on up to 1000 pairs of observations. It provides the following: The regression coefficient (the slope of the regression line). The Y intercept. With the slope and the intercept, you have the equation for the regression line: Y 770 a bX . where a is the y intercept and b is the slope. The r 2 value. The degrees of freedom. There are n minus2 degrees of freedom in a regression, where n is the number of observations. The P value. This gives you the probability of finding a slope that is as large or larger than the observed slope, under the null hypothesis that the true slope is 0. A Y estimator and an X estimator. This enables you to enter a value of X and find the corresponding value of Y on the best-fit line, or vice-versa. This would be useful for constructing standard curves, such as used in protein assays for example. Web pages that will perform linear regression are here, here, and here. They all require you to enter each number individually, and thus are inconvenient for large data sets. This web page does linear regression and lets you paste in a set of numbers, which is more convenient for large data sets. You can use either PROC GLM or PROC REG for a simple linear regression since PROC REG is also used for multiple regression, you might as well learn to use it. In the MODEL statement, you give the Y variable first, then the X variable after the equals sign. Heres an example using the bird data from above. The output includes an analysis of variance table. Dont be alarmed by this if you dig down into the math, regression is just another variety of anova. Below the anova table are the r 2. slope, intercept, and P value: These results indicate an r 2 of 0.21, intercept of 585.1, a slope of minus12.04, and a P value of 0.061. The GPower program will calculate the sample size needed for a regressioncorrelation. The effect size is the absolute value of the correlation coefficient r if you have r 2. take the positive square root of it. Choose t tests from the Test family menu and Correlation: Point biserial model from the Statistical test menu. Enter the r value you hope to see, your alpha (usually 0.05) and your power (usually 0.80 or 0.90). For example, lets say you want to look for a relationship between calling rate and temperature in the barking tree frog, Hyla gratiosa . Gayou (1984) found an r 2 of 0.29 in another frog species, H. versicolor . so you decide you want to be able to detect an r 2 of 0.25 or more. The square root of 0.25 is 0.5, so you enter 0.5 for Effect size, 0.05 for alpha, and 0.8 for power. The result is 26 observations of temperature and frog calling rate. Its important to note that the distribution of X variables, in this case air temperatures, should be the same for the proposed study as for the pilot study the sample size calculation was based on. Gayou (1984) measured frog calling rate at temperatures that were fairly evenly distributed from 10degC to 34degC. If you looked at a narrower range of temperatures, youd need a lot more observations to detect the same kind of relationship. References Dale, M. R.T. and M.-J. Fortin. 2009. Spatial autocorrelation and statistical tests: some solutions. Journal of Agricultural, Biological and Environmental Statistics 14: 188-206. Edgell, S. E. and S. M. Noon. 1984. Effect of violation of normality on the t ndashtest of the correlation coefficient. Psychological Bulletin 95: 576-583. Gayou, D. C. 1984. Effects of temperature on the mating call of Hyla versicolor. Copeia 1984: 733-738. Goheen, J. R. G. A. Kaufman, and D. W. Kaufman. 2003. Effect of body size on reproductive characteristics of the northern grasshopper mouse in north-central Kansas. Southwestern Naturalist 48: 427-431. Kannan, N. J. P. Keating, and R. L. Mason. 2007. A comparison of classical and inverse estimators in the calibration problem. Communications in Statistics: Theory and Methods 36: 83-95. Krutchkoff, R. G. 1967. Classical and inverse regression methods of calibration. Technometrics 9: 425-439. Krutchkoff, R. G. 1969. Classical and inverse regression methods of calibration in extrapolation. Technometrics 11: 605-608. Lwin, T. and J. S. Maritz. 1982. An analysis of the linear-calibration controversy from the perspective of compound estimation. Technometrics 24: 235-242. McCardle, B. H. 2003. Lines, models, and errors: Regression in the field. Limnology and Oceanography 48: 1363-1366. McDonald, J. H. 1989. Selection component analysis of the Mpi locus in the amphipod Platorchestia platensis . Heredity 62: 243-249. McDonald, J. H. and K. W. Dunn. 2013. Statistical tests for measures of colocalization in biological microscopy. Journal of Microscopy 252: 295-302. Smith, R. J. 2009. Use and misuse of the reduced major axis for line-fitting. American Journal of Physical Anthropology 140: 476-486. Sokal, R. R. and F. J. Rohlf. 1995. Biometry. W. H. Freeman, New York. This page was last revised July 20, 2015. Its address is biostathandbooklinearregression. html. It may be cited as: McDonald, J. H. 2014. Handbook of Biological Statistics (3rd ed.). Sparky House Publishing, Baltimore, Maryland. This web page contains the content of pages 190-208 in the printed version . copy2014 by John H. McDonald. You can probably do what you want with this content see the permissions page for details.

No comments:

Post a Comment