32.1 Einführung

Lineare Regressionen und allgemein Regressionsverfahren sowie induktive Methoden unterscheiden sich von der deskriptiven Analyse vor allem durch den Modellbezug. Regressionen beziehen sich immer auf ein zu Grunde gelegtes Modell und versuchen zu verifizieren, ob die Modellannahmen zutreffen oder abgelehnt werden können, und/oder die Effekte zu quantifizieren. Auf den vorliegenden Seiten möchte ich Ihnen weder die Details der einzelnen Verfahren noch die Berechnungsschritte nahebringen, sondern graphisch die Idee hinter der Regression vermitteln und auf einige Aspekte zum Verständis eingehen.

In den meisten Fällen, und bei der linearen Regression lässt sich das am einfachsten zeigen, geht es darum, eine Kurve (Modell) an einen bestehenden Datensatz bestmöglich anzupassen. Bei der einfachen linearen Regression ist das eine Gerade, die Sie auch einen per Hand an eine Datenwolke anpassen und dann mit dem Regressionsergebnis und dem wahren Zusammenhang vergleichen können. Daneben geben wir als Vergleich auch die echten und geschätzten Parameterwerte an, damit auch hier der Vergleich sichtbar wird.

Wir beginnen damit, den wahren Zusammenhang und die Generierung der Daten vorzustellen. Beides ist bei realen Problemen natürlich nicht bekannt und wird auf den Folgeseiten deshalb ausgeblendet.

In unserem Beispiel ist der wahre Zusammenhang:

y = α + βx + ϵ,

wobei die Steigung (linearer Zusammenhang) mit β, die Konstante mit α und der Messfehler oder Störterm mit ϵ bezeichnet werden. D.h. bei jedem Datenpunkt (Messwert) hängt der y-Wert vom x-Wert ab, indem gilt y ~ α + βx und zusätzlich kommt noch der Störterm ϵ dazu. Der x-Wert wird also mit β multipliziert und α sowie ein zufälliger Störterm ϵ werden dazu addiert.

Wenn Sie den Button "Daten generieren und schätzen" anklicken, werden Daten nach Ihren Modellparametern erzeugt und die linearen Regressionsschätzung durchgeführt.

Sie können nun die Parameter hier einstellen α und β

Die Anzahl der Datenpunkte n ist aus technischen Gründen auf 2000 begrenzt. Höhere Zahlen würden zu einem zu hohen Rechenaufwand führen und sollten mit dafür geeigneten Statistikprogrammen verwendet werden. Für den hier angestrebten didaktischen Effekt erscheint uns eine Anzahl von 200 ausreichend.

Anzahl der Datenpunkte:

In dieser Graphik werden um die gegebene Kurve herum zufällig Datenpunkte erzeugt. Dazu werden zufällig x-Werte ermittelt, der zugehörige y-Wert nach dem wahren Modell errechnet und dann ein zufälliger Fehlerterm addiert. Danach wird eine Gerade geschätzt, die möglichst gut in die Datenwolke passt. Sowohl der Typ des wahren Zusammenhangs (hier Gerade) als auch die Art des Fehlers (hier unabhängig vom x-Wert und additiv) können auch anders gestaltet werden. Die Anpassung erfolgt hier über die Methode der kleinsten Quadrate, auf die wir auf der entsprechenden Seite eingehen.

  wahr geschätzt
α
β

In unserem Beispiel hängt der Zusammnhang von x und y Werten von zwei Parametern ab, dem y-Achsenabschnitt α (Niveau) und der Steigung β. Die unten stehende Tabelle vergleicht die wahren Werte und die Schätzwerte.

Wenn Sie als wahren Wert für β0 = 0 eingeben, so ist der wahre Zusammenhang der, dass der y-Wert nicht mehr vom x-Wert abhängt. Die Gerade verläuft flach (horizontal). Der geschätzte Wert sollte dann auch nahe bei 0 liegen. In Statistik lernen Sie dann, dass sich der Schätzwert für β nicht signifikant von 0 unterscheidet, d.h. aufgrund der Datenlage können Sie nicht sicher sagen, ob das wahre β0 = 0 ist (y hängt nicht von x ab), oder doch leicht von 0 verschieden ist (y hängt von x ab). Näheres dazu erfahren Sie aber in Ihrer Statistik Vorlesung.


(c) by Christian Bauer
Prof. Dr. Christian Bauer
Lehrstuhl für monetäre Ökonomik
Universität Trier
D-54296 Trier
Tel.: +49 (0)651/201-2743
E-mail: Bauer@uni-trier.de
URL: http://www.cbauer.de