Hallo an alle!Kurze Vorstellung: Ich arbeite seit Anfang '07 bei einem mittelständischen Unternehmen und beschäftige mich mit der Prozessmodellierung und -optimierung, also auch zwangsweise mit Regressionsanalysen u.Ä.
Bin über Barbara Bredner hierher gefunden und möchte mich gerne hier in Sachen statistische Analysen austauschen..
***
Hab gerade ein Projekt, bei dem es um Verbesserung der Qualität einer Legierung geht, wo ich mich bemühe, die Zusammenhänge zwischen den Elementen und dazugehörigen 'Bausteinen' zu finden. Ich benutze zur Zeit die Statistik-Software Minitab, mit der ich auch meine Schwierigkeiten habe..
Wenn ich ein GLM anwenden, muss ich auch die Kovariaten wählen. Meine Frage wär jetzt: Was genau ein Kovariate bewirkt? Gehe ich richtig in der Annahme, dass eine Kovariate eine Variable ist, von der vermutet, dass sie einen Einfluss hat?!? - sie wird also nicht fest gehalten, oder?!
Das andere Problem ist, dass ich zwar einen hohen Bestimmtheitsmaß erhalte:
'S = 0,00190187 R-Qd = 99,99% R-Qd(kor) = 99,94%'
aber keine Gleichung, sonder das hier:
'+ Rangfolgenfehler aufgrund von leeren Zellen, nicht balancierter Schachtelung,
Kollinearität oder einer nicht deklarierten Kovariaten. Die Ergebnisse
werden nicht gespeichert, und es wird keine weitere Analyse ausgeführt.'
Was kann da machen? Muss ich jetzt zu Fuß alle Kollinearitäten ausschließen oder verstehe ich was falsch mit den Kovariaten?
Wäre sehr dankbar für alle Vorschläge und Erklärungen!!!
Gruß, ***
geändert von - TB on 11/12/2007 15:59:02
Antworten:
Hallo!
Ist nicht böse gemeint, aber mir wäre schon geholfen, wenn mir einer erklärt um was es hier eigentlich geht.
Gruß
Michael
Hallo zusammen,
@***: Herzlich willkommen hier :-)
Ich werd Deine Frage nachher detailliert beantworten.
@Michael: Statistik bzw. statistische Modelle ;-) Etwas ausführlicher findest Du das hier (und auch die Verbindung zum QM):
http://www.quality-management.com/forum/
topic.asp?TOPIC_ID=2216&FORUM_ID=14&CAT_ID=1&Topic_Title=
F%E4higkeiten+bei+Stanzprozessen&Forum_Title=Qualit%E4tsmanagement+ISO+9001%3A2000
GLM = Generell linear model / Allgemeines lineares Modell
z. B. so etwas wie eine Ausgleichsgerade.
Wie gesagt, später mehr.
Viele Grüße
Barbara
_____________________________________
Ich fühle, dass Kleinigkeiten die Summe des Lebens ausmachen.
(Charles Dickens, Schriftsteller)
geändert von - Barbara on 26/04/2007 09:29:53
geändert von - Barbara on 26/04/2007 09:30:16
geändert von - Barbara on 01/10/2007 21:19:37
Hallo ***,
weil heute so schönes Wetter ist, versuche ich das mit den Kovariaten mal an dem Beispiel "Trinkmenge" zu erklären.
Wir alle trinken mehr, wenn es wärmer ist. Die Trinkmenge ist also von der Temperatur abhängig (je wärmer, desto mehr trinken).
Natürlich ist es nicht die Temperatur alleine, von der unsere Trinkmenge abhängt. Da gibt es auch noch einige andere Sachen wie z. B. Sport machen (ja/nein), Klimaanlage vorhanden (ja/nein, da dann die Luft trockener ist), usw.
Ein statistisches Modell für die Trinkmenge ist dann:
Trinkmenge ~ Temperatur + Sport + Klimaanlage
mit
Zielgröße: Trinkmenge
Einflussgrößen:
*Temperatur (variabel)
*Sport (attributiv)
*Klimaanlage (attributiv)
Das statistische Modell liefert eine Erklärung der Zielgröße (Trinkmenge) durch die Einflussgrößen (Temperatur, Sport, Klimaanlage). Allgemein heißen solche Modelle ALM (allgemeine lineare Modelle) oder GLM (general linear model - auf englisch).
Unterschieden werden dann je nach Merkmalsart der Einflussgrößen (nur attributiv / nur variabel / einige attributiv, einige variabel) verschiedene Arten von statistischen Modellen für variable Zielgrößen:
+nur attributive Einflussgrößen: Varianzanalyse (ANOVA, Streuungszerlegung)
+nur variable Einflussgrößen:
Regressionsanalyse (mit einer Einflussgröße: Ausgleichsgerade)
+sowohl attributive als auch variable Einflussgrößen:
Kovarianzmodell
(wie bei dem Trinkmengen-Modell)
Als Kovariaten werden die variablen Einflussgrößen bezeichnet (wie oben die Temperatur z. B.) Bei der Trinkmenge ist es klar, dass die Temperatur einen Einfluss hat. Natürlich können auch andere Einflussgrößen wie Alter, Aufenthaltsdauer im Freien, usw. eine Rolle spielen.
(Es gibt natürlich noch eine ganze Menge anderer Modelle, z. B. für attributive Zielgrößen oder nicht-lineare Zusammenhänge.)
In einem statistischen Modell werden erstmal alle möglicherweise wichtigen Einflussgrößen aufgenommen. Nach der Modellierung zeigt mir dann das Ergebnis, ob eine Einflussgröße einen wichtigen Effekt auf die Zielgröße hat oder ob sie unwichtig für dieses Modell ist.
Ich muss also weder von vorneherein wissen, ob eine Einflussgröße wichtig ist, noch muss ich sie konstant halten. Im Gegenteil: unterschiedliche Werte bedeuten mehr Information und damit eine bessere Entscheidungsbasis dafür, ob eine Einflussgröße wichtig oder unwichtig ist.
Die Fehlermeldung ("+Rangfolgefehler...") taucht in Minitab auf, wenn zu wenig Informationen vorhanden sind. Z. B. brauchst Du, um Aussagen über Kombinationen von attributiven Merkmalen machen zu können, auch Werte für diese Kombination.
Bei der Trinkmenge kann ich nur dann für Menschen mit Sport:ja und Klimaanlage:ja eine Trinkmenge schätzen, wenn ich in meinen Messwerten auch Menschen hatte, die Sport:ja und Klimaanlage:ja hatten und für die ich die Trinkmenge habe.
Wenn ich viele attributive Einflussgrößen habe, steigt natürlich die Zahl der Kombinationsmöglichkeiten ziemlich schnell:
Sport: 2 Möglichkeiten
Klimaanlage: 2 Möglichkeiten
d. h. insgesamt 2*2=4 Kombinationen möglich
wenn dazu noch
Haustier: ja/nein (2 Möglichkeiten)
körperlich anstrengender Beruf: nein / ein bisschen / stark (3 Möglichkeiten)
Arbeitszeit: Tag/Nacht (2 Möglichkeiten)
dazu kommen, dann hab ich
2*2 *2*3*2 = 48 Kombinationsmöglichkeiten
und für jede brauche ich Messwerte, sonst ist das mit dem Schätzen schwierig.
Ein unschönes Ergebnis ist neben der Rangfolge-Fehlermeldung, dass die Anpassungsgüte R-Qd /R² zwar sehr hoch zu sein scheint, aber keine p-Werte ausgegeben werden, weil das Modell zusammengeklappt ist.
JedeM, der bis hierher gelesen hat, erstmal einen Orden fürs Durchhalten ;-) Denn jetzt kommt die entscheidende Frage:
WOFÜR ZUM HENKER BRAUCH ICH DAS?
TB hat ja schon geschrieben, dass es bei ihnen für die Prozessmodellierung und -optimierung eingesetzt wird. Also zwei bekannte QM-Themen. Wo ist da die Statistik?
Stellt Euch vor, Ihr seid Hersteller von Mineralwasser. Damit Ihr Eure Produktion gut planen könnt, braucht Ihr vernünftige (haltbare, zuverlässige) Schätzungen für den Verbrauch von Mineralwasser. Natürlich könnt Ihr hingehen und aus den Absatzzahlen vom Vorjahr schätzen, wie viel produziert werden muss, damit die Nachfrage befriedigt wird.
Das Problem dabei ist, dass Ihr beim Vorjahr eventuell (so wie im Moment) völlig andere Temperaturverhältnisse habt. Damit sind die Vorjahreszahlen (oder auch die Vorjahres- und Vorvorjahres- und...) nur ein grober Anhaltspunkt für den Bedarf, weil sie z. B. die aktuelle Temperatur vernachlässigen.
Um meine Vorhersagen zum Absatz zu verbessern, kann ich deshalb ein statistisches Modell einsetzen, dass mir die Abhängigkeit zwischen der Temperatur und dem Mineralwasserbedarf angibt. Und schwupps brauche ich weniger Lager, weil ich genauer weiß, wie viel voraussichtlich verbraucht werden wird und kann auch besser die Menschen im Werk einsetzen usw.
Natürlich funktionieren die statistischen Modelle auch für alle anderen Prozesse wie die Metallverarbeitung bei TB. Ein mögliches Modell ist:
Festigkeit ~ Anteil Stoff1 + Anteil Stoff2 + Druck + Zeit + Linie(A/B)
Damit kann ich dann prüfen, ob die Stoff-Anteile einen Einfluss auf die Festigkeit haben und/oder der Druck und/oder die Zeit und/oder die Linie. Und das Ganze mit den vorhandenen Daten (aus BDE, MDE) ohne weitere Versuche machen zu müssen, an der Maschine etwas ändern zu müssen oder am Prozess.
Viele Grüße
Barbara
_____________________________________
Ich fühle, dass Kleinigkeiten die Summe des Lebens ausmachen.
(Charles Dickens, Schriftsteller)
geändert von - Barbara on 01/10/2007 21:19:58
Hallo Barbara!
Vielen vielen vielen Dank für die sehr gute und detaillierte Erklärung!!! Da solltest Du einen Orden für bekommen! :-)
Zu meinem Beispiel noch kurze Erläuterung: Es geht also um eine neue Legierung. Die Einflußgrößen sind verschiedene chem. Elemente (also variabel). Die Zielgröße ist die Thermospannung (bzw. die Summe der Abstände Ist-Soll, von der natürlich erwartet wird, dass sie minimal sein sollte, nennen wir sie 'T'). Eine direkte lineare Abhängigkeit gibt es zwischen der Ziel- und den Einflußgrößen nicht, das weiß man.
-> Regressionsanalyse mit unterschiedlichen Abhängigkeiten muss her - also: x*x, x*y usw.
Wenn ich bei GLM in Minitab 'T' als Antwort eingebe, kann ich aber leider solche Wechselwirkungen wie x*y nicht eingeben, also bsp. Element1*T.. Mache ich grundsätzlich was falsch?
Ich habe zur Sicherheit (auch wenn ich weiß, dass ich da kein gutes Modell bekomme) alle x(i)*x(j) ausprobiert, mit Angabe von x(i) als Kovariate - da wird ein Modell geliefert, allerdings, wie erwartet, mit sehr kleiner Anpassunggüte und p-Werte von einzelnen x waren auch alle >0,05.. Muss also die Wechselwirkungen betrachten, aber wie?!..
Danke im Voraus.
Gruß, ***
geändert von - TB on 11/12/2007 16:01:20
Hallo ***,
sage mal, wie viele Datensätze hast Du denn?
Ein Modell kann natürlich auch dann zusammklappen, wenn es nicht genug "Futter" hat. Wenn Du z. B. versuchst, mit 10 Werten für die Zielgröße T fünf Einflussgrößen und alle Wechselwirkungen zwischen den Einflussgrößen zu schätzen, dann ist das zu wenig Datenmaterial und gibt dann die Rangfolge-Fehlermeldung.
Wechselwirkungen kannst Du nur zwischen den Einflussgrößen definieren (den Effekt der Einflussgröße auf die Zielgröße T liefert ja das Modell). Ni*T kann deshalb nicht funktionieren.
Wenn Du eine Wechselwirkung in ein Modell aufnehmen willst, braucht Du auf jeden Fall auch die einzelnen Einflussgrößen, d. h. für eine Wechselwirkung zwischen Ni und Fe wird in das Modell aufgenommen:
Zielgröße (Antwort): T
Modell: Ni Fe Ni*Fe
Kovariaten: Ni Fe
Wenn das Modell trotz vielen Daten und richtigen Angaben immer noch zusammenklappt, würde ich noch mal nachschauen, wie die einzelnen Ziel- und Einflussgrößen sich zueinander verhalten und ob da Strukturen zu erkennen sind und wie die aussehen (Ausreißer, lineare und nicht-lineare Zusammenhänge, usw.)
(In Minitab: Grafiken -> Matrixplot -> Einfach -> Grafikvariablen: alle variablen Ziel- und Einflussgrößen eintragen)
Wenn es nur variable Einflussgrößen sind, kann auch eine schrittweise Regression helfen, bei der nach und nach die wichtigen Einflussgrößen aus allen Einflussgrößen gewählt werden, bis das Modell nicht mehr besser wird.
(in Minitab: Statistik -> Regression -> Schrittweise, Antwort: T, Prädiktoren: alle Einflussgrößen, hier können keine Wechselwirkungen berücksichtigt werden)
Ich hoffe, das hilft Dir erstmal weiter.
Viele Grüße
Barbara
_____________________________________
Ich fühle, dass Kleinigkeiten die Summe des Lebens ausmachen.
(Charles Dickens, Schriftsteller)
geändert von - Barbara on 01/10/2007 21:20:24
Hallo Barbara,
danke für die schnelle Antwort.
Zunächst mal waren es ca. 100 Datensätze. Nachdem ich aber alle Ausreißer rausgeschmiessen hab, sind es nur noch 58 da geblieben.. eigentlich nicht zu wenig, aber auch nicht gerade viel..
Das Modell habe ich genauso wie Du es geschrieben hast aufgebaut:
Antwort: T
Modell: Element1 Element2 Element1*Element2
Kovariaten: Element1 Element2
natürlich mit viel mehr Elementen (=Einflußgrößen) drin.
R-Qd ist ca. 10% und die p-Werte bei allen Einflußgrößen sehen nicht gerade gut aus..
Habe auch im Vorfeld mit Matrixplot fast alle möglichen Variablen gegeneinander visuell untersucht - es gibt keine erkennbaren Zusammenhänge - das ist ja das Problem.. :-( Muss also alle möglichen Kombinationen von Elementen noch durchgehen, um ganz sicher zu sein.
Vielen Dank für den Tipp der schrittweise Regression - werde es demnächst ausprobieren.
Gruß, ***
geändert von - TB on 11/12/2007 16:03:19
Hallo ***,
versuch mal was passiert, wenn Du die gleichen Modelle mit den unbereinigten Daten rechnest. Eventuell hast Du dadurch, dass Du die Ausreißer rausgenommen hast, die interessanten Strukturen eliminiert (wenn das nur etwas ungewöhnliche Werte waren).
Das wäre dann in etwas so, als würdest Du versuchen, aus einem glatt gehobelten Brett die Form des Baumes abzulesen - echt schwierig.
Viele Grüße
Barbara
_____________________________________
Ich fühle, dass Kleinigkeiten die Summe des Lebens ausmachen.
(Charles Dickens, Schriftsteller)
geändert von - Barbara on 01/10/2007 21:20:45
Vielen Dank für den Tipp, Barbara, werde den auf jeden Fall nutzen!
Wünsche schönes Wochenende!
(hab die nächsten fünf Tage frei und versuche nicht zuviel an Regression zu denken, damit ich keine Depression bekomme.. ;-) )
Gruß, ***
geändert von - TB on 11/12/2007 16:04:47
Hallo Barbara,
hab inzwischen die Regression und auch GLM mit Wechselwirkungen mit allen vorhandenen Daten (mit Ausreißern) durchgeführt und leider keine besseren Ergebnisse damit erzielt.. Bei Regression erhalte ich R-Qd/R² bei ca. 35%, bei GLM sieht die Güte vielversprechend aus (mehr als 80%), es wird aber keine weitere Analyse durchgeführt (wie davor auch).. Die schrittweise Regression liefert auch einen Bestimmtheitsmaß von ca. 35%, was natürlich ungenügend ist.
Vielleicht habe ich die sogenannte 'Distanz' (das ist meine Antwort 'T') nicht besonders clever berechnet!? Die Situation ist die: Ich habe Messungen für eine Probe in 50°C-Schritten (also 20 Messungen pro Probe). Diese Messungen sind also IST-Messungen, die ich mit den vorgegebenen SOLL-Messungen vergleichen kann. Ich habe mich dafür entschieden, die 'Distanz', also den Abstand zwischen jeder Messung und dem Soll-Wert zu berechnen und diese dann über alle Temperaturen zu summieren (wird ja das Minimum, also 0, angestrebt) - war das erste, was mir so in den Sinn gekommen ist. Also Summe_i=1:20(Betrag_i(IST_i-SOLL_i)). Hast Du (oder jemand anderer aus dem Forum) vielleicht eine Idee, wie man das geschickter macht? Diese Kennzahl soll ja dann von den Analysen der Legierung (chem.Elemente) abhängen, was sie aber leider nicht macht.. P.S. Die Wurzel aus der summe der quadrierten Abstände habe ich auch schon untersucht - kein Erfolg..
Bin für jede Hilfe dankbar!
Gruß, ***
geändert von - TB on 11/12/2007 16:06:47
Hallo ***,
hm, ich würd eine andere Zielgröße wählen. Wenn Du den Absolutbetrag Ist-Soll verwendest, gibt es zwei Schwierigkeiten:
1. Es fehlt die Richtung der Abweichung.
2. Du machst mit einem (statistischen) Prozessmodell ein Modell für das IST. Das SOLL ist das, was Du später mit Deinen Modellparametern vergleichen kannst.
Was mir noch nicht so ganz klar ist, ist die Zusammenfassung der 20 Werte. Die Abmessungen ändern sich doch eventuell bei den Temperaturen (würd ich jetzt mal behaupten, ohne Euren Prozess zu kennen). Insofern ist die Zusammenfassung ein ziemlicher Informationsverlust, weil so die Abhängigkeit von der Temperatur verloren geht.
Ich würde deshalb die Temperatur als Einflussgröße mit in das Modell aufnehmen und erstmal gar nichts zusammenfassen. Das hat den Vorteil, dass dann auch mehr Messwerte (=Informationen) vorhanden sind.
Wenn Du die Werte zusammenfassen willst/musst, würde ich verschiedene Kennzahlen versuchen, z. B. Mittelwert, Median, Minimum oder Maximum. Und erst wenn das Prozessmodell funktioniert, würde ich mir das Zusammenspiel der einzelnen Parameter anschauen und mit dem gewünschten Ziel / Soll vergleichen.
Viele Grüße
Barbara
_____________________________________
Ich fühle, dass Kleinigkeiten die Summe des Lebens ausmachen.
(Charles Dickens, Schriftsteller)
geändert von - Barbara on 01/10/2007 21:21:15
Hallo Barbara,
ich glaube, ich gehe die ganze Sache irgendwie falsch an..
<<Zitat: Wenn Du den Absolutbetrag Ist-Soll verwendest, gibt es zwei Schwierigkeiten:
1. Es fehlt die Richtung der Abweichung. 2. Du machst mit einem (statistischen) Prozessmodell ein Modell für das IST.>>
Die Richtung der Abweichung ist in diesem Fall nicht von Bedeutung. Mich interessierte nur, wie weit sozusagen die Abweichung vordringt, also wie schlecht Ist von Soll entfernt ist.
Du hast Recht, die Abmessungen ändern sich mit der Temperatur, sie steigen.
<<Zitat: Ich würde deshalb die Temperatur als Einflussgröße mit in das Modell aufnehmen und erstmal gar nichts zusammenfassen. Das hat den Vorteil, dass dann auch mehr Messwerte (=Informationen) vorhanden sind.>>
Meinst Du jetzt die Temperatur oder die Messwerte für die jeweilige Temperatur?
Wie würde das denn aussehen: Zielgröße: ?? Einflussgrößen: ?? Irgendwie bin ich total verwirrt.. Die Messungen M_j kann man doch nicht wirklich alle in das Modell reinnehmen, oder? - die hängen voneinander ab, aber leider nicht von den Elementen, was aber gesucht wird.
Zusammenfassen muss ich die Messwerte nicht, hatte aber davon ausgegangen, dass das sinnvoll wäre..
Mit Dank im Voraus!
Gruß, ***
geändert von - TB on 11/12/2007 16:08:31
Hallo ***,
tut mir leid, dass ich erst jetzt antworte; ich hab letzte Woche einige andere Menschen mit Statistik beglückt ;-)
Also:
Ein statistisches Prozess-Modell (ich kürz das mal mit SPM ab) liefert ein Modell für das IST. (Schau mal in die Unterlagen, das IST sind die orangenen Punkte.) Wenn das Modell funktioniert (Stichworte: R² & Residuen), dann kannst Du das Ergebnis mit den Anforderungen (SOLL) vergleichen.
Vorher im SPM schon das SOLL mit aufzunehmen heißt, dass die Messwerte direkt etwas mit den Anforderungen zu tun haben. Die sollen das zwar, aber ob das tatsächlich so ist, weißt Du ja vorher noch nicht. Deshalb kommt der IST-SOLL-Vergleich erst *nachdem* das SPM steht.
Die erste Frage in der Modellierung ist deshalb:
Was beeinflusst meine Zielgröße Thermospannung?
(Die SOLL-Vorgaben beeinflussen die Werte der Zielgröße NICHT!)
Einflüsse sind bei Dir die Temperatur und die chemischen Elemente (und vielleicht noch andere Größen).
Testet Ihr eigentlich standardmäßig in dem von Dir genannten Temperaturbereich oder ist das auch der spätere Einsatzbereich (von der Temperatur aus gesehen)? Was ist eigentlich genau interessant bei der Zielgröße: Der Wert bei einer bestimmten (festen) Temperatur oder auch die Veränderungen der Thermospannung in Abhängigkeit von der Temperatur?
Erst wenn das SPM funktioniert, kommt die zweite Frage:
Wie sieht der Vergleich von IST (SPM) und SOLL aus? Mit welchen Werten (der chemischen Elemente) komme ich meinem Sollwert am nächsten?
Viele Grüße
Barbara
_____________________________________
Ich fühle, dass Kleinigkeiten die Summe des Lebens ausmachen.
(Charles Dickens, Schriftsteller)
geändert von - Barbara on 01/10/2007 21:21:38
Hallo Barbara,
Du hast natürlich Recht, dass man SOLL erst nachdem das Modell steht anwenden sollte (bzw. mit SOLL vergleichen). Ich hatte aber gar keine Muster in den Daten, sodass ich mir gedacht hab, über SOLL einen Ausweg zu finden, und dabei war diese 'Distanz' das erste, was mir in den Sinn kam.. Ok, muss diese Idee wohl ganz aufgeben.. :-)
Die Zielgröße 'T' hängt von den einzelnen chem. Elementen (chem. Analyse) und der Temperatur ab.
Wichtig ist, wie Du richtig vermutest, der Kurvenverlauf. Also sind sowohl der Wert bei einer bestimmten Temperatur als auch die Veränderung von T interessant. Wie ich das in ein Modell reinbekommen soll, weiß ich leider nicht..
Das größte Problem ist, dass man kein Muster in den Daten erkennen kann.. Wir überlegen schon, ob wir Versuchsplanung machen, um an brauchbare Daten zu kommen - das werden aber nur wenige Daten sein (ca. 50).
Danke für sehr gute Erläuterungen!
Gruß, ***
geändert von - TB on 11/12/2007 16:10:08
Hallo ***,
das schöne bei SPMs ist ja gerade, dass die nicht-sichtbaren Strukturen gefunden werden können. Schon wenn Du versuchst, den Einfluss von zwei Einflussgrößen auf eine Zielgröße grafisch zu erfassen, hast Du kaum noch eine Chance, weil sich ein 3D-Streudiagramm in so viele 2D-Ansichten drehen lässt, dass Du einiges an Glück brauchst, um da den Zusammenhang zu sehen. Und wenn dann noch Wechselwirkungen dazu kommen, wird es noch viel schwieriger.
Ein lineares SPM setzt voraus, dass der Einfluss der Einflussgrößen auf die Zielgröße linear ist. Bei Dir ist schon bekannt (und auch logisch), dass der Einfluss der Temperatur auf die Thermospannung nicht-linear ist.
In dieser Situation ist deshalb der erste Schritt, über eine geeignete linearisierende Transformation der Einflussgröße X (Temperatur) einen linearen Zusammenhang zwischen Temperatur und Zielgröße Thermospannung herzustellen. Ein möglicher Ansatz dafür ist eine Box-Cox-Transformation, bei der mit verschiedenen Potenzen versucht wird, den Zusammenhang zu linearisieren, z. B. mit log(X), Wurzel(X) = X^(-1/2), X^(-1/3), usw.
Vielleicht gibt es bei Dir ja auch schon Untersuchungen, die beim Finden der besten Transformation helfen können.
Wenn nicht, erzeug einfach einige Spalten mit den verschiedenen Transformationen für die 100 Prüfstücke und schau nach, bei welcher Transformation die Regression / Ausgleichsgerade am besten wird.
Der nächste Schritt ist dann, diese transformatierte Einflussgröße Trafo(Temperatur) zusammen mit den chemischen Einflussgrößen in ein SPM zu packen:
Thermospannung ~ Trafo(Temp) + Ni + Fe + ...
Da Du (wenn ich das richtig verstanden habe) insgesamt 2000 Beobachtungen hast (jeweils 20 Temperatur-Messungen bei den 100 Prüfstücken), könnte das schon funktionieren.
Sollte das SPM dann abstürzen und keine Ergebnisse ausspucken, liegt das daran, dass in den Spalten für die chemischen Elemente sehr häufig die gleichen Einträge stehen, da die 100 Prüfstücke immer die gleichen Analyse-Ergebnisse haben. Sofern es messbare Unterschiede in den Analyse-Ergebnissen gibt, sollte das ausbleiben. (Da ich Deine Daten nicht kenne, kann ich das allerdings nicht von vorneherein ausschließen.)
Und dann gibt es natürlich noch einige andere Verfahren, mit denen die Datenstruktur beim Einfluss der chemischen Elementen untersucht werden könnte.
Wenn Ihr Versuche machen wollt, dann erspart Euch die statistische Versuchsplanung einiges an Aufwand, deshalb rate ich Dir dringend, einen DoE-Plan zu verwenden.
Bei den 10 Einflussgrößen (Temperatur und 9 chemische Elemente) und bereits bekannten Wechselwirkungen wäre es sinnvoll, einen fraktionierten faktoriellen Ansatz zu verwenden, genauer einen 2^(10-p)-Plan. Wenn Ihr davon ausgehen könnt, dass Vierfach-Wechselwirkungen wahrscheinlich eine sehr viel weniger wichtige Rolle spielen als Haupteffekte, Zweifach-Wechselwirkungen und Dreifach-Wechselwirkungen, ist z. B. ein 2^(10-5)-Plan mit 32 Versuchen eine Möglichkeit.
Hilfreich ist für die Versuche (egal ob nun statistische Versuchsplanung oder andere Methoden) auf jeden Fall, die Zusammenhangsstruktur vorab schon intensiv zu untersuchen, so wie Du das jetzt machst. Denn auch wenn Du ein klein wenig mehr Daten hast, wirst Du ja trotzdem wieder nicht-lineare Zusammenhänge über die Temperatur und Wechselwirkungen bekommen.
Viele Grüße
Barbara
_____________________________________
Ich fühle, dass Kleinigkeiten die Summe des Lebens ausmachen.
(Charles Dickens, Schriftsteller)
geändert von - Barbara on 01/10/2007 21:22:04
Hallo Barbara,
vielen Dank erstmal für die wie immer ausführlichen Erläuterungen!
Ich versuche dem roten Faden zu folgen:
Der Einfluss der Temperatur auf T ist nicht linear. Aber auch der Einfluss der chem. Elemente auf die Zielgröße T ist nicht linear. Muss man sie auch linearisieren? Ich habe mir diese Box-Cox-Trafo angeguckt - da muss man ja Lambda bestimmen. Du meinst, einfach ausprobieren und das beste nehmen?! Ich habe bereits so was Ähnliches für Einflussgröße 'chem. Elemente' ausprobiert, jedoch ohne Erfolg..
Damit ich das richtig verstehe: Du meinst jetzt, man sollte die Temperatur transformieren? Du meinst wahrscheinlich, dass man die Zielgröße transformieren sollte (also z.B. die Zielgröße zu logarithmieren), oder?! Dient die Transformation nicht dazu, die Normalverteilung zu erhalten? Wie fasse ich überhaupt alle T's zusammen? Mehrere Zielgrößen darf man ja nicht haben..
Wir haben bereits einen Versuchsplan erstellt, aufgrund der zur Verfügung stehenden Informationen und Zwischenergebnisse. Wir haben extreme Fälle gewählt (aber nicht zu extreme), damit man nach den Versuchen wirklich signifikante Unterschiede feststellen kann.
Gruß, ***
geändert von - TB on 11/12/2007 16:12:01
Hallo ***,
jepp, für die Box-Cox-Transformation brauchst du ein lambda. Wie das geht, findest Du in einigen Software-Paketen wie z. B. Matlab automatisiert.
Wichtig ist, dass es zwei verschiedene Arten der Box-Cox-Transformation gibt: Ich kann entweder den Einfluss einer Einflussgröße X auf die Zielgröße Y linearisieren (für ein SPM z. B.) ODER ich kann die ein Merkmal so transformieren, dass es normalverteilt ist (was für ein SPM keine Rolle spielt).
Weitere Details zur Unterscheidung der beiden Box-Cox-Transformationen findest Du hier:
[url="http://www.itl.nist.gov/div898/handbook/eda/section3/boxcoxli.htm"]Box-Cox-Transformation[/url]
und einige Anwendungsbeispiele hier:
http://www.crgraph.de/BoxCox.pdf
Transformiert wird (X: Einflussgröße, Y: Zielgröße):
X: wenn die Varianz der Residuen konstant ist (also: Residualplot Residuen vs. geschätzte Werte anschauen)
X und/oder Y: wenn die Varianz der Residuen nicht konstant ist
(letzteres ist allerdings etwas unschön und aufwändig, weshalb man immer erstmal mit X-Transformationen versucht zu linearisieren.
Hier noch einige hilfreiche Links:
Ablauf linearisierende Box-Cox-Transformation
[url="http://www.mathworks.com/access/helpdesk/help/toolbox/mbc/index.html?/access/helpdesk/help/toolbox/mbc/model/f4-39409.html&%3Ca%20href="]Beispiel-Ablauf[/url]
Anwendung in Matlab
[url="http://www.mathworks.com/matlabcentral/fileexchange/loadFile.do?objectId=881&objectType=FILE"]Matlab und Box-Cox[/url]
Alternativ gibt es z. B. in R die Funktion box.cox (Library car), mit der Du das auch nachbauen kannst. Ein Beispiel dazu findest Du in der R-Hilfe über ?box.cox.
Du fasst also die Thermospannung nicht zusammen, sondern linearisierst den Zusammenhang zwischen jeweils einer Einflussgröße und der Zielgröße und machst dann mit den linearisierten Einflussgrößen ein statistisches Modell.
Viele Grüße
Barbara
_____________________________________
Ich fühle, dass Kleinigkeiten die Summe des Lebens ausmachen.
(Charles Dickens, Schriftsteller)
geändert von - Barbara on 12/07/2007 10:12:16
geändert von - Barbara on 01/10/2007 21:22:36
Hallo Barbara,
vielen Dank für die schnelle Antwort mit Links und Ratschlägen! (habe auch die Hilfe von Minitab zu Box-Cox durchgeblättert) Werde mich nächste Woche damit intensiv beschäftigen.
Schöne Pfingsten!
Gruß, ***
geändert von - TB on 11/12/2007 16:12:31
Hallo ***,
ich hab gerade eine freie Software zum Berechnen des optimalen lambdas für die linearisierende Box-Cox-Transformation gefunden:
http://www.wessa.net/rwasp_boxcoxlin.wasp
(realisiert in R: http://cran.r-project.org/)
Die Funktion in R, mit der die lambda-Grafik aufgerufen wird, ist:
library(MASS)
boxcox(x ~ y, lambda=seq(-3,3,.01))
Diese Funktion transformiert immer die linke Seite der Gleichung. Wenn Du also y transformieren willst, muss da einfach "y~x" hin. Der Bereich (seq=sequenz) für lambda ist frei wählbar.
X-Werte transformieren:
library(car)
x.t <- box.cox(x,lambda)
speichert in x.t die transformierten Werte zum ausgewählten lambda
Dir auch ein schönes Pfingstwochenende :-)
Viele Grüße
Barbara
_____________________________________
Ich fühle, dass Kleinigkeiten die Summe des Lebens ausmachen.
(Charles Dickens, Schriftsteller)
geändert von - Barbara on 01/10/2007 21:23:08
Hallo Barbara!
Da bin ich wieder, mit meinen Fragen zur Regressionsanalyse.. :-)
Die Regressionsanalyse muss jetzt warten, weil ich noch andere Projekte habe und wir ja ausserdem Versuchsplanung machen (habe noch keine Ergebnisse, da die geschmolzenen Proben noch beim Schmieden sind). Aber vielen Dank nochmal für Deine Hilfe!
Hab jetzt einen anderen Datensatz, zu einem anderen Thema. Die Zielgröße ist 'Laufzeit'(Anzahl der Stiche ist nicht bekannt, dafür aber die Gesamtlaufzeit, die allerdings per Hand eingegeben wird), Einflussgrößen sind Breite und Stärke des Erzeugnisses (Flachdraht), eingesetzter Drahtdurchmesser (der aber nicht unbedingt richtig ist), produzierte Menge und Name der jeweiligen Legierung (was sehr wichtig ist, weil das Material je nach Legierung weich oder hart sein kann).
Habe den ganzen Tag damit verbracht, unplausible Daten nachzuvollziehen und korrigieren, falls man sicher ist, dass sie genau so auszusehen haben. Ich war eine artige und fleißige Schülerin und habe mir Deine Tipps zur Hilfe genommen :-) Merkmalsliste erstellt, Kennzahlen-Tabelle, verschiedene Grafiken gemacht usw. Die Daten sind überhaupt nicht normalverteilt (na, wie immer..). Habe dann versucht mit BoxCox die Zielgröße zu transformieren. Hat auch geklappt, aber die Johnson-Transformation war noch besser (welche Transformation ist eigentlich besser?). Die Einflußgrößen lassen sich aber nicht transformieren, weder mit Johnson noch mit BoxCox (oder besser gesagt liefern keine Normalverteilung). Habe mir auch andere Verteilungen angeguckt, ob die zu irgendeiner Einflußgröße passen - die Daten scheinen überhaupt nicht verteilt zu sein.. ;-) Ein Häufchen..
Habe aber lineare Zusammenhänge zwischen Breite und Durchmesser (logisch), schwachen lin. Zus.hang zw. Stärke und Durchmesser. Und einen linearen (auch schwach) Zus.hang zw. Laufzeit und Menge. Hab dann eine Regressionsgleichung mit R-Qd von 81% erhalten, deren Residuen allerdings nicht normalverteilt sind.. Kann ich was daraus schließen? Bzw. reichen 81% und keine normalverteilten Residuen für eine qualitative Aussage???
Mit Dank im Voraus.
Gruß, ***
geändert von - TB on 11/12/2007 16:18:01
Hallo ***,
das mit der Transformation in Modellen ist nur dann wichtig, wenn die Einflussgrößen (Breite, Härte, Durchmesser, usw.) nicht linear auf die Zielgröße Laufzeit wirken, d. h. wenn Du schon im Streudiagramm eine Kurve sehen kannst. Dann (und nur dann) ist eine Transformation der Einflussgröße(n) sinnvoll.
Die Zielgröße wird nur dann transformiert, wenn die Fehlervarianz (Streuung der Residuen) nicht konstant ist, sondern z. B. mit wachsender Laufzeit ansteigt (so genannte Heteroskedastizität).
Die Normalverteilung ist weder für die Einflussgrößen noch für die Zielgröße wichtig. Erst bei der Modell-Prüfung (Residualanalyse) sollte der Modell-Rest normalverteiltes Rauschen sein.
81 % ist doch schon mal ein Anfang ;-) (Mit welchem Programm rechnest Du eigentlich im Moment?)
Für das Modell würd ich neben den Einflussgrößen auch die Wechselwirkungen / Interaktionen (FI: Faktorinteraktionen) aufnehmen, damit die Modell-Güte steigt. Also in Deiner Situation:
Y: Laufzeit
X: Breite
Stärke
Durchmesser
Menge
Legierung
FI: Breite*Durchmesser
Stärke*Durchmesser
(was ist mit Breite*Stärke?)
Und ich würde versuchen, statt dem Namen der Legierung die Härte als Zahl einzugeben, weil damit das Modell mit deutlich mehr Informationen gefüttert wird als nur durch den Namen.
Das Modell ist dann:
Y ~ X + FI
bzw. in R-Syntax:
glm.laufzeit <- glm(Laufzeit ~ Breite + Stärke + Durchmesser + Menge + Legierung + Breite*Durchmesser + Stärke*Durchmesser)
summary(glm.laufzeit)
oder in Minitab-Syntax:
Antwort: Laufzeit
Modell: Breite Stärke Durchmesser Menge Legierung Breite*Durchmesser Stärke*Durchmesser
(plus Angabe der Kovariaten natürlich)
Wie viele Datensätze hast Du eigentlich für das Modell?
Viele Grüße
Barbara
_____________________________________
Ich fühle, dass Kleinigkeiten die Summe des Lebens ausmachen.
(Charles Dickens, Schriftsteller)
geändert von - Barbara on 01/10/2007 21:23:36
Liebe Barbara,
lieber TB,
niemals hätte ich hier im Forum damit gerechnet, daß mir jemand mit so einfachen Beiträgen erklärt, warum ich dauernd Durst habe.
Ich werde meiner GL die Anschaffung eines weiteren Getränkeautomaten empfehlen, dessen Befüllung sich nach den von Euch vorgelegten Erkenntnissen leicht berechnen lassen dürfte.
Wie immer ein Genuß . . .
Euer
Michael
Wenn einer nicht mehr weiter weiß, dann gründet er `nen Arbeitskreis.
Hallo,
vor einiger Zeit habe ich im Rahmen der Zeitwirtschft diese Software kurz kennengelernt, mit der die Daten auch analysiert werden könnten.
http://www.ortim.de/html/Planzeiten_42_d.php
Siehe: Planzeitformel erzeugen
Basis sind Datensätze in denen die Einflußgrößen der Zeitaufnahme (Länge, Breite, Höhe, Gewicht, ..) und das Ergebnis (= aufgenommenen Zeit) stehen.
In diesem Modul wird eine Planzeitformel erzeugt, die aus den vorhandenen Einflussgrößen eine Vorgabezeit erzeugt (ohne Verteilzeiten, ...)
Dabei werden nicht relevante Einflußgrößen automatisch eliminiert.
Bsp für eine Formel wäre dann:
Grundzeit = 4,5 * Höhe + 1,25 * e^(4,454*Breite)
Im Prinzip sollte dies funktionieren.
gruß
mfunk
Sie koennen erst dann neue Ufer entdecken,
wenn Sie den Mut haben, die Küste aus den Augen zu verlieren.
<chinesische Weisheit>
Hallo mfunk,
das Programm sieht ganz nett aus und nach einem Telefonat mit dem GF heute würd ich sagen, das macht auch das, was wir hier machen (nämlich eine Regressionsanalyse bzw. ein GLM / SPM).
Allerdings kostet ORTIMplan in etwa das 2,5fache von Minitab oder JMP (kann dafür noch einige andere Sachen, die für die Arbeitsvorbereitung sinnvoll sind). Und ORTIMplan kann ganz viele Sachen nicht, die für die statistische Prozess-Analyse und -Modellierung wichtig sind.
Schwierig finde ich auch die standardmäßig angebotenen Transformationen sowie die Berechnung von allen Kombinations-Modellen, weil ein berechnetes Ergebnis nicht unbedingt das ist, was mit dem GMV (gesunden Menschenverstand) nachvollzogen werden kann.
Also: Wenn Statistik, dann auch mit einem Statistik-Programm. Das ist günstiger und kann mehr.
Viele Grüße
Barbara
_____________________________________
Ich fühle, dass Kleinigkeiten die Summe des Lebens ausmachen.
(Charles Dickens, Schriftsteller)
Hallo Barbara,
für mich als Anwender mit maximal statistischem Halbwissen ist das ein anwenderfreundliches Programm mit einem einfachen Ergebnis = fertige Formel + Bestimmtheitsmaß.
Das Ergebnis muss ich immer werten (wie bei allen Modellen).
Was hälst du von Knime ?
http://www.knime.org/
Grüße Martin
P.S. kennst du einen G. Städler? (kam mir gerade in den Sinn)
Sie koennen erst dann neue Ufer entdecken,
wenn Sie den Mut haben, die Küste aus den Augen zu verlieren.
<chinesische Weisheit>
Vielen Dank für die schnelle Antwort, Barbara!
So, jetzt werde ich versuchen alles geordneter zu beschreiben als letztes Mal..
Habe 2038 Datensätze insgesamt (nach der Bereinigung), davon 877 einer meist vertretenen Legierung (also ca. 43%), alle übrigen 28 Legierungen sind selten vertreten: max. 9% aller Daten.
Ich rechne momentan noch mit dem Minitab (hab die Demoversion diesmal auf dem Computer meines Kollegen installiert :-) - bald gehen mir die Computer aus und ich muss mich dann mit R auseinandersetzen, bisher hatte ich leider noch keine Zeit dafür).
Habe zunächst versucht, für nur diese eine Legierung Daten zu analysieren (werde nächste Woche das für alle Datensätze machen).
Zielgröße: Laufzeit
Einflussgrößen:
- Durchmesser Runddraht
- Querschnitt Runddraht
- Stärke Flachdraht
- Breite Flachdraht
- Querschnitt Flachdraht
- Produzierte Menge
- Länge Flachdraht
- Verhältnis Breite-Stärke
- Verformung in %
- Umformgrad
Die Legierungen nach 'hart' und 'weich' aufzuteilen ist viel zu ungenau, daher möchte ich noch den Härtegrad berechnen. Daher erstmal Verformung in % und Umformgrad genommen (in Abhängigkeit von den Querschnitten des Runddrahtes und des Flachdrahtes).
Im Matrixplot erkennt man lineare Zus.hänge zw.:
- Laufzeit und Menge
- Stärke und Querschnitt Flachdraht, Durchmesser Runddraht
- Breite und Querschnitt Flachdraht, Verhältnis Breite-Stärke, Durchmesser Runddraht
- Querschnitt Flachdraht und Querschnitt Runddraht
- Verhältnis Breite-Stärke und Umformgrad
Nach Pearson gibt es Korrelationen zwischen:
- Länge und Laufzeit
- Menge und Laufzeit
- Umformgrad und Breite
- Umformgrad und Stärke
Die Regression liegt bei ca. 50%.
Hab dann folgendes GLM gewählt:
Antwort: Laufzeit
Modell:
- Stärke
- Breite
- Menge
- Umformgrad
- Länge
- Länge*Umformgrad
- Länge*Stärke
- Länge*Breite
Kovariaten:
- Umformgrad
- Länge
- Breite
- Stärke
Ich erhalte R-Qd = 82% und R-Qd(korr) = 72%, wobei p-Werte für Stärke, Umformgrad und Länge*Stärke über 5% liegen und es sehr viiieeel ungewöhnliche Beobachtungen gibt..
Könntest Du mir bitte noch ein Sückchen von Deinem Voodoo-Zauber verraten?!.. :-))
Schönes Wochenende,
***
geändert von - TB on 11/12/2007 16:16:35
Hallo ***,
das mit den vielen ungewöhnlichen Beobachtungen wundert mich mal gerade gar nicht. Die Regel für ungewöhnliche Beobachtung ist "standadisiertes Residuum kleiner -2 oder größer +2". Bei normalverteilten Residuen trifft das auf 5 % zu, d. h. bei 2038 Datensätzen sind 102 ungewöhnliche Beobachtungen zu erwarten.
Was anderes ist es, wenn in den Residuen deutliche Strukturen oder Muster erkennbar sind.
Was ich bei Deinem GLM noch nicht so ganz verstanden habe:
*In der ersten Liste der Einflussgrößen hast Du sowohl Flach- als auch Runddraht. Im GLM sind nur noch die Flachdraht-Merkmale drin. Hast Du das GLM nur für die Flachdraht-Produktion gemacht oder stehen in der Flachdraht-Spalte "Stärke" z. B. auch der Durchmesser von Runddraht?
*Wieso hast Du die Legierungen nicht im GLM? Auch wenn sie selten sind, kannst Du sie mit aufnehmen. (Es sollten ca. 30 Durchläufe für jede Legierung vorhanden sein.) So kannst Du ja gar nicht feststellen, ob die Legierung einen Einfluss hat.
*Wo ist denn der Härtegrad? Der wird vermutlich einen großen Einfluss haben, d. h. gerade mit dem wirst Du voraussichtlich deutlich mehr von der Laufzeit erklären können.
Soweit erstmal mein Montag-Morgen-Voodoo ;-)
Viele Grüße
Barbara
_____________________________________
Ich fühle, dass Kleinigkeiten die Summe des Lebens ausmachen.
(Charles Dickens, Schriftsteller)
geändert von - Barbara on 01/10/2007 21:24:19
Hallo Martin,
ich kann gut verstehen, wenn sich Menschen nicht weiter mit den Tiefen der statistischen Formeln beschäftigen wollen. Was ich allerdings für gefährlich halte ist die Anwendung von scheinbar einfachen Formeln oder Programmen, ohne die Hintergründe zu kennen.
Für mich ist das so ähnlich wie mit dem Autofahren: Auch dafür brauche ich gewisse Grundkenntnisse (Zündung, Lenkrad, Blinker, Straßenverkehrsregeln, usw.) Ich sollte auch beim Autofahren wissen, wo das Gas, wo die Bremse und wo die Gangschaltung / Automatik ist, sonst wird das mit dem Ankommen schwierig. Ich muss dafür *nicht* verstehen, wie die Verbrennung im Motor dafür sorgt, dass sich die Räder drehen.
Natürlich ist es nett, einfach mal ein Modell bzw. eine Formel zu bekommen. Nur wenn ich nicht prüfe, ob das Modell auch solide ist, kann ich damit keine haltbaren Aussagen machen oder Prozesse optimieren.
Bildlich gesprochen habe ich dann zwar das Auto gestartet und bin die ersten Meter gefahren, nur hab ich so noch keine Ahnung von den Verkehrsregeln. Niemand würde einen Autofahrer, der so losfährt (ohne Fahrlehrer!), als gut gerüstet bezeichnen.
Bei den Neurolen Netzwerk-Programmen (wie KNIME) ist es für mich nicht überschaubar, wie die Verkehrsregeln sind. Je nachdem, mit welchem Algorithmus ich unterwegs bin, komme ich an völlig unterschiedlichen Orten raus. Es gibt dort eine Menge Regeln, nur eben keine einheitlichen best practice-Regeln, mit denen ich "gut fahre". Deshalb sehen neuronale Netzwerke für mich wirklich nett aus und ich schaue sie mir aus der Distanz an. Wenn die Forscher mal an den Punkt kommen, dass sie einheitliche Verkehrsregeln für den NN-Bereich schaffen, werde ich da ausch durchfahren. Solange bleibt das für mich ein Gebiet, mit dem ich mich nicht beschäftige (s. a. Wikipedia [url="http://de.wikipedia.org/wiki/K%C3%BCnstliches_neuronales_Netz#Allgemeine_Probleme"]Allgemeine Probleme bei Neuronalen Netzen[/url] ).
G. Städler kenne ich übrigens nicht. Wer ist das?
Viele Grüße
Barbara
_____________________________________
Ich fühle, dass Kleinigkeiten die Summe des Lebens ausmachen.
(Charles Dickens, Schriftsteller)
Hallo Barbara,
(*): Habe einfach einige Einflußgrößen entfernt aus dem GLM, weil diese sowieso weder graphisch noch nach Pearson lineare Zus.hänge hatten und ich als Ergebniss immer wieder 'Rangfolgefehler aufgrund von [...]' hatte und damit kein Modell.
(**): Habe jetzt auch 'Legierung' im GLM (s. unten).
(***): Härtegrad ist immer noch nicht drin, kommt noch später.
Mein momentaner GLM:
Zielgröße: Laufzeit
Einflussgrößen:
- Breite Flachdraht
- Stärke Flachdraht
- Durchmesser Runddraht
- Menge Flachdraht
- Legierung
- Verformung in %
- Umformgrad (Runddraht -> Flachdraht)
- Länge Flachdraht
- Verhältnis Breite zu Stärke
Faktorinteraktionen:
- Breite Flachdraht * Durchmesser Runddraht
- Stärke Flachdraht * Durchmesser Runddraht
- Länge Flachdraht * Umformgrad
- Drahtdurchmesser * Umformgrad
mit dazugehörigen Kovariaten.
Habe als Ergebnis:
R-Qd = 93,37% und R-Qd(kor) = 82,40%,
wobei keine weitere Analyse aufrund von [...] ausgeführt wird.
Frage: Wie kann ich eigentlich die Seq SS Werte interpretieren? Bei einigen Einflußgrößen sind diese gleich 0, bei anderen sehr große Zahlen.. Und was sind Modell-DF's?
P.S. Das SOM-Toolbox for Matlab (Neuronale Netze) hat eine ziemlich gute Dokumentation, im Vergleich zu vielen anderen KNN-Software. Da kann sich schon ganz gut vorstellen, was da passiert - wird übrigens immer weiter entwickelt und ist Open Source. KKN sind aber natürlich noch in der Entwicklung, können aber bei betimmten Fragestellungen (wenn nichts anderes hilft) mit Erfolg angewendet werden.
Gruß, ***
geändert von - TB on 11/12/2007 16:17:26
Hallo ***,
aha, Ihr macht also aus Runddraht Flachdraht?!
Hmpf, das mit dem Rangfolgefehler ist blöd. Liegt entweder an zu wenig Beobachtungen bei den einzelnen Legierungen (wie klein ist die kleinste Gruppe?) oder daran, dass Du relativ viele berechnete Merkmale drin hast. Berechnete Merkmale bringen zwar ein bisschen mehr Information wenn sie aus einer Multiplikation kommen, sind aber - wegen der Berechnung - auch redundant. Versuch mal, die berechneten rauszulassen und nur die gemessenen Merkmale zu verwenden.
Die Model-DFs sind die Freiheitsgrade im Modell (DF: degress of freedom oder in der bahnbrechenden Übersetzung Freiheitsgrade). Freiheitsgrade geben an, wie viele Informationseinheiten für ein Modell vorhanden sind.
Eigentlich liefern z. B. 2038 Beobachtungen auch 2038 Informationseinheiten (oder auch "Informationstaler"). Damit bist Du ziemlich reich ;-) Wenn Du aber durch die berechneten Merkmale Redundanzen im Modell hast, reduzieren sich die Informationstaler ggf. sehr schnell.
Das passiert übrigens bevorzugt auch dann, wenn bei variablen Merkmalen in Minitab vergessen wird, die auch als variable Merkmale anzugeben (-> Kovariaten).
Die Seq SS steht für sequential sum of squares und geben den Anteil an der Gesamtstreuung eines einzelnen Merkmals an. Eine ausführliche Berechnung dieser Streuungszerlegung findest Du z. B. [url="http://www.quantlet.com/mdstat/scripts/mst/html/msthtmlnode67.html"]hier[/url]
Was Du auch noch versuchen kannst, wenn Du die Legierung rausnimmst und nur noch variable Einflussgrößen im Modell hast, ist eine schrittweise Regression. In Minitab:
Statistik > Regression > Schrittweise...
Wenn Du da Wechselwirkungen drinhaben möchtest, musst Du die vorher per Hand berechnen (Spalte 1*Spalte 2 = WW). In Minitab:
Berechnen > Rechner
Speichern in: WW
Ausdruck: a*b
Viele Grüße
Barbara
_____________________________________
Ich fühle, dass Kleinigkeiten die Summe des Lebens ausmachen.
(Charles Dickens, Schriftsteller)
geändert von - Barbara on 01/10/2007 21:24:44
Hallo Barbara.
Ja, genau: Aus Runddraht - Flachdraht. :-) Tut mir leid, wenn ich das nur oberflächlich erwähnt habe.. Runddraht wird gewalzt und dabei entsteht ein Flachdraht von Breite x und Stärke y sozusagen.
Die kleinste Gruppe der Legierungen hat nur einen Datensatz, also 0,05%.. Was hälst Du davon, wenn ich alle Legierungen kleiner 5% rausschmeiße?! Könnte das helfen?
P.S. Danke für die Infos!
Gruß, ***
geändert von - TB on 11/12/2007 16:18:44
Hallo ***,
jepp, das könnte helfen. Wie schon geschrieben, bei 2038 Datensätzen insgesamt sollten es mindestens 30 Beobachtungen pro Legierung sein (entspricht ca. 1,5 %).
Viele Grüße
Barbara
_____________________________________
Ich fühle, dass Kleinigkeiten die Summe des Lebens ausmachen.
(Charles Dickens, Schriftsteller)
geändert von - Barbara on 01/10/2007 21:25:34
Hallo Barbara,
hab inzwischen schon zwei verschiedene Härten berechnet.. zum einen lag es daran, dass die Formel zur Berechnung des Querschnittes für Flachdraht falsch war (falscher Parameter, mein Fehler), zum anderen daran, dass die Härten für jede Legierung nur in der graphischen Form vorhanden sind (in Abhängigkeit vom Umformgrad) und ich diese erstmal mit der Schrittweite 5 (also 5% Umformung) in eine Tabelle gepackt habe, um dann zu interpolieren und den vorliegenden Aufträgen die richtige Härte zuzuordnen (per Hand wäre ich auch in zwei Wochen nicht fertig, bei mehr als 2000 Datensätzen..).
Das schlimme ist, dass ich jetzt sowohl Umformgrad als auch die Härte hab, und alle Legierungen kleiner 2.5% rausgeschmiessen habe, hab aber kein gutes Modell.. 54% Bestimmtheitsmaß und keine normalverteilten Residuen.. (irgendwie, war die Güte am Anfang viel besser.. - wie kann das bloß sein?!)
Entweder stimmt was mit den Härteberechnungen nicht oder die Laufzeit hängt nicht von der Härte ab..
Zur Info: Diese Laufzeit ist die Gesamtlaufzeit, d.h. Nettozeit+Rüstzeit+Wartungszeit usw. Ausserdem wird nach Erfahrung und je nach Situation verfahren. Also kann's auch daran liegen, dass es nicht klappt..
Was könnte man da noch ausprobieren?!..
Viele Grüße,
***
geändert von - TB on 11/12/2007 16:20:06
Hallo ***,
hm. Also zum einen scheint es erstmal so zu sein, dass das Modell bzw. die Härte so nicht gut geeignet ist, um die Gesamtlaufzeit zu erklären.
Sind die Residuen einfach "nur" nicht normalverteilt oder gibt es da eine deutliche Struktur (z. B. eine Trompetenform oder Cluster)?
Kannst Du bitte noch mal Dein Modell aufschreiben, damit ich weiß, was genau Du reingesteckt und was Du rausgekriegt hast?
Was mir noch einfällt:
Gesamtlaufzeit aufsplitten, d. h. statt der Gesamtlaufzeit die Nettozeit verwenden. Die wird durch die Härte vor allem beeinflusst (nehme ich mal an), denn die Rüst- und Wartungszeit wird wohl eher weniger an der Härte und mehr an der Art der Umformung bzw. Aufwand für den Wechsel liegen.
Vielleicht gibt es auch noch einen Tages-Einfluss (Datum und/oder Wochentag) oder einen Einfluss durch die Uhrzeit (Start- und/oder Endzeitpunkt). Wenn Du das im Datensatz hast, wäre es einen Versuch wert.
Und manchmal ist die Erkenntnis, dass das Modell so eben nicht funktioniert, auch hilfreich: Die Härte allein ist es einfach nicht, jedenfalls nicht, wenn es um die Gesamtdurchlaufzeit geht.
Viele Grüße
Barbara
_____________________________________
Ich fühle, dass Kleinigkeiten die Summe des Lebens ausmachen.
(Charles Dickens, Schriftsteller)
geändert von - Barbara on 01/10/2007 21:26:16
Morgen Barbara!
Mir ist gestern ein Fehler unterlaufen: 64% ist der Bestimmtheitsmaß, aber das ändern leider nichts an der Tatsache, dass es viel zu wenig ist..
(*) Das Wahrscheinlichkeitsnetz der Residuen für Normalverteilung sieht wie eine 'S' aus, mit Wendepunkt bei 50%. Es gibt auch viele Punkte ganz weit von der Referenz-Geraden entfernt, also viele ungewöhnliche Beobachtungen. Residuen gegen angepasster Wert sehen aus wie Wasser aus dem Schlauch (super Beschreibung.. ;-) ), also etwa wie ein Trichter. Histogramm sieht normalverteilt aus. Und Residuen gegen Beobachtungsreihenfolge auch ganz normal, mit eben ein paar Ausreißern, die, soweit ich das verstehe, gerade die ungewöhnlichen Beobachtungen sind.
(**) Das ist ja das Problem: Die Gesamtlaufzeit kann ich nicht aufsplitten - diese wird manuell eingegeben, inklusive aller möglichen Rüstzeiten und Wartungszeiten (falls man welche hatte). Und wie ich dies modellieren soll, wenn ich keine Vergleichsdaten hab, weiß ich auch nicht..
(***) Daten für die Tageszeit habe ich auch nicht, nur Kalenderwoche und Jahr.
(****) Hier das GLM:
Zielgröße: Laufzeit
Einflussgrößen:
- Breite Flachdraht
- Stärke Flachdraht
- Durchmesser Runddraht
- Menge Flachdraht (p-Wert komischerweise zu hoch)
- Legierung
- Länge Flachdraht
- Verhältnis Breite zu Stärke
- Fläche Runddraht
- Fläche Flachdraht
(Querschnitte gemeint)
- Umformgrad (Runddraht -> Flachdraht) (p-Wert zu hoch)
- Hauptformänderung (ist ein ln)
- Härte
Faktorinteraktionen:
- Durchmesser Runddraht * Menge (p-Wert zu hoch)
- Durchmesser Runddraht * Länge
- Länge * Menge
- Breite Flachdraht * Menge (p-Wert zu hoch)
- Breite Flachdraht * Durchmesser Runddraht (p-Wert zu hoch)
- Stärke Flachdraht * Durchmesser Runddraht
- Länge Flachdraht * Umformgrad
- Drahtdurchmesser * Umformgrad (p-Wert zu hoch)
- Härte * Länge
- Härte * Menge (p-Wert zu hoch)
mit dazugehörigen Kovariaten.
R-Qd = 64% und R-Qd(kor) = 63%
mit 1779 Datensätze und 139 ungewöhnlichen Beobachtungen (also fast 8% - ist doch zu viel, oder?!)
Gruß, ***
geändert von - TB on 11/12/2007 16:21:33
Hallo nochmal.
Habe gerade das oben angegebene GLM für alle Legierungen einzeln laufen lassen.
Einige Legierungen hatten genauso schlechte Ergebnisse (oder noch schlechtere) wie beim großen Modell (mit allen Legierungen).
Hier die Ergebnisse:
Leg Nr. | R-Qd(kor) | R-Qd | Residuen normalverteilt oder nicht
L1 | 17,85% | 33,53% | nicht normalverteilt
L2 | 89,58% | 91,96% | nicht normalverteilt
L3 | 70,66% | 81,47% | nicht normalverteilt
L4 | 57,60% | 58,65% | nicht normalverteilt
L5 | 94,50% | 95,43% | nicht normalverteilt
L6 | 84,97% | 88,36% | NORMALVERTEILT
L7 | 27,67% | 36,26% | nicht normalverteilt
L8 | 94,94% | 96,52% | nicht normalverteilt
L9 | 91,10% | 93,27% | NORMALVERTEILT (aber alle p-Werte > 0,05)
L10 | 95,38% | 96,24% | nicht normalverteilt
Muss ich jetzt individuell für jede Legierung das passende Modell suchen?! - wäre das die richtige Vorgehensweise? Kann ich schon mal zumindest für die Legierung L6 definitive Aussage machen?
Mit Dank im Voraus,
***
geändert von - TB on 11/12/2007 16:23:06
Hallo ***,
aller guten Dinge sind drei ;-)
Das mit der S-Kurve ist ein starkes Anzeichen dafür, dass das Modell so noch nicht passt. Meist entsteht sie durch ein noch fehlendes wichtiges X oder durch die nicht-konstante Fehlervarianz.
Die Trompetenform bzw. das Schlauch-Spritz-Muster entsteht, wenn die Fehlervarianz nicht konstant ist (so genannte Heteroskedastizität).
Damit Du mit so einem Modell arbeiten kannst, muss es auf jeden Fall verbessert werden, weil es sonst falsche Schlüsse begünstigen kann.
Die 8 % ungewöhnliche Beobachtungen find ich in Ordnung (5 % wären normal). Ein Teil entsteht sicherlich aus der Trompetenform, d. h. hier müsste ein verbessertes Modell auch bessere Werte liefern. Wie ungewöhnlich sind denn die ungewöhnlichen Beobachtungen (Wertebereich der standardisierten Residuen)?
Und ich hab da noch ein paar Fragen:
Bei den Xen und Faktorinteraktionen, bei denen nicht "p-Wert zu hoch" steht, sind die p-Werte kleiner, nehme ich an. Wie klein ist denn "klein genug" bzw. wie groß sind die p-Werte der einzelnen Faktoren und Interaktionen?
Was heißt, dass die Hauptformänderung logarithmisch (ln) ist?
Wie viele Beobachtungen hast Du pro Legierung? (Eventuell sind es einfach zu wenig Werte, um eine Abweichung von der Normalverteilung überhaupt feststellen zu können.)
Du könntest noch die Kalenderwoche versuchen. Ob das wirklich durchschlagend das Modell verbessert, weiß ich nicht, aber wenn Du die Daten hast, ist es einen Versuch wert. Dasselbe gilt für das Jahr.
Wahrscheinlich wirst Du mit Deinen Daten ein halbwegs passables Modell hinklöppeln können (z. B. wegen der Heteroskedastizität über eine geeignete Transformation der Zielgröße). Allerdings bin ich skeptisch, ob wegen der ungenauen Erfassung der Laufzeit nur als Gesamtlaufzeit deutlich mehr als 80 % Erklärungsgrad dabei rumkommt. Ich denke, die Daten sind zu unscharf (aber ich kenn die Daten nicht, ist nur ein wild guess von außen).
Wenn Euch 80 % weiterbringen, lohnt sich der Aufwand. Wenn nicht, mach einen Schnitt und erheb neue Daten, die die Laufzeit als Netto-Laufzeit erfassen. BTW: Wie hoch sind die Anteile der drei Laufzeit-Arten an der Gesamt-Laufzeit?
Viele Grüße
Barbara
_____________________________________
Ich fühle, dass Kleinigkeiten die Summe des Lebens ausmachen.
(Charles Dickens, Schriftsteller)
geändert von - Barbara on 01/10/2007 21:26:37
Hallo Barbara,
leider kann ich mehr Daten nicht auftreiben, da diese Erfassung erst seit Ende 2005 läuft.
Es liegt also Heteroskedastizität vor..
Also muss ich die Zielgröße 'Laufzeit' versuchen zu transformieren. Ist eigentlich Box-Cox oder Johnson-Transformation besser?
Was könnte man noch für die Verbesserung des Modells tun? Werde, wie Du es vorgeschlagen hast, noch KW und Jahr dazu nehmen. Mal sehen, ob das hilft.
Nun zu Deinen Fragen:
(*) Der Wertebereich der Residuen ist von -7 bis 13, wenn ich alle Legierungen zusammen laufen lasse.
Bei den einzelnen Legierungen, deren Ergebnisse gut waren, z.B. L6, war der Wertebereich für Residuen von -3 bis 4 (hier gab es 10% ungewöhnlicher Beobachtungen, dabei aber nur 4% der Beobachtungen mit einem großen standardisierten Residuum - das muss man doch unterscheiden, oder?!).
(**) 'p-Wert zu hoch' heißt für mich, dass er höher als 0.05 ist, wie es halt in der Literatur steht. Wie klein darf denn dieser Wert im Idealfall sein bzw. wie hoch darf er maximal sein? (ich meine, abgesehen von diesen überall propagierten 5%, sondern fallabhängig)
(***) Hauptformänderung ist ein Logarithmus von 'Fläche Runddraht geteilt durch Fläche Flachdraht'. Hab diese Größe auch dazugenommen, weil ich dachte, sie wird einen Einfluß auf Zielgröße haben.
(****) Anzahl Datensätze pro Legierung:
Leg Nr. | Anz.DS | % von Ges.Anz.DS
L1 | 111 | 6.2
L2 | 93 | 5.2
L3 | 58 | 3.3
L4 | 850 | 47.8
L5 | 126 | 7.1
L6 | 94 | 5.3
L7 | 178 | 10.0
L8 | 68 | 3.8
L9 | 87 | 4.9
L10| 114 | 6.4
Wie hoch die Anteile der drei Laufzeit-Arten an der Gesamt-Laufzeit sind, weiß ich nicht - könnte man nur vermuten.. Meinst Du, das ließe sich irgendwie modellieren, wenn ich die die Anteile kennen würde?
Gruß, ***
geändert von - TB on 11/12/2007 16:24:26
Hallo ***,
bei Heteroskedastizität werden beide Seiten der Modellgleichung transformiert (was das Ganze deutlich anstrengender macht, deshalb der Hinweis). Eine halbwegs anschauliche Einführung liefern
[url="http://www.vwl.uni-essen.de/dt/oek/aufcomp/Vorlesung10.pdf"]Popp[/url]
und
[url="http://www.sowi.uni-mannheim.de/lehrstuehle/lessm/veranst/MultiVorlesung.pdf"]Brüderl[/url]
Allerdings führen die Transformationen nur dann zu wirklich besseren Ergebnissen, wenn kein fehlendes X im Modell zu der Heteroskedastizität geführt hat, d. h. wenn noch irgend etwas fehlt, weil es nicht gemessen wurde, dann kommst Du so nicht weiter.
Da Deine Liste schon ziemlich lang ist, gehe ich davon aus, dass zumindest nichts entscheidend super-wichtiges fehlt. Aber da kannst Du noch mal jemanden fragen, der sich mit Umformtechnik besser auskennt.
zu (*):
Wertebereich der *standardisierten* Residuen von -7 bis 13? Autsch. Könnte an der Heteroskedastizität liegen oder an fehlenden Xen im Modell (s. o.)
zu (**)
Den p-Wert mit 0,05 = 5 % als Grenzwert zu vergleichen ist schon sinnvoll. Ich wollte einfach nur wissen, ob Du die Grenze woanders gesetzt hast.
zu (***):
Vielleicht ist gerade dieser Logarithmus ein Grund für die Heteroskedastizität. Versuch mal was passiert, wenn Du das Logarithmieren weglässt (bevor Du in die Transformation des Gesamt-Modells einsteigst, einfach als Versuch)
zu (****):
Hm, die Legierungs-Modelle bei denen etwas normalverteiltes am Ende steht, sind auf jeden Fall die mit den kleinen Fallzahlen. Andererseits gibt es auch kleine Fallzahlen, bei denen keine Normalverteilung vorliegt. Ich glaub, diese Einzel-Modelle bringen Dich nicht weiter, weil das Gesamt-System noch zu sehr im Dunkeln liegt.
zu (*****):
Wenn Du die Anteile der einzelnen Laufzeit an der Gesamtlaufzeit kennst, kannst Du nur sehen, wie stark die Netto-Laufzeit von der Gesamt-Laufzeit abweicht und ob durch die Zusammenfassung der Laufzeiten Effekte bei der Netto-Laufzeit verdeckt werden. Dem Modell hilft das nicht, nur der Erklärung, warum das Modell so nicht funktioniert.
Frag doch mal einen Werker / Vorarbeiter, wie die Netto-Laufzeit, Rüstzeit und Wartungszeit bei den einzelnen Aufträgen je nach Legierung oder Umformung aussieht. Meist wissen die ziemlich gut, was sie tun und wie lange das eine oder andere dauert. (Natürlich ist es gut darauf hinzuweisen, dass diese Informationen nicht der Rationalisierung von Arbeitsplätzen oder Identifikation von Zeitverschwendung dient, sonst erzählen die Dir was vom toten Frosch.)
Viele Grüße
Barbara
_____________________________________
Ich fühle, dass Kleinigkeiten die Summe des Lebens ausmachen.
(Charles Dickens, Schriftsteller)
geändert von - Barbara on 01/10/2007 21:27:04
Hallo Barbara,
Zitat: 'bei Heteroskedastizität werden beide Seiten der Modellgleichung transformiert (was das Ganze deutlich anstrengender macht, deshalb der Hinweis)'
Meinst Du jetzt, dass man zunächst die Zielgröße transformiert und dann noch die ganze Regressionsgleichung transformieren muss, um an die Zielgröße zu kommen und nicht an Trafo(Zielgröße)? Verstehe ich das richtig?
Ich habe gestern schon mal 'Laufzeit' über Johnson-Transformation transformiert, der Art: a + b * Areasinus((Y + c)/d), und das obige GLM laufen lassen. R-Qd(kor)=73,40% Man erhält so keine Trompetenform mehr, sondern einfach ein Häufchen. :-) Das Histogramm ist dann auch nicht mehr rechtsschief, sondern so wie es sein sollte, symmetrisch. Das Wahrscheinlichkeitsnetz sieht auch viel besser aus (keine typische S-Form mehr), man hat aber immer noch Abweichungen von der Referenzgeraden, und zwar an den beiden Enden, also noch genug ungewöhnliche Beobachtungen mit großen standardisierten Residuen - nun aber im Wertebereich von -4 bis 6, also besser. Trotzdem sind die Residuen nicht normalverteilt..
Schafft man dann überhaupt die ganze Regressionsgleichung (mit Areasinus) zurück zu transformieren oder sollte man sich mit ln(Y) zufrieden geben?!
Hab dann 'Laufzeit' auch für einzelne Legierungen transformiert (einige mit ln(Y), einige mit Areasinus(Y)) und das obige GLM durchgeführt. Hab folgende Ergebnisse erhalten:
Leg Nr. | R-Qd(kor) | Residuen normalverteilt oder nicht
L1 | ca. 80% | nicht normalverteilt
L2 | ca. 83% | nicht normalverteilt
L3 | ca. 67% | NORMALVERTEILT
L4 | keine Transformation möglich
L5 | ca. 70% | nicht normalverteilt
L6 | ca. 81% | NORMALVERTEILT
L7 | ca. 75% | nicht normalverteilt
L8 | ca. 72% | NORMALVERTEILT
L9 | ca. 88% | NORMALVERTEILT
L10| keine Transformation möglich
Also vier Ergebnisse mit normalverteilten Residuen. Aber ich bin natürlich mit den Ergebnissen nicht zufrieden.. Ist alles irgendwie willkürlich.. mal so, mal so..
Versuche was über die Netto-Laufzeit herauszufinden.
P.S. Die Aufnahme von KW und Jahr ins GLM hat nichts genützt.
Gruß, ***
geändert von - TB on 12/12/2007 08:07:49
Hallo ***,
ein Modell in Matrixschreibweise sieht so aus:
Y = X'beta + epsilon
X Designmatrix
beta Koeffizientenvektor
epsilon: Fehler
Wenn jetzt der Zusammenhang stimmt (sprich das große X alle wichtigen Einflüsse enthält und der Art des Zusammenhangs wie linear, Interaktion, usw. richtig beschrieben sind) und "nur" der Fehler epsilon unschön aussieht, dann musst Du in der Tat beide Seiten transformieren. (Beispiele findest Du in den oben angegebenen Links.)
Dann wird das Modell entsprechend schwieriger interpretierbar bzw. Du musst anschließend das Ganze wieder zurückrechnen.
Wieso hast Du denn mit Areasinus und ln gearbeitet? (Reine Neugier.)
Üblich sind Potenztransformationen und ln, letzters vor allem dann, wenn Du eine Schlauch-Spritzform hast. (Also hast Du schon das gemacht, was Standard ist.)
Was mir gerade noch als mögliche Einflussgröße eingefallen ist, ist die Geschwindikeit, mit der der Draht umgeformt wird. Ist die eigentlich konstant oder kann der Werker darauf Einfluss nehmen bzw. wird die vom System variabel (je nach Legierung oder so) eingestellt?
Was mir sonst noch einfällt hat weniger mit Statistik zu tun: Geh an die Maschine und schau Dir an, was die Menschen da machen und wie viel Zeit sie mit den einzelnen Aktionen verbringen. Irgendwo muss es einen Grund für diesen Lack-of-Fit geben und vielleicht springt er Dir ins Auge, wenn Du daneben stehst.
Viele Grüße
Barbara
_____________________________________
Ich fühle, dass Kleinigkeiten die Summe des Lebens ausmachen.
(Charles Dickens, Schriftsteller)
geändert von - Barbara on 01/10/2007 21:27:51
Hallo Barbara,
habe leider keine bahnbrechenden Erkenntnisse während der letzten Woche gewonnen..
Habe mir jetzt die aktuellen Geschwindigkeiten geholt. Sind nur von der Stichfolge und der Abmessung abhängig (nicht von der Legierung, wird aber nach Erfahrung bei härteren Legierungen langsamer gefahren), angefangen mit X m/min, dann X+20 und am Ende X+40. Mal sehen, ob ich da was rauskriege..
Zu Deiner Frage:
Habe zunächst intuitiv und der Fachliteratur nach, Logarithmus- und Potenzen-Trafo genommen. Bei manchen Legierungen hat dies aber nicht funktioniert. Deshalb habe ich mich für die Johnson-Trafo entschieden und diese einfach in Minitab berechnet. Deswegen habe ich bei manchen Legierungen Areasinus erhalten.
Danke für die Hilfe und schönes Wochenende,
***
geändert von - TB on 12/12/2007 08:09:41
Hallo ***,
tut mir leid, ich bin irgendwie davon ausgegangen, dass die Geschwindigkeit halbwegs konstant ist. So wie Du es beschreibst, kannst Du mit Deinen Daten nichts anfangen, weil die wichtigen Einflussgrößen für die Laufzeit schlicht fehlen. Ich bin davon ausgegangen, dass die Geschwindigkeit durch den Prozess vorgegeben wird, weil es sich um eine kontinuierliche Fertigung handelt, bei der mit relativ konstanter Geschindigkeit umgeformt wird (mein Fehler).
Du kannst das Modell vielleicht mathematisch schöner rechnen, indem Du transformierst. Nur bildet das Modell überhaupt nicht die Realität ab und ist damit unbrauchbar. (Entschuldige, dass ich das jetzt nach der ganzen Arbeit so hart schreibe.)
Der eine größe Störfaktor, dass die Zeiten teilweise unsauber aufgeschrieben werden, war vorher schon klar. Das alleine wird das Modell "nur" verrauschen, dennoch müssten die grundsätzlichen Strukturen ansatzweise erkennbar sein.
Wenn die Geschwindigkeit manuell geregelt werden kann, dann ist das der Dreh- und Angelpunkt für die Laufzeit, da ein Auftrag ja etwas länger als 3 Minuten läuft. Ich kenne es aus der Stahlverarbeitung so, dass die Laufzeit z. B. durch folgende Faktoren (deutlich) beeinflusst wird:
*Anzahl Aufträge, die bearbeitet werden müssen
*Anzahl Aufträge, die dringend bearbeitet werden müssen
*Anzahl Aufträge, die eigentlich schon längst ausgeliefert sein sollten
*zu erwartendes Produktionsvolumen in diesem Monat / dieser Woche verglichen mit einem Durchschnittsmonat / einer Durchschnittswoche
*Motivation zum Umrüsten (wenn Motivation gering, lasse Maschine langsamer laufen)
Und das sind nur ein kleiner Ausschnitt von vielen Faktoren. Sicher sind die von Dir gesammelten Material-Eigenschaften auch wichtige Einflussgrößen, nur sind sie eben nicht - wie auch das Modell zeigt - die alles entscheidenden Einflussgrößen für die Laufzeit.
Insofern hilft die Statistik auch an dieser Stelle, nämlich bei der Erkenntnis, dass zu einfache Modelle (manchmal) nicht ausreichend sind um haltbare Vorhersagen über eine Zielgröße machen zu können. Das ist blöd, weil wir es nach der ganzen Arbeit an dieser Situation gerne anders hätten.
Und das ist ein schönes Beispiel dafür, dass auch die Statistik überprüfbare Aspekte für das Prozess-Verständnis liefert und harte Fakten dazu, was einen Prozess wie ticken lässt.
Viele Grüße
Barbara
_____________________________________
Ich fühle, dass Kleinigkeiten die Summe des Lebens ausmachen.
(Charles Dickens, Schriftsteller)
geändert von - Barbara on 01/10/2007 21:28:18
Hallo Barbara,
Dir sollte doch nichts leid tun - Du hast mir super geholfen! Hab jetzt einfach die Ergebnisse zusammengefasst. So ein Ergebnis ist ja auch ein Ergebnis, auch wenn es nicht so aussieht wie wir es gerne hätten.. Wir müssen uns einfach dem Problem von einer anderen Seite nähern.
Vielen Dank nochmal und viele Grüße,
***
geändert von - TB on 12/12/2007 08:10:35
Hallo ***,
bitte, immer gerne.
Mich würd ja mal interessieren, wer hier so alles den Thread mitgelesen hat (aktuell 1502 Hits). Anscheinend ist das Thema Regression für viele Menschen interessant :-)
Viele Grüße
Barbara
_____________________________________
Ich fühle, dass Kleinigkeiten die Summe des Lebens ausmachen.
(Charles Dickens, Schriftsteller)
geändert von - Barbara on 01/10/2007 21:28:49
Gibt halt immer mehr regressive Persönlichkeiten. Und dann ist schon interessant, wie man mit denen umgehen muß ;-)
Nein, aber im Ernst, ich fand es einfach faszinierend, bis in welche Tiefen man mit Deinen Werkzeugen buddeln kann. Auf dem Niveau hatten wir bisher noch keinen Thread. Nicht, daß ich jetzt behaupten würde, alles verstanden zu haben...
Schöne Grüße
Frank
"There's no problem too great for running away from it!" (Charlie Braun)
und ich finds klasse, daß es noch menschen gibt, die einen an ihrem erfahrungsschatz teilhaben lassen, ohne gleich 1000?/manntag zu verlangen! danke barbara :)
achja, mir gehts ähnlich wie frank :D
"das ist ein walversprechen. das muß man nicht halten!" käpt'n blaubär, der weiseste bär des universums
Habe mitgelesen! Auch wenn ich irgendwann nicht mehr folgen konnte, habe ich doch mit Spannung auf TBs Heureka gewartet.
Grüße
QM-Planer
Hallo Barbara,
noch eine kleine allgemeine Frage vor dem Wochenende..
Was kann ich daraus ableiten:
- Wahrscheinlichkeitsnetz von Residuen: An den Enden leichte Abweichungen von der Linie, ansonsten ok.
- Histogramm sieht sehr gut aus.
- Aber: Residuen vs. Anpassungen haben eine Bananenform, nach unten gebogen, wobei die Streuung zunimmt je größer angepasster Wert ist.
Was kann ich da tun? Die RJ- und AD-Test fielen natürlich schlecht aus..
Gruß, ***
geändert von - TB on 12/12/2007 08:12:01
Hallo ***,
wenn sich eine so deutliche Struktur im Modell zeigt, die noch nicht erklärt ist, dann fehlen im Modell wichtige Einflussgrößen und/oder der Einfluss ist nicht linear.
Die Residuen können dann zwar über den gesamten Wertebereich der Zielgröße ein glockenförmiges Aussehen haben (Wahrscheinlichkeitsnetz & Histogramm), aber das Modell ist schlecht, weil es die Zielgröße nicht gut erklärt (Struktur in der Grafik Residuen vs. angepasste Werte).
Viele Grüße
Barbara
_____________________________________
Ich fühle, dass Kleinigkeiten die Summe des Lebens ausmachen.
(Charles Dickens, Schriftsteller)
geändert von - Barbara on 01/10/2007 21:29:15
Vielen Dank für die schnelle Antwort, Barbara!
Kann ich eigentlich in diesem Fall den Prozess auf Stabilität untersuchen? Oder besser gefragt: Was nützt mir dann die Stabilitätsanalyse? Die habe ich schon vor paar Wochen gemacht (IMR-Karten) und hab festgestellt, dass das ein instabiler Prozess war. Kann ich dann behaupten, dass die Vorhersagen bei diesem Prozess auch unsicher sind?! Was macht man dann (was kann man machen) mit einem instabilen Prozess? Wie kann man Stabilität erreichen?
Gruß, ***
geändert von - TB on 12/12/2007 08:12:40
Hallo ***,
wenn der Prozess stabil ist und immer ein ähnlich strukturiertes Prozess-Ergebnis liefert, dann müssen (nach dem Zentralen Grenzwertsatz / ZGWS) die Mittelwerte von Stichprobengruppen normalverteilt sein.
Um auf Stabilität zu prüfen kannst Du Dir also sinnvolle Gruppen definieren (pro Tag, pro Schicht, pro Woche, o. Ä.), pro Gruppe den Mittelwert der Messwerte bestimmen und prüfen, ob diese Mittelwerte normalverteilt sind.
Wenn die Mittelwerte normalverteilt sind, ist das Prozess-Ergebnis stabil (auch wenn es selbst aussieht wie das Bergprofil der Schweizer Alpen und nicht wie eine Normalverteilung). Es gibt dann systematische Einflüsse auf den Prozess, die aber immer zu dem gleichen Ergebnis führen.
Eine I/MR-Karte hilft Dir bei der Stabilitätsprüfung nur dann, wenn die ursprünglichen Messwerte normalverteilt sind.
Eine Stabilitätsanalyse gibt Dir Hinweise darauf, ob Du mit den bisherigen Ergebnissen (halbwegs) zuverlässige Aussagen darüber machen kannst, wie das Prozess-Ergebnis in Zukunft aussehen wird. Z. B. kannst Du angeben, in welchem Bereich bisher die Ergebnisse lagen und bei Stabilität auch zukünftig liegen werden, wenn der Prozess unverändert weiterläuft.
Wenn Du keine Stabilität hast, dann kann heute, morgen oder übermorgen auch etwas ganz anderes aus dem Prozess herauskommen. Das Prozess-Ergebnis ist dann unvorhersehbar und auch nicht planbar. Wenns trotzdem passt, hast Du einfach Glück gehabt.
Viele Grüße
Barbara
_____________________________________
Ich fühle, dass Kleinigkeiten die Summe des Lebens ausmachen.
(Charles Dickens, Schriftsteller)
geändert von - Barbara on 01/10/2007 21:29:33
Hallo Barbara,
alles klar, vielen Dank! Ich wusste nicht, dass eine IMR-Karte nur dann hilft, wenn Messdaten normalverteilt sind. Meine Messdaten sind natürlich nicht normalverteilt.. ;-)
Was sagt dann folgendes aus:
Die Mittelwerte meiner Stichprobengruppen der Zielgröße sind nicht normalverteilt, genau wie die Ausgangsdaten selbst.
Aber, wenn ich die transformierte Zielgröße betrachte, dann sind die Mittelwerte derselben Stichproben (Kalenderwoche z.B.) normalverteilt, genau wie transformierte Zielgröße selbst.
Kann man dann etwa sagen, dass der transformierte Prozess stabil ist und der ursprüngliche instabil?!?!?..
Gruß, ***
geändert von - TB on 12/12/2007 08:13:28
P.S. Eine blöde Frage noch:
Du sagst ''wenn der Prozess stabil ist und immer ein ähnlich strukturiertes Prozess-Ergebnis liefert, dann müssen (nach dem Zentralen Grenzwertsatz / ZGWS) die Mittelwerte von Stichprobengruppen normalverteilt sein''
Das gilt in beide Richtungen (also 'genau dann wenn'), oder?!
Hab bissl im Internet gesurft, auf der Suche nach dem ZGWS, und bin dann auf Deine Diplomarbeit gestoßen! :-))
Gruß, ***
geändert von - TB on 12/12/2007 08:13:51
Hallo ***,
tut mir leid, dass Du diesmal etwas auf meine Antwort warten musstest.
Zu der Transformation:
Ich denke, dass in Deiner Situation die Transformation zwar rechnerisch normalverteilte Werte liefert, dass das aber eher ein Glücksfall ist und keinesfalls eine stabile Situation, auf die Du Dich für die nächsten Prozess-Durchläufe stützen kannst.
Denn die Transformations-Funktion hat sich aus Try-and-Error sprich Ausprobieren ergeben und nicht auf der Basis von Überlegungen, d. h. physikalischem, chemischem oder anderem Vorwissen.
Und wenn bei der transformierten Zielgröße im Modell die Bananenstrukture und die nicht-konstante Fehlervarianz übrig bleibt, dann ist das Modell sowieso viel zu wackelig, egal ob normalverteilt oder nicht.
Zum ZGWS:
Ob der ZGWS insgesamt umkehrbar ist (also eine "genau dann, wenn"-Beziehung hat), weiß ich im Moment noch nicht. Ich denke, das funktioniert nur mit weiteren Voraussetzungen, aber dafür hab ich auch erstmal jemanden gefragt, der sich mit Maßtheorie usw. besser auskennt.
Viele Grüße
Barbara
_____________________________________
Ich fühle, dass Kleinigkeiten die Summe des Lebens ausmachen.
(Charles Dickens, Schriftsteller)
geändert von - Barbara on 01/10/2007 21:29:52
>> Den Orignalbeitrag finden Sie in unserem Diskussionsforum <<
Weiterführende Informationen: