Beskrivning: K:\ETS\www\IES\root\kml\HTML\Avd\utbildning\iek323\images\pixel.gif

Analys av data med statistiska metoder

 

 

Mål

 

Målet är att ge förståelse för hur man med enkla statistiska metoder kan få en uppfattning om vilka slutsatser man kan dra utgående från insamlade data.

 

 

 

 

 

Användning

 

"Det vi kallar slumpen är inte och kan inte vara något annat än den förbisedda orsaken till en känd verkan."
Voltaire

 

 

Här kommer endast metoder för bedömning av mätvärden att behandlas. Processtyrning och duglighet kommer i senare del av kursen. I arbetet med ständiga förbättringar är det grundläggande att kunna avgöra om de mätningar som man gör är relevanta och tillförlitliga. Dessutom är det väsentligt att kunna avgöra om en uppmätt förändring är verklig eller beror på slumpen.
Några exempel på frågeställningar som kan belysas med statistiska metoder:

  • Avgöra hur väl ett begränsat antal mätvärden kan sägas representera det sanna värdet på en parameter för en produkt eller process.
  • Avgöra hur  många mätningar som behövs för  att få tillräckligt noggranna data för utvärdering av någon egenskap.
  • Jämföra data mellan två olika konstruktioner eller jämföra med specifikationerna.
  • Planera försök för att bestämma vilken/vilka parametrar som har betydelse för produktens eller processens egenskaper.
  • Avgöra de kvantitativa sambanden mellan två eller flera parametrar.

 

 

Exempel

 

Exempel på frågor som kan besvaras

  1. Gjutna isolatorer har haft en styrka på 6,98 Nm (medelvärde). Man tar 12 isolatorer från tillverkningen och mäter nu upp styrkan till 6,71 Nm (medelvärde). Är detta ett bevis på att det skett en förändring i styrkan?
  2. Förslitningen hos två olika typer av tändstift jämförs. 10 st av typ I har 0,124 mm medelvärde på förslitningen och 8 st av typ II har 0,163 mm medelvärde på förslitningen. Är detta tillräckligt för att dra slutsatsen att typ I är bättre än typ II?
  3. Vi vet sedan gammalt att 25% av köparna av en produkt är märkestrogna. Nu vill vi undersöka om det inträffat någon förändring. Vi frågar 400 slumpmässigt utvalda personer. Inom vilket intervall kan resultatet ligga utan att vi kan påvisa en statistiskt säkerställd förändring? Detta kallas att formulera en nollhypotes.
    ( Det finns många exempel på undersökningar av partisympatier som bygger på detta arbetssätt)
  4. För att fastställa förbättringar vid t ex kötider, genomloppstider, energiförbrukning, minskat spill är statistiska metoder användbara.

     

 

Konfidensintervall för variabler

 

 

 

Konfidensintervall används för att utgående från ett stickprov från en population kunna uppskatta för en parameter inom vilket intervall den kommer att ligga för hela populationen.

Exempel: Ett stickprov (sampel) med 4 batterier är uttagna från en stor mängd batterier. Med en viss belastning finner man  att medelvärdet av livslängden är 31,0 timmar för de 4 batterierna. Konfidensintervallet anger med vald sannolikhet (konfidensgraden) det intervall inom vilket medelvärdet för den verkliga livslängden ligger. Beräkning se nedan.

Konfidensintervall för variabler
Beskrivning: K:\ETS\www\IES\root\kml\HTML\Avd\utbildning\iek323\Webmaterial\kap10\pic\konfintv.gif

µ (my) är väntevärde (använd x om inte hela populationen ingår i underlaget, µ gäller när hänsyn tas till hela populationen, men man ser ofta att x och µ inte används konsekvent utan blandas samman).
x (med streck över) är medelvärdet
s (sigma) är standardavvikelsen (använd S om inte hela populationen ingår. Se också kommentaren för µ )
z är beroende på konfidensgraden (Se tabell nedan)
n är stickprovsstorlek
Detta samband förutsätter att sigma är känt för populationen.

Beskrivning: K:\ETS\www\IES\root\kml\HTML\Avd\utbildning\iek323\Webmaterial\kap10\pic\konftab.gif

Konfidensgraden anger med vilken säkerhet konfidensintervallet innehåller det sanna värdet på den aktuella parametern.

Exempel:  Bestäm med 95 % konfidensgrad konfidensintervallet för batterierna ovan utgående från att sigma är 5 timmar.
Beskrivning: K:\ETS\www\IES\root\kml\HTML\Avd\utbildning\iek323\Webmaterial\kap10\pic\konfber1.gif
Detta innebär att vi kan med 95% sannolikhet säga att det sanna värdet på livslängden ligger i intervallet 26 - 36 timmar.

Om inte sigma är känd utan uppskattad utgående från vårt stickprov måste istället en t-fördelning användas. Samma formel som ovan men z byts mot t. t beror på hur många oberoende observationer som ingår i vårt sampel. t-fördelning tar vi inte upp i den här kursen.

 

 

Länk
Beskrivning: K:\ETS\www\IES\root\kml\HTML\Avd\utbildning\iek323\Webmaterial\pic\links1.gif

 

Fördjupad information om konfidensintervall och t-fördelning

 

 

Konfidensintervall för attribut

 

Konfidensintervall för proportioner (attribut)
Beskrivning: K:\ETS\www\IES\root\kml\HTML\Avd\utbildning\iek323\Webmaterial\kap10\pic\konfprop1.gif

Beskrivning: K:\ETS\www\IES\root\kml\HTML\Avd\utbildning\iek323\Webmaterial\kap10\pic\konfprop2.gif

f är relativa frekvensen
n är stickprovsstorlek (sampel)
N är populationsstorlek
z är beroende på konfidensgraden (tabell ovan)

 

 

 

 

Exempel: Man tar ut 40 maskiner från en stor population och finner att 12 av dem är behäftade med något fel. Inom vilket intervall ligger det sanna värdet på andelen med fel behäftade maskiner? Konfidensgrad 90%.

Beskrivning: K:\ETS\www\IES\root\kml\HTML\Avd\utbildning\iek323\Webmaterial\kap10\pic\konfpropupg.gif
Intervallet inom vilket den sanna andelen felaktiga maskiner ligger är 0,18 - 0,42 med 90% konfidensgrad.

 

 

 

 

 

Hypotesprövning

 

Konfidensintervall kan användas för att genomföra hypotesprövning. En vanlig metod är att man antar en nollhypotes dvs att ingen förändring inträffat och provar sedan hypotesen.

Exempel: Gjutna isolatorer har haft en styrka på 6,98 Nm (medelvärde). Man tar 12 isolatorer från tillverkningen och mäter nu upp styrkan till 6,71 Nm (medelvärde). Är detta ett bevis på att det skett en förändring i styrkan? Antag nollhypotesen att ingen förändring inträffat och testa den med konfidensgraden 95%. Standardavvikelsen (sigma) är given 0,34 Nm.
Beskrivning: K:\ETS\www\IES\root\kml\HTML\Avd\utbildning\iek323\Webmaterial\kap10\pic\hypouppg.gif

Härav ser vi att 6,71 Nm ligger utanför intervallet 6,79 - 7,17 Nm. Alltså förkastar vi nollhypotesen. Förändringen är statistiskt säkerställd på 95% nivån.
Observera att om en nollhypotes inte förkastas innebär det inte att den nödvändigtvis accepteras som sann. Enda tolkningen man kan göra är att man inte har tillräckligt underlag för att förkasta den.

 

 

CHI-två metoden

 

CHI-två (CHI-square) metoden är en metod för att pröva hypoteser när mer komplexa situationer ska analyseras. Utgående från en nollhypotes, kan man förvänta sig ett bestämt mönster i observationerna. Om de faktiska observationerna inte följer detta mönster förkastas hypotesen. Testfunktion och frihetsgrader beräknas enligt följande:

Beskrivning: K:\ETS\www\IES\root\kml\HTML\Avd\utbildning\iek323\Webmaterial\kap10\pic\chisqtest.gif

Beskrivning: K:\ETS\www\IES\root\kml\HTML\Avd\utbildning\iek323\Webmaterial\kap10\pic\chidf.gif

Notera att om man enbart har en rad med observationer beräknas antalet frihetsgrader enligt f = (n-1). n är antalet observationer.

nedan används för att avgöra om nollhypotesen ska förkastas eller inte. Värden över de som anges i tabellen medför att nollhypotesen förkastas med en osäkerhet på 5% respektive 1% (signifikansnivå).

Beskrivning: K:\ETS\www\IES\root\kml\HTML\Avd\utbildning\iek323\Webmaterial\kap10\pic\chitab.gif

Exempel: Ett företag har tre fabriker och vill se om det är någon statistiskt säkerställd skillnad mellan de olika fabrikerna när det gäller hur många arbetsledare som har kvalitetsutbildning.

 

 

 

 

 

Med utb

Utan utb

Tot

Fabr 1

12 (13)

14 (13)

26

Fabr 2

21 (19,5)

18 (19,5)

39

Fabr 3

17 (17,5)

18 (17,5)

35

Tot

50

50

100

 

 

 

 

 

 

 

Eftersom det totalt är lika många med som utan utbildning förväntar vi oss denna fördelning också på varje fabrik. Vi sätter upp nollhypotesen att det inte är någon statistiskt säkerställd skillnad mellan de olika fabrikerna i förhållandet mellan utbildade och inte utbildade. De värden som hypotesen ger finns inom parentes i tabellen.
Beräkning av testfunktionen

 Beskrivning: K:\ETS\www\IES\root\kml\HTML\Avd\utbildning\iek323\Webmaterial\kap10\pic\chiuppg.gif

Antalet frihetsgrader är f=(2-1)(3-1)=2 och vi ser för att förkastelsegränsen är 5,99 för f=2 och 5% signifikansnivå. Vi kan alltså inte förkasta vår nollhypotes.

 

 

Referens
Beskrivning: K:\ETS\www\IES\root\kml\HTML\Avd\utbildning\iek323\Webmaterial\pic\book14.gif

 

Juran, Gryna, 1993, Quality Planning and Analysis

 

 

Övningsuppgift A

 

Vid en frekvensstudie observerade man en maskin vid 250 på måfå valda tidpunkter. Vid 42 av dessa stod maskinen stilla. Bestäm sannolikheten p för att maskinen står stilla. Ange även konfidensintervall om konfidensgraden är 95%.

 

 

Övningsuppgift B

 

I en stor population av TV-ägare var för ett antal år sedan 30% icke märkestrogna. Efter en intensiv kundcentrerad kvalitetssatsning vill vi nu undersöka om andelen icke märkestrogna har ändrats. Vi tar ett stickprov med 400 individer och testar med 95% konfidensnivå. Inom vilket intervall kan resultatet variera utan att vi säkert kan säga att en förändring inträffat. Dvs vi testar gränserna för en nollhypotes.

 

 

Övningsuppgift C

 

En firma tillverkar dörrar med bredden 60cm. För 10 dörrar mäts bredden till  59.6 59.8 60.0 59.7 59.9 59.6 59.7 59.9 59.5 59.9. Vi antar att materialet är normalfördelat med sigma 0,16cm.. Bestäm med 95% konfidensgrad inom vilket intervall dörrarnas bredd kommer att variera. Jämför ditt resultat med de aktuella bredderna som är angivna i uppgiften. Är ditt resultat rimligt? Var ligger felet?

 

 

Övningsuppgift D

 

För att testa nya typer av handverktyg på ett företag bestämde man sig för att låta personalen prova 3 typer av mejslar. Mejslarna var avsedda för samma typ av arbetsuppgifter men hade olika ergonomiskt utförande. Man såg till att personalen alltid hade samma tillgång till de tre typerna och noterade hur valen utföll för de första 120 personerna.
         Typ 1 valdes av 30 personer
         Typ 2 valdes av 36 personer
         Typ 3 valdes av 54 personer
Hypotesen är att alla 3 typerna är lika populära. Testa om avvikelsen är signifikant med CHI-två metoden. Bestäm CHI-två och jämför med tabellen. Hur många är frihetsgraderna? Testa hypotesen på 5% och 1% förkastelsegräns (signifikansnivå).

 

 

Övningsuppgift E

 

Ett företag vill undersöka om tre olika kundgrupper är lika nöjda med med den personliga servicen eller ej. Om någon grupp är mindre nöjd kommer utbildning att skräddarsys för att förbättra servicen för denna grupp. Det var olika många i varje grupp som framgår av tabellen.

 

 

 

 

Kundkategori
A                       B                   C

Nöjda

31

78

104

Missnöjda

19

22

46

Totalt

50

100

150

 

 

 

Hypotesen är att alla kunderna är lika nöjda. Beräkna totala andelen nöjda kunder och använd denna som en jämförelse mot de enskilda grupperna. Hur många frihetsgrader? Testa om avvikelsen är signifikant med CHI-två metoden. Bestäm CHI-två och jämför med tabellen.

 

 

 

 

 

Svar

 

A:  0,168 ± 0,046
B:  25,5% - 34,5% 102 - 138 personer
C:  59,76 ± 0,10 cm.
Detta skulle med 95% sannolikhet samla alla värden mellan 59,66 och 59,86 cm. Här ligger 7 av 10 utanför intervallet. Antingen är sigma fel eller materialet är ej normalfördelat. Av det material som finns i uppgiften finns inget som tyder på en normalfördelning. Dessutom är dörrarna mätta med enbart 1 decimal.
D:  2 frihetsgrader. CHI-två = 7,8 medför förkasta på 5% nivån men ej på 1% nivån.
E:  2 frihetsgrader. CHI-två = 4,5 medför att hypotesen kan ej förkastas ens på 5% nivån.

 

LSN 2003

 

Beskrivning: K:\ETS\www\IES\root\kml\HTML\Avd\utbildning\iek323\images\jump_arrow.gif

Beskrivning: Back