Wyszukiwarka:
Artykuły > Studia >

Statystyka w rozumieniu tego wykładu to zbiór metod służących

Statystyka w rozumieniu tego wykładu to zbiór metod służących pozyskiwaniu, prezentacji, analizie danych. Celem generalnym stosowania tych metod, jest otrzymywanie, na podstawie danych, użytecznych uogólnionych informacji na temat zjawiska, którego dotyczą. Proces pozyskiwania danych ogólnie nazywany jest badaniem statystycznym. W ramach badania statystycznego dokonuje się obserwacji statystycznej. POJĘCIE STATYSTYKI MATEMATYCZNEJ W wielu rzeczywistych sytuacjach zebranie wszystkich potencjalnych danych nie jest możliwe, a interpretacji dokonuje się na podstawie odpowiednio zebranych danych częściowych o badanym zjawisku. Taka analiza, wykorzystująca metody rachunku prawdopodobieństwa nosi nazwę statystyki matematycznej. POPULACJA GENERALNA Badanie statystyczne dotyczy zawsze pewnej liczby zbiorów, której elementami są obiekty materialne lub zjawiska. W statystyce matematycznej badaną zbiorowość statystyczną nazywa się populacją generalną lub zbiorowością generalną. Populacja generalna skończona – jeżeli zbiór jej elementów jest skończony. Przykład: zbiorowość studentów 2-go roku kierunku MiBM, zbiorowość krzeseł w sali. Populacja generalna nieskończona dotyczy zazwyczaj zjawisk, a nie obiektów matematycznych. Przykład: zbiorowość wyników pomiarów twardości materiału. CECHA STATYSTYCZNA Elementy populacji generalnej mogą mieć różne właściwości (i najczęściej miewają), które podlegają obserwacji. Te własności nazywa się cechami statystycznymi lub krótko cechami. Przykład: w badaniu populacji ludzi np. wiek, wzrost, waga, płeć, kolor oczu, włosów, itd. Te właściwości, które mają charakter ilościowy nazywa się cechami mierzalnymi (wzrost, waga). Własności jakościowe (płeć, kolor włosów) nazywa się cechami niemierzalnymi. Przeważająca część metod statystyki matematycznej dotyczy analizy cech mierzalnych. ROZKŁAD CECHY Jeżeli elementy populacji różnią się między sobą własnościami analizowanej cechy, to mówi się o rozkładzie cechy populacji. BADANIA PEŁNE I CZĘŚCIOWE Celem badania statystycznego jest na ogół poznanie rozkładu interesującej nas cechy populacji generalnej przez uzyskanie informacji o wartościach syntetycznych charakterystyk (parametrów) tego rozkładu. Rozróżnia się dwa zasadnicze typy badań: badania pełne obejmujące wszystkie elementy zbiorowości generalnej, badania częściowe obejmujące część elementów populacji generalnej. PRÓBA Podzbiór elementów populacji generalnej podlegających badaniu nazywa się próbą. Statystyka matematyczna zajmuje się tylko badaniami częściowymi, takimi, w których dobór próby podlega pewnym obiektywnym regułom. DOBÓR PRÓBY, PRÓBA LOSOWA Warunki dla zapewnienia losowego doboru próby: każdy element populacji generalnej ma dodatnie, znane prawdopodobieństwo znalezienia się w próbie losowej, istnieje możliwość ustalenia prawdopodobieństwa znalezienia się w próbie dla każdego zespołu elementów populacji. Próbę otrzymaną w wyniku doboru losowego nazywa się próbą losową. WNIOSKOWANIE STATYSTYCZNE Podstawowym zagadnieniem pojawiającym się w badaniu częściowym jest możliwość uogólniania uzyskanych na podstawie próby wyników, na całą populację oraz oszacowanie popełnianych przy tym błędów. Takie działania nazywa się wnioskowaniem statystycznym. Wyróżnia się dwa podstawowe typy problemów: estymacja (szacowanie) nieznanych wartości parametrów rozkładu cechy, sprawdzanie (weryfikacja) hipotez dotyczących wartości parametrów rozkładu lub postaci samego rozkładu. CECHY SKOKOWE I CIĄGŁE Cechy statystyczne (mierzalne), które przyjmują wartości całkowite nazywa się cechami skokowymi lub dyskretnymi. Cechy przyjmujące wartości rzeczywiste nazywają się cechami ciągłymi. EMPIRYCZNY ROZKŁAD CECHY Empiryczny rozkład cechy stanowi podstawę dla wszystkich analiz badanej cechy. Jeżeli próba dotycząca jednej cechy mierzalnej nie jest zbyt liczna, tzn. dotyczy £30 jednostek, to wstępne jej opracowanie polega na uszeregowaniu w porządku rosnącym danych liczb. Otrzymany w ten sposób ciąg liczb nazywa się szeregiem pozycyjnym. Jeżeli liczebność próby jest duża (orientacyjnie >30), to pierwszym etapem jej opracowania jest dokonanie grupowania, czyli klasyfikacji. Grupowanie polega na podziale próby na podzbiory zwane grupami lub klasami, a wartością reprezentującą poszczególne klasy są ich środki. Przedziały klasowe oraz ich liczebności, czyli liczby jednostek próby należących do danej klasy tworzą razem tzw. szereg rozdzielczy. Aby utworzyć szereg rozdzielczy należy: ustalić obszar zmienności R badanej cechy, czyli przedział ograniczony najmniejszym i największym elementem próby R=Xmax-Xmin Gdzie: Xmax – największy element w próbie, Xmin - najmniejszy element w próbie. wyznaczyć ilość przedziałów klasowych m Podanie jakichkolwiek ogólnych prawideł dotyczących podziału na klasy nie jest możliwe. Istnieje natomiast kilka sugestii dotyczących liczby przedziałów klasowych m próby o liczebności n: - liczba przedziałów klasowych ni powinna być- mniejsza niż 7 i większa niż 15. Liczebność- w każdym przedziale nie powinna być- mniejsza od 5, - sposoby określania m: Zbyt duża liczba klas (małe przedziały klasowe) nie daje przejrzystego obrazu i ujawnia przypadkowe odchylenia związane z działaniem czynników ubocznych. Zbyt mała liczba klas zaciera istotne szczegóły struktury próby. podzielić obszar zmienności na klasy i ustalić reprezentację klasy (środek przedziału klasowego) oraz końce przedziałów klasowych Szerokość przedziału klasowego: Wektor brzegów (końców) przedziałów Xb: Wektor środków przedziałów klasowych Xp: wyznaczyć liczebność w klasach - fj w programie Mathcad f=hist(Xb, X) wyznaczyć prawdopodobieństwa empiryczne , m – liczba przedziałów zbudować empiryczny rozkład cechy – HISTOGRAM. ZMIENNA LOSOWA Określenie intuicyjno-poglądowe: Wielkość, która w wyniku doświadczenia przyjmuje określoną wartość dopiero po zrealizowaniu doświadczenia, a nie dająca się przewidzieć przed jego realizacją. Definicja (jedna z możliwych): Zmienna losowa jest to taka zmienna, która w wyniku doświadczenia przybiera jedną i tylko jedną wartość ze zbioru tych wszystkich wartości, jakie ta zmienna może przyjąć. Oznaczanie zmiennych losowych: - na ogół końcowymi literami alfabetu, np. X, Y, ... Wartości zmiennej losowej Wartości zmiennej losowej (realizacja), oznaczamy małymi literami, np. x, y, ... Przykład Rzucamy jeden raz monetą. W wyniku realizacji doświadczenia, można otrzymać dwa zdarzenia: E1 – wyrzucenie orła, E2 – wyrzucenie reszki. Przyporządkujemy zdarzeniu E1 wartość 0, a zdarzeniu E2 wartość 1. Liczby 0 i 1 są realizacjami zmiennej losowej X, określonej na zbiorze zdarzeń E1 i E2. Z wartościami zmiennej losowej związane są określone prawdopodobieństwa, tak więc zmienna losowa przybiera różne wartości z różnym prawdopodobieństwem: P(X=xi)=pi Prawdopodobieństwo pi można traktować jako funkcję wartości przyjmowanych przez zmienną losową. Oznacza się ją następująco: pi=f(xi) Funkcja ta charakteryzuje się tym, że suma prawdopodobieństw jest równa jedności: Rodzaje zmiennych losowych: zmienne skokowe (dyskretne), zmienne ciągłe. Zmiennymi losowymi skokowymi (dyskretnymi) nazywamy takie zmienne losowe, które mają skończony lub przeliczalny zbiór wartości. Przykłady zmiennych losowych dyskretnych: liczby urodzeń w Polsce, ocena uzyskiwana przez studentów na egzaminie z wybranego przedmiotu. Zmiennymi losowymi ciągłymi nazywamy takie zmienne losowe, które mogą przybierać dowolne wartości liczbowe z pewnego przedziału liczbowego. Przykłady zmiennych losowych ciągłych: wzrost, waga, wiek człowieka, wytrzymałość belki na zginanie, opór przewodu elektrycznego. ROZKŁAD ZMIENNEJ LOSOWEJ Niech X jest zmienną losową dyskretną, która może przyjmować wartości x1, x2, ... odpowiednio z prawdopodobieństwem p1, p2, ... Każdej realizacji zmiennej losowej X przyporządkowane jest więc pewne prawdopodobieństwo. To prawdopodobieństwo można traktować jako funkcję określoną na zbiorze wartości, jakie może przyjmować zmienna losowa X. Rozkładem skokowej (dyskretnej) zmiennej losowej X nazywa się prawdopodobieństwo tego, że zmienna losowa X przybiera wartość xi (i=1, 2, ...) P(X=xi)=pi , przy czym . Formy przedstawienia rozkładu: tabelaryczna: X x1 x2 ... xn P p1 p2 ... pn analityczna: P(X=xi)=f(xi), gdzie: f(x­i) – funkcja rozkładu prawdopodobieństwa. graficzna: DYSTRYBUANTA ZMIENNEJ LOSOWEJ (SKUMULOWANE PRAWDOPODOBIEŃSTWO) Dystrybuantą zmiennej losowej X nazywamy funkcję oznaczaną przez F(x) określoną: F(x)=P(X0) to ciąg funkcji prawdopodobieństwa dąży dla każdego x = 0, 1, ..., n do funkcji ROZKŁAD ZMIENNYCH LOSOWYCH CIĄGŁYCH Rozkład jednostajny (prostokątny, równomierny) Zmienna losowa ma rozkład jednostajny (na przedziale (a, b)), jeżeli jej gęstość prawdopodobieństwa jest określona wzorem: Dystrybuanta – otrzymujemy ją jaką całkę z funkcji gęstości prawdopodobieństwa Przykład. Błąd powstały przy ustawieniu zegara przyrządu pomiarowego może być rozpatrywany jako zmienna losowa o rozkładzie jednostajnym w przedziale, którego środkiem jest zero skali, a długość jest równa odległości między sąsiednimi kreskami skali. Jeżeli np. podziałka skali odpowiada 0,1V, to jaka jest gęstość błędu ustawienia zera. Jakie jest prawdopodobieństwo, że bezwzględny błąd ustawienia zera nie przekracza 0,03V? Mamy: b – a = 0,1, a stąd Rozkład normalny (Gaussa) Uznawany za najważniejszy rozkład w teorii prawdopodobieństwa. Znaczenie rozkładu normalnego wynika z następujących faktów: Rozkład normalny jest modelem dla losowych błędów pomiarów. Jeżeli błąd pomiaru nieznanej wielkości jest sumą wielu małych losowych błędów zarówno dodatnich jak i ujemnych, to suma ma rozkład z mniejszą lub większą dokładnością, zawsze bliski rozkładowi normalnemu. Wiele zjawisk fizycznych, choć nie podlega rozkładowi normalnemu, może być opisanych za pomocą tego rozkładu, po odpowiedniej transformacji. Np. czas zdatności niektórych maszyn jest zmienną losową o dodatnim współczynniku asymetrii. Gdy jednak będziemy rozpatrywać logarytm takiej zmiennej, to okaże się, że ma ona rozkład normalny. Rozkład normalny stanowi dobre przybliżenie dla innych rozkładów, np. rozkładu dwumiarowego. Gęstość prawdopodobieństwa zmiennej losowej o rozkładzie normalnym Oznaczenie: m - wartość średnia (oczekiwana) s - odchylenie standardowe N(m,s) – ogólna postać rozkładu normalnego s1>s2>s3>s4 m = const m10, a>0 – sa stałymi wchodzącymi w skład parametrów rozkładu, f(x) – jest funkcją ciągła i większą bądź równą zeru. Funkcja gamma (całka Eulera drugiego rodzaju) Rozkład chi – kwadrat ( ) Rozkładem o n stopniach swobody nazywamy rozkład zmiennej losowej, która jest sumą n niezależnych zmiennych losowych o standardowym rozkładzie normalnym N (0,1): przy czym Xk ma rozkład N (0,1) Gęstość prawdopodobieństwa zmiennej losowej o rozkładzie : n – określa liczbę stopni swobody Rozkład t – Studenta Jeżeli zmienna losowa Y ma rozkład normalny N(0,1), zaś zmienna losowa S jest od Y niezależna i S2 ma rozkład o n stopniach swobody, to zmienna losowa t: ma gęstość prawdopodobieństwa Zmienna t ma rozkład t – Studenta o n stopniach swobody. Rozkład F – Snedecora Iloraz dwóch niezależnych zmiennych losowych ,takich, że Y ma rozkład o n stopniach swobody, a X ten sam rozkład o m stopniach swobody: ma rozkład nazywamy rozkładem F – Snedecora. Funkcja gęstości prawdopodobieństwa zmiennej losowej o rozkładzie F – Snedecora o (n,m.) stopniach swobody ESTYMACJA PRZEDZIAŁOWA PARAMETRÓW Metoda estymacji przedziałowej to dokonanie szacunku parametru, w postaci takiego przedziału (zwanego przedziałem ufności), który z dużym prawdopodobieństwem obejmuje prawdziwą wartość parametru. Przedział ufności dla średniej Model I Badana cecha w populacji generalnej ma rozkład normalny N(m,s). Wartość średniej m jest nieznana, odchylenie standardowe s w populacji jest znane. Z populacji tej pobrano próbę o liczebności n-elementów, wylosowanych niezależnie. Przedział ufności dla średniej m populacji otrzymuje się ze wzoru: - wartość średnia gdzie: 1 - a - jest prawdopodobieństwem, przyjętym z góry i nazywanym współczynnikiem ufności (w zastos. praktycznych przyjmuje się wartość 1 - a 0,9) ua - jest wartością zmiennej losowej U o rozkładzie normalnym, - średnia arytmetyczna z próby obliczona wg zależności: Wartość ua dla danego współczynnika ufności 1-a wyznacza się z rozkładu normalnego standaryzowanego N (0,1), w taki sposób, by spełniona była relacja: ua jest taką wartością zmiennej losowej o rozkładzie normalnym standaryzowanym, że pole powierzchni pod krzywą gęstości w przedziale (-ua, ua) wynosi 1-a, a pole pod krzywą gęstości na prawo od ua i na lewo od - ua wynosi po a/2. Model II Badana cecha w populacji generalnej ma rozkład normalny N (m,s). Nieznana jest zarówno wartość średnia m, jak i odchylenie standardowe s w populacji. Z populacji tej wylosowano niezależnie mała próbę o liczebności n (n<30) elementów. Przedział ufności dla średniej m populacji otrzymuje się wówczas z wzoru: gdzie: jest odchyleniem standardowym próby. Wartość ta oznacza wartość zmiennej t Studenta odczytaną z tablic tego rozkładu dla n-1 stopni swobody w taki sposób, by dla danego z góry prawdopodobieństwa 1-a spełniona była relacja: Zasada wyznaczania wartości ta jest podobna jak w modelu I. Model III Badana cecha w populacji generalnej ma rozkład normalny N (m,s)bądź dowolny inny rozkład o średniej m i skończonej wariancji s2 (nieznanej). Z populacji tej pobrano do próby n niezależnych obserwacji, przy czym liczebność próby jest duża (co najmniej kilkadziesiąt). Wtedy przedział ufności dla średniej m populacji wyznacza się ze wzoru jak w modelu I, z tą tylko różnicą, że zamiast s we wzorze tym używamy wartości odchylenia standardowego s z próby. Przedział ufności dla wariancji W zależności od tego, czy próba jest mała czy duża, przedział ufności dla wariancji buduje się odpowiednio w oparciu o rozkład c2 (chi - kwadrat) bądź o rozkład normalny. Model I Badana cecha w populacji generalnej ma rozkład normalny N (m,s) o nieznanych parametrach m i s. Z populacji tej wylosowano niezależnie do próby n elementów (n jest małe tj. n<30). Z tej próby obliczono wariancję s2. Wówczas przedział ufności dla wariancji s2 populacji generalnej określony jest wzorem: gdzie: jest wariancją z próby, a współczynniki c1, c2 są wartościami zmiennej c2 dla n-1 stopni swobody oraz współczynnika ufności 1-a w taki sposób, by spełnione były relacje: Ponieważ powszechnie używane tablice rozkładu c2 podają prawdopodobieństwo , zatem dla określonego współczynnika ufności 1-a wartości c1 znajdujemy z tablic rozkładu c2 dla prawdopodobieństwa , natomiast wartość c2 dla prawdopodobieństwa . Model II Badana cecha w populacji generalnej ma rozkład normalny N (m,s) lub zbliżony do normalnego o nieznanych parametrach m i s. Z populacji tej wylosowano niezależnie dużą liczbę n elementów (n co najmniej kilkadziesiąt). Z tej próby obliczono odchylenie standardowe . Wtedy przybliżony przedział ufności dla odchylenia standardowego s populacji generalnej jest określony wzorem: WERYFIKACJA HIPOTEZ STATYSTYCZNYCH Weryfikacja (testowanie) hipotez statystycznych stanowi drugi, obok estymacji, podstawowy rodzaj wnioskowania statystycznego. Hipoteza statystyczna to każde przyspieszenie dotyczące wielkości parametru rozkładu zmiennej losowej w populacji generalnej lub próbnej, albo też postaci tego rozkładu, uzyskane na podstawie próby losowej. Wyróżnia się dwie grupy hipotez statystycznych: parametryczne, związane z wartościami parametrów, nieparametryczne, związane z postacią rozkładów. Testy parametryczne Oznaczenia: q - parametr populacji generalnej, T – dopuszczalna (hipotetyczna) wartość parametru populacji generalnej, H0 – hipoteza zerowa o postaci H0: q = T co czyta się: „Stawiamy hipotezę zerową głoszącą, że wartość parametru q jest równa T” lub „Stawiamy hipotezę zerową głoszącą, że różnicą pomiędzy parametrem q a jego oceną T jest statystycznie nieistotna (jest na poziomie zerowym)” – stąd nazwa – hipoteza zerowa. H1 – hipoteza alternatywna (dla każdej hipotezy zerowej określa się hipotezę alternatywną) o postaci: Dwie ostatnie postacie hipotezy alternatywnej określa się jako hipotezy jednostronne. Postawioną hipotezę zerową weryfikuje się za pomocą odpowiedniego sprawdzianu zwanego też testem, który określa się jako zmienną losową o postaci: wyznaczającą różnicę, dla której następnie buduje się obszar krytyczny odrzuceń hipotezy zerowej na podstawie wartości krytycznej Ra dla danego poziomu istotności a. Procedura postępowania dla zweryfikowania parametrycznej hipotezy zerowej H0 określić hipotezę zerową H0 oraz jej alternatywę H1 przyjąć poziom istotności a oraz liczebność próby określić rozkład zbiorowości generalnej określić test dla weryfikacji hipotezy zerowej H0 obliczyć wartość testu na podstawie próby odczytać z tablic rozkładu danego testu wartość krytyczną wyznaczającą obszar odrzuceń i przyjąć (lub odrzucić) hipotezę zerową H0. Odrzucenie hipotezy zerowej H0 Jeżeli obliczona na podstawie próby wartość sprawdzianu (testu) R znajduje się w obszarze krytycznym odrzuceń, to hipotezę zerową H0 odrzuca się na korzyść hipotezy alternatywnej H1. W przypadku przeciwnym stwierdza się, że dla danego poziomu istotności a nie ma podstaw do odrzucenia hipotezy zerowej H0. Testy dla wartości średniej populacji Model I Badana cecha w populacji generalnej ma rozkład normalny N (m,s) przy czym s jest znane. Na podstawie n-elementowej próby zweryfikować hipotezę zerową: H0: m = m0 gdzie m0 jest konkretną, hipotetyczną wartością średniej, wobec hipotezy alternatywnej (dwustronnej): Test dla hipotezy zerowej jest następujący: na podstawnie wyników z próby oblicza się: 1.1. wartość1.2. średniej 1.3. wartość1.4. zmiennej standaryzowanej U wg wzoru: 2. z tablic rozkładu normalnego standaryzowanego N (0,1), dla założonego poziomu istotności a wyznacza się wartość krytyczną , taką by zachodziło: Obszar krytyczny testu określony jest w zależności: tzn. że gdy z próby otrzymamy taką wartość u, że zachodzi: to hipotezę zerową H0 odrzucamy. W przypadku przeciwnym, gdy zachodzi: nie ma podstaw do odrzucenia H0. Uwaga: Powyższy test jest testem z dwustronnym obszarem krytycznym i stosuje się go tylko dla dwustronnej hipotezy alternatywnej: Przypadek 1 Hipoteza alternatywna H1 ma postać: W tym przypadku stosuje się test z lewostronnym obszarem krytycznym, określonym nierównością: przy czym wartość ma wyznacza się z tablic rozkładu normalnego standaryzowanego w taki sposób, by była spełniona zależność: Hipotezę zerową odrzuca się, jeżeli wyznaczona z próby wartość zmiennej u spełnia nierówność: Przypadek 2 Hipoteza alternatywna H1 ma postać: W tym przypadku stosuje się test z prawostronnym obszarem krytycznym, określonym nierównością: przy czym wartość ma wyznacza się z tablic rozkładu normalnego standaryzowanego w taki sposób, by była spełniona zależność: Hipotezę zerową odrzuca się, jeżeli wyznaczona z próby wartość zmiennej u spełnia nierówność: Testy dla równości średnich dwóch populacji. Testy dla wariancji populacji.