Prodhimi i koeficientit të korrelacionit. Analiza e korrelacionit

Në kërkimin shkencor, shpesh bëhet e nevojshme të gjendet një marrëdhënie midis variablave rezultante dhe faktorëve (rendimenti i një kulture dhe sasia e reshjeve, lartësia dhe pesha e një personi në grupe homogjene sipas gjinisë dhe moshës, pulsi dhe temperatura e trupit. , etj.).

E dyta janë shenja që kontribuojnë në ndryshimin e atyre që lidhen me to (të parët).

Koncepti i analizës së korrelacionit

Ekziston një grup Bazuar në sa më sipër, mund të themi se analiza e korrelacionit është një metodë që përdoret për të testuar hipotezën e rëndësisë statistikore të dy ose më shumë variablave, nëse studiuesi mund t'i masë ato, por jo t'i ndryshojë.

Ekzistojnë përkufizime të tjera të konceptit në shqyrtim. Analiza e korrelacionit është një metodë përpunimi që shqyrton koeficientët e korrelacionit midis variablave. Në këtë rast, koeficientët e korrelacionit midis një çifti ose shumë çiftesh karakteristikash krahasohen për të vendosur marrëdhënie statistikore midis tyre. Analiza e korrelacionit është një metodë për studimin e varësisë statistikore midis ndryshoreve të rastësishme me praninë opsionale të një natyre funksionale strikte, në të cilën dinamika e një ndryshoreje të rastësishme çon në dinamikën e pritjes së një tjetri.

Koncepti i korrelacionit të rremë

Gjatë kryerjes së një analize korrelacioni, duhet pasur parasysh se ajo mund të kryhet në lidhje me çdo grup karakteristikash, shpesh absurde në raport me njëri-tjetrin. Ndonjëherë ata nuk kanë lidhje shkakësore me njëri-tjetrin.

Në këtë rast, flitet për një korrelacion të rremë.

Problemet e analizës së korrelacionit

Bazuar në përkufizimet e mësipërme, ne mund të formulojmë detyrat e mëposhtme të metodës së përshkruar: të marrim informacion për njërën nga variablat e dëshiruar duke përdorur tjetrin; të përcaktojë afërsinë e marrëdhënies ndërmjet variablave në studim.

Analiza e korrelacionit përfshin përcaktimin e marrëdhënies midis veçorive të studiuara, dhe për këtë arsye detyrat e analizës së korrelacionit mund të plotësohen me sa vijon:

  • identifikimi i faktorëve që kanë ndikimin më të madh në shenjën rezultante;
  • identifikimi i shkaqeve të paeksploruara më parë të marrëdhënieve;
  • ndërtimi i një modeli korrelacioni me analizën parametrike të tij;
  • studimi i rëndësisë së parametrave të komunikimit dhe vlerësimi i intervalit të tyre.

Lidhja e analizës së korrelacionit me regresionin

Metoda e analizës së korrelacionit shpesh nuk kufizohet në gjetjen e afërsisë së marrëdhënies midis sasive të studiuara. Ndonjëherë ai plotësohet nga përpilimi i ekuacioneve të regresionit, të cilat përftohen duke përdorur analizën me të njëjtin emër dhe që janë një përshkrim i korrelacionit midis veçorive rezultuese dhe faktoriale (faktoriale). Kjo metodë, së bashku me analizën në shqyrtim, përbën metodën

Kushtet për përdorimin e metodës

Faktorët e rezultatit varen nga një ose më shumë faktorë. Metoda e analizës së korrelacionit mund të përdoret nëse ka një numër të madh vëzhgimesh për vlerën e treguesve (faktorëve) efektivë dhe faktorëve, ndërsa faktorët e studiuar duhet të jenë sasiorë dhe të pasqyrohen në burime specifike. E para mund të përcaktohet nga ligji normal - në këtë rast, koeficientët e korrelacionit Pearson janë rezultat i analizës së korrelacionit, ose, nëse shenjat nuk i binden këtij ligji, përdoret koeficienti i korrelacionit të gradës Spearman.

Rregullat për përzgjedhjen e faktorëve të analizës së korrelacionit

Gjatë aplikimit të kësaj metode, është e nevojshme të përcaktohen faktorët që ndikojnë në treguesit e performancës. Ato përzgjidhen duke marrë parasysh faktin se duhet të ketë marrëdhënie shkakësore midis treguesve. Në rastin e krijimit të një modeli korrelacioni multifaktorial, zgjidhen ata që kanë një ndikim të rëndësishëm në treguesin që rezulton, ndërsa preferohet që në modelin e korrelacionit të mos përfshihen faktorë të ndërvarur me një koeficient korrelacioni çift më shumë se 0,85, si dhe ata. për të cilat lidhja me parametrin rezultante është indirekte ose funksionale.

Shfaqja e rezultateve

Rezultatet e analizës së korrelacionit mund të paraqiten në formë teksti dhe grafike. Në rastin e parë, ato paraqiten si një koeficient korrelacioni, në të dytin, si një grafik shpërhapjeje.

Nëse nuk ka korrelacion midis parametrave, pikat në diagram vendosen rastësisht, shkalla mesatare e lidhjes karakterizohet nga një shkallë më e madhe e rendit dhe karakterizohet nga një distancë pak a shumë uniforme e shenjave të shënuara nga mediana. Një lidhje e fortë priret në një vijë të drejtë dhe në r=1 grafiku i shpërndarjes është një vijë e sheshtë. Një korrelacion i kundërt karakterizohet nga drejtimi i grafikut nga e majta e sipërme në të djathtë të poshtme, një e drejtpërdrejtë - nga e majta e poshtme në këndin e sipërm të djathtë.

Paraqitja 3D e një grafiku shpërndarës (shpërndarje)

Përveç paraqitjes tradicionale të shpërndarjes 2D, aktualisht përdoret një paraqitje grafike 3D e analizës së korrelacionit.

Përdoret gjithashtu një matricë scatterplot, e cila shfaq të gjitha parcelat e çiftuara në një figurë të vetme në një format matricë. Për n variabla, matrica përmban n rreshta dhe n kolona. Diagrami i vendosur në kryqëzimin e rreshtit të i-të dhe kolonës j-të është një grafik i variablave Xi në krahasim me Xj. Kështu, çdo rresht dhe kolonë është një dimension, një qelizë e vetme shfaq një skemë të dy dimensioneve.

Vlerësimi i ngushtësisë së lidhjes

Shtrëngimi i korrelacionit përcaktohet nga koeficienti i korrelacionit (r): i fortë - r = ± 0,7 deri në ± 1, mesatar - r = ± 0,3 deri në ± 0,699, i dobët - r = 0 në ± 0,299. Ky klasifikim nuk është i rreptë. Figura tregon një skemë paksa të ndryshme.

Një shembull i aplikimit të metodës së analizës së korrelacionit

Një studim interesant u ndërmor në Britaninë e Madhe. Ai i kushtohet marrëdhënies së pirjes së duhanit me kancerin e mushkërive dhe është kryer nga analiza e korrelacionit. Ky vëzhgim është paraqitur më poshtë.

Të dhënat fillestare për analizën e korrelacionit

Grupi profesional

vdekshmërisë

Fermerët, pylltarët dhe peshkatarët

Minatorët dhe punëtorët e guroreve

Prodhuesit e gazit, koksit dhe kimikateve

Prodhuesit e qelqit dhe qeramikës

Punëtorët në furra, farkë, shkritore dhe mullinj petëzimi

Punonjësit e elektronikës dhe elektronikës

Inxhinieri dhe profesione të ngjashme

Prodhimi i përpunimit të drurit

Lëndët e lëkurës

Punëtorët e tekstilit

Prodhuesit e veshjeve të punës

Punëtorët në industrinë e ushqimit, pijeve dhe duhanit

Prodhuesit e letrës dhe printimit

Prodhuesit e produkteve të tjera

Ndërtuesit

Artistë dhe dekorues

Drejtues të motorëve të palëvizshëm, vinça, etj.

Punëtorët që nuk përfshihen diku tjetër

Punonjësit e transportit dhe komunikimit

Punëtorët e magazinës, magazinierët, ambalazhuesit dhe punëtorët e makinerive mbushëse

punonjësit e zyrës

Shitësit

Punonjësit e shërbimeve sportive dhe rekreative

Administratorët dhe menaxherët

Profesionistë, teknikë dhe artistë

Ne fillojmë analizën e korrelacionit. Zgjidhja për qartësi është më mirë të fillohet me një metodë grafike, për të cilën do të ndërtojmë një diagramë shpërndarjeje (shpërndarjeje).

Ajo tregon një lidhje të drejtpërdrejtë. Megjithatë, është e vështirë të nxirret një përfundim i qartë bazuar vetëm në metodën grafike. Prandaj, ne do të vazhdojmë të bëjmë analizën e korrelacionit. Një shembull i llogaritjes së koeficientit të korrelacionit është paraqitur më poshtë.

Duke përdorur mjete softuerike (në shembullin e MS Excel, do të përshkruhet më poshtë), ne përcaktojmë koeficientin e korrelacionit, i cili është 0.716, që do të thotë një marrëdhënie e fortë midis parametrave të studiuar. Le të përcaktojmë rëndësinë statistikore të vlerës së fituar sipas tabelës përkatëse, për të cilën duhet të zbresim 2 nga 25 çifte vlerash, si rezultat marrim 23 dhe për këtë rresht në tabelë gjejmë r kritike për p = 0,01 (meqenëse këto janë të dhëna mjekësore, një varësi më strikte, në raste të tjera mjafton p=0.05), që është 0.51 për këtë analizë korrelacioni. Shembulli tregoi se r e llogaritur është më e madhe se r kritike, vlera e koeficientit të korrelacionit konsiderohet statistikisht e rëndësishme.

Përdorimi i softuerit në analizën e korrelacionit

Lloji i përshkruar i përpunimit të të dhënave statistikore mund të kryhet duke përdorur softuer, në veçanti, MS Excel. Korrelacioni përfshin llogaritjen e parametrave të mëposhtëm duke përdorur funksionet:

1. Koeficienti i korrelacionit përcaktohet duke përdorur funksionin CORREL (array1; array2). Array1,2 është një qelizë e gamës së vlerave të variablave që rezultojnë dhe faktorëve.

Koeficienti i korrelacionit linear quhet gjithashtu koeficienti i korrelacionit Pearson, dhe për këtë arsye, duke filluar me Excel 2007, mund të përdorni funksionin me të njëjtat vargje.

Shfaqja grafike e analizës së korrelacionit në Excel bëhet duke përdorur panelin "Charts" me përzgjedhjen "Scatter Plot".

Pas specifikimit të të dhënave fillestare, marrim një grafik.

2. Vlerësimi i rëndësisë së koeficientit të korrelacionit të çiftit duke përdorur T-testin Student. Vlera e llogaritur e kriterit t krahasohet me vlerën tabelare (kritike) të këtij treguesi nga tabela përkatëse e vlerave të parametrit në shqyrtim, duke marrë parasysh nivelin e dhënë të rëndësisë dhe numrin e shkallëve të lirisë. Ky vlerësim bëhet duke përdorur funksionin STUDIV (probabilitet; shkallë_lirie).

3. Matrica e koeficientëve të korrelacionit të çiftit. Analiza kryhet duke përdorur mjetin "Analiza e të dhënave", në të cilën zgjidhet "Korrelacioni". Vlerësimi statistikor i koeficientëve të korrelacionit të çiftit kryhet duke krahasuar vlerën e tij absolute me vlerën tabelare (kritike). Kur koeficienti i korrelacionit të çiftit të llogaritur e kalon atë kritik, mund të themi, duke marrë parasysh shkallën e dhënë të probabilitetit, se hipoteza zero për rëndësinë e marrëdhënies lineare nuk hidhet poshtë.

Së fundi

Përdorimi i metodës së analizës së korrelacionit në kërkimin shkencor bën të mundur përcaktimin e marrëdhënies midis faktorëve të ndryshëm dhe treguesve të performancës. Në të njëjtën kohë, duhet të merret parasysh se një koeficient i lartë korrelacioni mund të merret edhe nga një çift absurd ose grup të dhënash, dhe për këtë arsye ky lloj analize duhet të kryhet në një grup mjaft të madh të dhënash.

Pas marrjes së vlerës së llogaritur të r, është e dëshirueshme që të krahasohet me r kritike për të konfirmuar rëndësinë statistikore të një vlere të caktuar. Analiza e korrelacionit mund të kryhet manualisht duke përdorur formula, ose duke përdorur mjete softuerike, në veçanti MS Excel. Këtu mund të ndërtoni gjithashtu një diagram të shpërndarjes (shpërndarjes) me qëllim të një paraqitje vizuale të marrëdhënies midis faktorëve të studiuar të analizës së korrelacionit dhe veçorisë që rezulton.

Një model korrelacioni (CM) është një program llogaritjeje që ofron një ekuacion matematik në të cilin treguesi që rezulton matet në varësi të një ose më shumë treguesve.

yx \u003d ao + a1x1

ku: y - treguesi i performancës, në varësi të faktorit x;

x - shenja e faktorit;

a1 - parametri KM, që tregon se sa do të ndryshojë treguesi efektiv y kur faktori x ndryshon me një, nëse në të njëjtën kohë të gjithë faktorët e tjerë që ndikojnë në y mbeten të pandryshuar;

ao - parametri KM, i cili tregon ndikimin e të gjithë faktorëve të tjerë në treguesin efektiv y, përveç shenjës së faktorit x.

Kur zgjidhni treguesit efektivë dhe faktorë të modelit, është e nevojshme të merret parasysh fakti që treguesi efektiv në zinxhirin e marrëdhënieve shkak-pasojë është në një nivel më të lartë se treguesit e faktorëve.

Karakteristikat e modelit të korrelacionit

Pas llogaritjes së parametrave të modelit të korrelacionit, llogaritet koeficienti i korrelacionit.

p - koeficienti i korrelacionit të çiftit, -1 ≤ p ≤ 1, tregon forcën dhe drejtimin e ndikimit të treguesit të faktorit në atë efektiv. Sa më afër 1, aq më e fortë është marrëdhënia, aq më afër 0, aq më e dobët është marrëdhënia. Nëse koeficienti i korrelacionit është pozitiv, atëherë lidhja është e drejtpërdrejtë, nëse është negative, është e anasjelltë.

Formula e koeficientit të korrelacionit: pxy \u003d (xy-x * 1 / y) / eh * ey

ex=xx2-(x)2; eu=y2-(y)2

Nëse CM është shumëfaktorial linear, që ka formën:

yx \u003d ao + a1x1 + a2x2 + ... + axp

atëherë për të llogaritet një koeficient korrelacioni i shumëfishtë.

0 ≤ Р ≤ 1 dhe tregon fuqinë e ndikimit të të gjithë treguesve të faktorëve të marrë së bashku në atë efektiv.

P \u003d 1- ((uh-uy) 2 / (yi - usr) 2)

Ku: uh - tregues efektiv - vlera e llogaritur;

ui - vlera aktuale;

usr - vlera aktuale, mesatare.

Vlera e llogaritur yx merret si rezultat i zëvendësimit në modelin e korrelacionit në vend të x1, x2, etj. vlerat e tyre reale.

Për modelet jolineare me një faktor dhe me shumë faktorë, raporti i korrelacionit llogaritet:

1 ≤ m ≤ 1;

Besohet se lidhja midis treguesve efektivë dhe faktorëve të përfshirë në model është e dobët nëse vlera e koeficientit të afërsisë së lidhjes (m) është brenda 0-0,3; nëse 0,3-0,7 - ngushtësia e lidhjes është mesatare; mbi 0.7-1 - lidhja është e fortë.

Meqenëse koeficienti i korrelacionit (i çiftuar) p, koeficienti i korrelacionit (i shumëfishtë) P, raporti i korrelacionit m janë vlera probabiliste, atëherë për to llogariten koeficientët e rëndësisë së tyre (të përcaktuara nga tabelat). Nëse këta koeficientë janë më të mëdhenj se vlera e tyre tabelare, atëherë koeficientët e afërsisë së lidhjes janë arsye të rëndësishme. Nëse koeficientët e rëndësisë së ngushtësisë së lidhjes janë më të vogla se vlerat tabelare, ose nëse vetë koeficienti i lidhjes është më i vogël se 0.7, atëherë jo të gjithë treguesit e faktorëve që ndikojnë ndjeshëm në rezultat përfshihen në model.

Koeficienti i përcaktimit tregon qartë përqindjen e treguesve të faktorëve të përfshirë në model që përcaktojnë formimin e rezultatit.

Nëse koeficienti i përcaktimit është më i madh se 50, atëherë modeli përshkruan në mënyrë adekuate procesin në studim, nëse është më pak se 50, atëherë është e nevojshme të ktheheni në fazën e parë të ndërtimit dhe të rishikoni përzgjedhjen e treguesve të faktorëve për përfshirje në model.

Koeficienti i Fisher ose kriteri i Fisher karakterizon efektivitetin e modelit në tërësi. Nëse vlera e llogaritur e koeficientit tejkalon vlerën e tabelës, atëherë modeli i ndërtuar është i përshtatshëm për analizë, si dhe tregues planifikimi, llogaritje për të ardhmen. Vlera e përafërt tabelare \u003d 1.5. Nëse vlera e llogaritur është më e vogël se vlera e tabelës, është e nevojshme që fillimisht të ndërtohet modeli, duke përfshirë faktorët që ndikojnë ndjeshëm në rezultat. Përveç efektivitetit të modelit në tërësi, çdo koeficient regresioni ndikon në materialitetin. Nëse vlera e llogaritur e këtij koeficienti e ka tejkaluar vlerën tabelare, atëherë koeficienti i regresionit do të jetë i rëndësishëm, nëse është më i vogël, atëherë treguesi i faktorit për të cilin llogaritet ky koeficient hiqet nga kampioni, llogaritjet fillojnë nga e para, por pa këtë faktor. .

Karakteristika të ndryshme mund të lidhen.

Ekzistojnë 2 lloje lidhjesh midis tyre:

  • funksionale;
  • korrelacioni.

Korrelacioni përkthyer në Rusisht - asgjë më shumë se një lidhje.
Në rastin e një korrelacioni, ekziston një korrespondencë e disa vlerave të një atributi me disa vlera të një atributi tjetër. Si shembuj, ne mund të konsiderojmë korrelacionet e vendosura midis:

  • gjatësia e putrave, qafës, sqepit te zogjtë si çafkat, vinçat, lejlekët;
  • treguesit e temperaturës së trupit dhe ritmit të zemrës.

Për shumicën e proceseve biomjekësore, prania e këtij lloji të lidhjes është vërtetuar statistikisht.

Metodat statistikore bëjnë të mundur vërtetimin e faktit të ekzistencës së ndërvarësisë së veçorive. Përdorimi i llogaritjeve speciale për këtë çon në vendosjen e koeficientëve të korrelacionit (masat e lidhjes).

Llogaritjet e tilla quhen analiza e korrelacionit. Ajo kryhet për të konfirmuar varësinë e 2 variablave (ndryshore të rastësishme) nga njëra-tjetra, e cila shprehet me koeficientin e korrelacionit.

Përdorimi i metodës së korrelacionit na lejon të zgjidhim disa probleme:

  • të identifikojë marrëdhënien ndërmjet parametrave të analizuar;
  • njohja e pranisë së një korrelacioni lejon zgjidhjen e problemeve të parashikimit. Kështu, ekziston një mundësi reale për të parashikuar sjelljen e një parametri bazuar në analizën e sjelljes së një parametri tjetër të ndërlidhur;
  • klasifikimi i bazuar në përzgjedhjen e veçorive të pavarura nga njëra-tjetra.

Për variablat:

  • lidhur me shkallën rendore, llogaritet koeficienti Spearman;
  • lidhur me shkallën e intervalit - koeficienti Pearson.

Këta janë parametrat më të përdorur, por ka edhe të tjerë.

Vlera e koeficientit mund të shprehet si pozitive ashtu edhe negative.

Në rastin e parë, me një rritje të vlerës së njërës ndryshore, vërehet një rritje në të dytën. Me një koeficient negativ, modeli është i kundërt.

Për çfarë është koeficienti i korrelacionit?

Variablat e rastësishëm të lidhura me njëri-tjetrin mund të kenë një natyrë krejtësisht të ndryshme të kësaj lidhjeje. Nuk do të jetë domosdoshmërisht funksional, rasti kur ka një lidhje të drejtpërdrejtë midis sasive. Më shpesh, të dyja sasitë ndikohen nga një grup i tërë faktorësh të ndryshëm, në rastet kur ato janë të përbashkëta për të dy sasitë, vërehet formimi i modeleve të lidhura.

Kjo do të thotë se fakti i vërtetuar statistikisht i ekzistencës së një marrëdhënieje midis sasive nuk është një konfirmim se shkaku i ndryshimeve të vëzhguara është vërtetuar. Si rregull, studiuesi arrin në përfundimin se ekzistojnë dy pasoja të ndërlidhura.

Vetitë e koeficientit të korrelacionit

Kjo statistikë ka këto karakteristika:

  • vlera e koeficientit varion nga -1 në +1. Sa më afër vlerave ekstreme, aq më e fortë është marrëdhënia pozitive ose negative midis parametrave linearë. Në rastin e një vlere zero, flasim për mungesën e korrelacionit midis veçorive;
  • një vlerë pozitive e koeficientit tregon se në rastin e rritjes së vlerës së një atributi, vërehet një rritje në të dytin (korrelacion pozitiv);
  • vlera negative - në rastin e rritjes së vlerës së një atributi, vërehet një rënie në të dytin (korrelacion negativ);
  • afrimi i vlerës së treguesit në pikat ekstreme (ose -1 ose +1) tregon praninë e një marrëdhënieje shumë të fortë lineare;
  • treguesit e tipareve mund të ndryshojnë me një vlerë konstante të koeficientit;
  • koeficienti i korrelacionit është një sasi pa dimension;
  • prania e një korrelacioni nuk është një konfirmim i detyrueshëm i një marrëdhënieje shkakësore.

Vlerat e koeficientit të korrelacionit

Forca e korrelacionit mund të karakterizohet duke përdorur shkallën Cheldok, në të cilën një karakteristikë cilësore korrespondon me një vlerë të caktuar numerike.

Në rast të korrelacionit pozitiv në vlerë:

  • 0-0,3 - korrelacioni është shumë i dobët;
  • 0,3-0,5 - i dobët;
  • 0,5-0,7 - forca mesatare;
  • 0,7-0,9 - e lartë;
  • 0,9-1 - forca shumë e lartë e korrelacionit.

Shkalla mund të përdoret gjithashtu për korrelacion negativ. Në këtë rast, karakteristikat cilësore zëvendësohen nga ato të kundërta.

Ju mund të përdorni shkallën e thjeshtuar Cheldok, në të cilën dallohen vetëm 3 shkallëzime të fuqisë së korrelacionit:

  • shumë të fortë - tregues ± 0,7 - ± 1;
  • mesatare - tregues ± 0,3 - ± 0,699;
  • shumë i dobët - tregues 0 - ± 0,299.

Ky tregues statistikor lejon jo vetëm të testojë supozimin e ekzistencës së një marrëdhënie lineare midis veçorive, por edhe të vendosë forcën e tij.

Llojet e koeficientit të korrelacionit

Koeficientët e korrelacionit mund të klasifikohen sipas shenjës dhe vlerës:

  • pozitive;
  • i pavlefshëm;
  • negativ.

Në varësi të vlerave të analizuara, koeficienti llogaritet:

  • Pearson;
  • Shtizëtar;
  • Kendala;
  • Shenjat Fechner;
  • përputhshmëria ose korrelacioni i renditjes së shumëfishtë.

Koeficienti i korrelacionit Pearson përdoret për të vendosur lidhje të drejtpërdrejta midis vlerave absolute të variablave. Në këtë rast, shpërndarjet e të dy serive të variablave duhet t'i afrohen normales. Variablat që krahasohen duhet të ndryshojnë nga i njëjti numër karakteristikash të ndryshme. Shkalla që përfaqëson variablat duhet të jetë ose një shkallë intervali ose një shkallë raporti.

  • vendosja e saktë e fuqisë së korrelacionit;
  • krahasimi i karakteristikave sasiore.

Ka disa disavantazhe të përdorimit të koeficientit linear të korrelacionit të Pearson:

  • metoda është e paqëndrueshme në rastin e vlerave numerike të jashtme;
  • Duke përdorur këtë metodë, është e mundur të përcaktohet forca e korrelacionit vetëm për një marrëdhënie lineare; për llojet e tjera të marrëdhënieve të ndërsjella të variablave, duhet të përdoren metoda të analizës së regresionit.

Korrelacioni i renditjes përcaktohet me metodën Spearman, e cila bën të mundur studimin statistikor të marrëdhënies midis fenomeneve. Falë këtij koeficienti, llogaritet shkalla aktuale e paralelizmit të dy serive të tipareve të shprehura në mënyrë sasiore, si dhe vlerësohet afërsia e marrëdhënies së identifikuar.

  • nuk kërkon një përkufizim të saktë të vlerës së fuqisë së korrelacionit;
  • treguesit e krahasuar kanë vlera sasiore dhe atributive;
  • krahasimi i rreshtave të veçorive me variantet e hapura të vlerave.

Metoda e Spearman i referohet metodave të analizës joparametrike, kështu që nuk ka nevojë të kontrollohet normaliteti i shpërndarjes së veçorive. Përveç kësaj, ju lejon të krahasoni treguesit e shprehur në shkallë të ndryshme. Për shembull, krahasimi i vlerave të numrit të qelizave të kuqe të gjakut në një vëllim të caktuar gjaku (shkallë e vazhdueshme) dhe vlerësimi i ekspertit, i shprehur në pikë (shkalla rendore).

Efikasiteti i metodës ndikohet negativisht nga një ndryshim i madh midis vlerave të vlerave të krahasuara. Metoda është gjithashtu joefektive në rastet kur vlera e matur karakterizohet nga një shpërndarje e pabarabartë e vlerave.

Llogaritja hap pas hapi e koeficientit të korrelacionit në Excel

Llogaritja e koeficientit të korrelacionit përfshin ekzekutimin sekuencial të një numri operacionesh matematikore.

Formula e mësipërme për llogaritjen e koeficientit Pearson tregon se sa i mundimshëm është ky proces nëse bëhet me dorë.
Përdorimi i aftësive të Excell përshpejton procesin e gjetjes së koeficientit herë pas here.

Mjafton të ndiqni një algoritëm të thjeshtë veprimesh:

  • futja e informacionit bazë - një kolonë me vlera x dhe një kolonë me vlera y;
  • në vegla, zgjidhet dhe hapet skeda Formula;
  • në skedën që hapet, zgjidhni "Fut funksionin fx";
  • në kutinë e dialogut që hapet, zgjidhet funksioni statistikor "Correl", i cili ju lejon të llogaritni koeficientin e korrelacionit midis 2 grupeve të të dhënave;
  • të dhënat futen në dritaren që hapet: grupi 1 - diapazoni i vlerave të kolonës x (të dhënat duhet të zgjidhen), grupi 2 - diapazoni i vlerave të kolonës y;
  • shtypet tasti "OK", rezultati i llogaritjes së koeficientit shfaqet në rreshtin "vlera";
  • përfundim në lidhje me praninë e një korrelacioni midis 2 grupeve të të dhënave dhe fuqisë së tij.

Koeficienti i korrelacionit (ose koeficienti i korrelacionit linear) shënohet si "r" (në raste të rralla, si "ρ") dhe karakterizon korrelacionin linear (d.m.th., marrëdhënien që jepet nga një vlerë dhe drejtim) e dy ose më shumë ndryshoreve. . Vlera e koeficientit qëndron midis -1 dhe +1, domethënë, korrelacioni mund të jetë pozitiv dhe negativ. Nëse koeficienti i korrelacionit është -1, ekziston një korrelacion i përsosur negativ; nëse koeficienti i korrelacionit është +1, ekziston një korrelacion i përsosur pozitiv. Në raste të tjera, ka një korrelacion pozitiv, një korrelacion negativ ose asnjë korrelacion midis dy variablave. Koeficienti i korrelacionit mund të llogaritet manualisht, me kalkulatorë falas në internet ose me një kalkulator të mirë grafik.

Hapat

Llogaritja e koeficientit të korrelacionit me dorë

    Mblidhni të dhëna. Para se të filloni të llogaritni koeficientin e korrelacionit, shqyrtoni çiftin e dhënë të numrave. Është më mirë t'i shkruani ato në një tabelë që mund të vendoset vertikalisht ose horizontalisht. Etiketoni çdo rresht ose kolonë si "x" dhe një "y".

    • Për shembull, jepen katër palë vlerash (numra) të variablave "x" dhe "y". Ju mund të krijoni tabelën e mëposhtme:
      • x || y
      • 1 || 1
      • 2 || 3
      • 4 || 5
      • 5 || 7
  1. Llogaritni mesataren aritmetike "x". Për ta bërë këtë, shtoni të gjitha vlerat e "x" dhe më pas ndani rezultatin me numrin e vlerave.

    Gjeni mesataren aritmetike "y". Për ta bërë këtë, ndiqni të njëjtat hapa, d.m.th., shtoni të gjitha vlerat e "y" dhe më pas ndani shumën me numrin e vlerave.

    Llogaritni devijimin standard të "x". Pasi të keni llogaritur mesataret e x dhe y, gjeni devijimet standarde të këtyre variablave. Devijimi standard llogaritet duke përdorur formulën e mëposhtme:

    Llogaritni devijimin standard "y". Ndiqni hapat në hapin e mëparshëm. Përdorni të njëjtën formulë, por zëvendësoni vlerat "y" në të.

    Shkruani formulën bazë për llogaritjen e koeficientit të korrelacionit. Kjo formulë përfshin mesataret, devijimet standarde dhe numrin (n) të çifteve të numrave të të dy variablave. Koeficienti i korrelacionit shënohet si "r" (në raste të rralla, si "ρ"). Ky artikull përdor formulën për të llogaritur koeficientin e korrelacionit Pearson.

    Ju keni llogaritur mesataret dhe devijimet standarde të të dy variablave, kështu që mund të përdorni formulën për të llogaritur koeficientin e korrelacionit. Kujtoni se "n" është numri i çifteve të vlerave të të dy variablave. Vlera e sasive të tjera është llogaritur më parë.

    • Në shembullin tonë, llogaritjet do të shkruhen si më poshtë:
    • ρ = (1 n − 1) Σ (x − μ x σ x) ∗ (y − μ y σ y) (\displaystyle \rho =\left((\frac (1)(n-1))\djathtas) \Sigma \left((\frac (x-\mu _(x))(\sigma _(x)))\djathtas)*\left((\frac (y-\mu _(y))(\sigma _(y)))\djathtas))
    • ρ = (1 3) ∗ (\displaystyle \rho =\left((\frac (1)(3))\djathtas)*)[ (1 − 3 1 , 83) ∗ (1 − 4 2 , 58) + (2 − 3 1 , 83) ∗ (3 − 4 2 , 58) (\displaystyle \left((\frac (1-3)( 1.83))\djathtas)*\majtas((\frac (1-4)(2.58))\djathtas)+\left((\frac (2-3)(1.83))\djathtas) *\ majtas((\ frak (3-4)(2,58))\djathtas))
      + (4 − 3 1 , 83) ∗ (5 − 4 2 , 58) + (5 − 3 1 , 83) ∗ (7 − 4 2 , 58) (\displaystyle +\left((\frac (4-3 ( (\frac (7-4)(2,58))\djathtas))]
    • ρ = (1 3) ∗ (6 + 1 + 1 + 6 4 , 721) (\displaystyle \rho =\left((\frac (1)(3))\djathtas)*\left((\frac (6 +1+1+6)(4721))\djathtas))
    • ρ = (1 3) ∗ 2 , 965 (\displaystyle \rho =\left((\frac (1)(3))\djathtas)*2,965)
    • ρ = (2 , 965 3) (\displaystyle \rho =\left((\frac (2,965)(3))\djathtas))
    • ρ = 0. 988 (\displaystyle \rho =0.988)
  2. Analizoni rezultatin. Në shembullin tonë, koeficienti i korrelacionit është 0.988. Kjo vlerë në një farë mënyre karakterizon një grup të caktuar çiftesh numrash. Kushtojini vëmendje shenjës dhe madhësisë së vlerës.

    • Meqenëse vlera e koeficientit të korrelacionit është pozitive, ekziston një korrelacion pozitiv midis variablave "x" dhe "y". Kjo do të thotë, kur vlera e "x" rritet, vlera e "y" gjithashtu rritet.
    • Meqenëse vlera e koeficientit të korrelacionit është shumë afër +1, vlerat e ndryshoreve x dhe y janë shumë të korreluara. Nëse vendosni pika në planin koordinativ, ato do të vendosen afër një vije të drejtë.

    Përdorimi i kalkulatorëve në internet për të llogaritur koeficientin e korrelacionit

    1. Gjeni një kalkulator në internet për të llogaritur koeficientin e korrelacionit. Ky koeficient shpesh llogaritet në statistika. Nëse ka shumë çifte numrash, është praktikisht e pamundur të llogaritet me dorë koeficienti i korrelacionit. Prandaj, ekzistojnë kalkulatorë në internet për llogaritjen e koeficientit të korrelacionit. Në motorin e kërkimit, shkruani "Llogaritësi i koeficientit të korrelacionit" (pa thonjëza).

      Futni të dhëna. Lexoni udhëzimet në faqe për të futur saktë të dhënat (çifte numrash). Është jashtëzakonisht e rëndësishme të futni çiftet e duhura të numrave; përndryshe do të merrni rezultat të gabuar. Mbani në mend se faqet e internetit të ndryshme kanë formate të ndryshme të futjes së të dhënave.

      • Për shembull, në faqen http://ncalculators.com/statistics/correlation-coefficient-calculator.htm, vlerat e variablave "x" dhe "y" futen në dy rreshta horizontale. Vlerat ndahen me presje. Kjo do të thotë, në shembullin tonë, vlerat e "x" futen si kjo: 1,2,4,5, dhe vlerat e "y" janë si kjo: 1,3,5,7.
      • Në një faqe tjetër, http://www.alcula.com/calculators/statistics/correlation-coefficient/, të dhënat futen vertikalisht; në këtë rast, mos i ngatërroni çiftet përkatëse të numrave.
    2. Llogaritni koeficientin e korrelacionit. Pasi të keni futur të dhënat, thjesht klikoni në butonin "Llogarit", "Llogarit" ose të ngjashëm për të marrë rezultatin.

    Përdorimi i një kalkulatori grafik

    1. Futni të dhëna. Merrni një kalkulator grafik, kaloni në modalitetin e llogaritjes statistikore dhe zgjidhni komandën Edit.

      • Në kalkulatorë të ndryshëm, duhet të shtypni çelësa të ndryshëm. Ky artikull fokusohet në kalkulatorin Texas Instruments TI-86.
      • Për të kaluar në modalitetin e llogaritjes statistikore, shtypni - Stat (mbi tastin "+"). Më pas shtypni F2 - Edit (Edit).
    2. Fshini të dhënat e mëparshme të ruajtura. Shumica e kalkulatorëve mbajnë statistikat tuaja të futura derisa t'i pastroni ato. Për të shmangur ngatërrimin e të dhënave të vjetra me të dhënat e reja, fillimisht fshini çdo informacion të ruajtur.

      • Përdorni tastet e shigjetave për të lëvizur kursorin dhe nënvizoni titullin "xStat". Më pas shtypni Clear dhe Enter për të pastruar të gjitha vlerat e futura në kolonën xStat.
      • Përdorni tastet e shigjetave për të nënvizuar titullin "yStat". Më pas shtypni Clear dhe Enter për të pastruar të gjitha vlerat e futura në kolonën yStat.
    3. Futni të dhënat fillestare. Përdorni tastet e shigjetave për të lëvizur kursorin në qelizën e parë nën titullin "xStat". Futni vlerën e parë dhe shtypni Enter. Në fund të ekranit do të shfaqet "xStat (1) = __", me vlerën e futur në vend të një hapësire. Pasi të shtypni Enter, vlera e futur do të shfaqet në tabelë dhe kursori do të kalojë në rreshtin tjetër; kjo do të shfaqë "xStat(2) = __" në fund të ekranit.

      • Futni të gjitha vlerat e ndryshores "x".
      • Pasi të keni futur të gjitha vlerat për ndryshoren x, përdorni tastet me shigjeta për të lundruar në kolonën yStat dhe futni vlerat për ndryshoren y.
      • Pasi të keni futur të gjitha çiftet e numrave, shtypni Exit për të pastruar ekranin dhe për të dalë nga modaliteti i grumbullimit.
Qëllimi i analizës së korrelacionitështë të identifikojë një vlerësim të fuqisë së lidhjes midis variablave (veçorive) të rastësishme që karakterizon një proces real.
Problemet e analizës së korrelacionit:
a) Matja e shkallës së lidhjes (ngurtësia, forca, ashpërsia, intensiteti) i dy ose më shumë dukurive.
b) Përzgjedhja e faktorëve që kanë ndikimin më të rëndësishëm në atributin që rezulton, bazuar në matjen e shkallës së lidhjes ndërmjet dukurive. Faktorë të rëndësishëm në këtë aspekt përdoren më tej në analizën e regresionit.
c) Zbulimi i marrëdhënieve shkakësore të panjohura.

Format e manifestimit të marrëdhënieve janë shumë të ndryshme. Si llojet e tyre më të zakonshme, funksionale (të plota) dhe lidhje korrelacioni (e paplotë)..
korrelacioni manifestohet mesatarisht, për vëzhgimet masive, kur vlerat e dhëna të ndryshores së varur korrespondojnë me një numër të caktuar vlerash probabilistike të ndryshores së pavarur. Lidhja quhet korrelacion, nëse secila vlerë e atributit faktor korrespondon me një vlerë të mirëpërcaktuar jo të rastësishme të atributit rezultant.
Fusha e korrelacionit shërben si një paraqitje vizuale e tabelës së korrelacionit. Është një grafik ku vlerat X janë paraqitur në boshtin e abshisës, vlerat Y janë paraqitur përgjatë boshtit të ordinatave dhe kombinimet e X dhe Y tregohen me pika. Prania e një lidhjeje mund të gjykohet nga vendndodhja e pikat.
Treguesit e ngushtësisë bëjnë të mundur karakterizimin e varësisë së variacionit të tiparit që rezulton nga variacioni i faktorit tipar.
Një tregues më i mirë i shkallës së ngushtësisë korrelacioniështë koeficienti linear i korrelacionit. Gjatë llogaritjes së këtij treguesi, merren parasysh jo vetëm devijimet e vlerave individuale të atributit nga mesatarja, por edhe madhësia e këtyre devijimeve.

Çështjet kryesore të kësaj teme janë ekuacionet e marrëdhënies së regresionit midis tiparit rezultues dhe ndryshores shpjeguese, metoda e katrorëve më të vegjël për vlerësimin e parametrave të modelit të regresionit, analizimi i cilësisë së ekuacionit të regresionit që rezulton, ndërtimi i intervaleve të besimit për parashikimin e vlerat e veçorisë që rezulton duke përdorur ekuacionin e regresionit.

Shembulli 2


Sistemi i ekuacioneve normale.
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
Për të dhënat tona, sistemi i ekuacioneve ka formën
30a + 5763 b = 21460
5763 a + 1200261 b = 3800360
Nga ekuacioni i parë shprehim A dhe zëvendësojeni në ekuacionin e dytë:
Marrim b = -3.46, a = 1379.33
Ekuacioni i regresionit:
y = -3,46 x + 1379,33

2. Llogaritja e parametrave të ekuacionit të regresionit.
Mjetet e mostrës.



Ndryshimet e mostrës:


devijimi standard


1.1. Koeficienti i korrelacionit
kovarianca.

Ne llogarisim treguesin e afërsisë së komunikimit. Një tregues i tillë është një koeficient linear korrelacioni selektiv, i cili llogaritet me formulën:

Koeficienti linear i korrelacionit merr vlera nga -1 në +1.
Marrëdhëniet ndërmjet veçorive mund të jenë të dobëta ose të forta (të afërta). Kriteret e tyre vlerësohen në shkallën Chaddock:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
Në shembullin tonë, marrëdhënia midis veçorisë Y dhe faktorit X është e lartë dhe e anasjelltë.
Për më tepër, koeficienti i korrelacionit të çiftit linear mund të përcaktohet në terma të koeficientit të regresionit b:

1.2. Ekuacioni i regresionit(vlerësimi i ekuacionit të regresionit).

Ekuacioni i regresionit linear është y = -3,46 x + 1379,33

Koeficienti b = -3.46 tregon ndryshimin mesatar të treguesit efektiv (në njësi y) me një rritje ose ulje të vlerës së faktorit x për njësi të matjes së tij. Në këtë shembull, me një rritje prej 1 njësi, y zvogëlohet me një mesatare prej -3.46.
Koeficienti a = 1379.33 tregon zyrtarisht nivelin e parashikuar të y, por vetëm nëse x=0 është afër vlerave të mostrës.
Por nëse x=0 është larg vlerave të mostrës x, atëherë një interpretim i fjalëpërfjalshëm mund të çojë në rezultate të pasakta, dhe edhe nëse vija e regresionit përshkruan me saktësi vlerat e kampionit të vëzhguar, nuk ka asnjë garanci se kjo do të jetë gjithashtu rasti kur ekstrapolohet majtas ose djathtas.
Duke zëvendësuar vlerat përkatëse të x në ekuacionin e regresionit, është e mundur të përcaktohen vlerat e përafruara (të parashikuara) të treguesit efektiv y(x) për çdo vëzhgim.
Marrëdhënia midis y dhe x përcakton shenjën e koeficientit të regresionit b (nëse > 0 - marrëdhënie direkte, përndryshe - inverse). Në shembullin tonë, marrëdhënia është e kundërt.
1.3. koeficienti i elasticitetit.
Është e padëshirueshme të përdoren koeficientët e regresionit (në shembullin b) për një vlerësim të drejtpërdrejtë të ndikimit të faktorëve në atributin efektiv në rast se ka një ndryshim në njësitë e matjes së treguesit efektiv y dhe atributit të faktorit x.
Për këto qëllime, llogariten koeficientët e elasticitetit dhe koeficientët beta.
Koeficienti mesatar i elasticitetit E tregon se sa përqind rezultati do të ndryshojë mesatarisht në agregat nga vlera mesatare e tij gjatë ndryshimit të faktorit x 1% e vlerës mesatare të saj.
Koeficienti i elasticitetit gjendet me formulën:


Koeficienti i elasticitetit është më i vogël se 1. Prandaj, nëse X ndryshon me 1%, Y do të ndryshojë me më pak se 1%. Me fjalë të tjera, ndikimi i X në Y nuk është i rëndësishëm.
Koeficienti beta tregon se nga cila pjesë e vlerës së devijimit të tij standard do të ndryshojë mesatarisht vlera e atributit efektiv kur atributi i faktorit ndryshon me vlerën e devijimit standard të tij me vlerën e variablave të pavarur të mbetur të fiksuar në një nivel konstant:

ato. një rritje në x me vlerën e devijimit standard S x do të çojë në një ulje të vlerës mesatare të Y me 0.74 devijimi standard S y.
1.4. Gabim përafrimi.
Le të vlerësojmë cilësinë e ekuacionit të regresionit duke përdorur gabimin absolut të përafrimit. Gabimi mesatar i përafrimit është devijimi mesatar i vlerave të llogaritura nga ato aktuale:


Meqenëse gabimi është më pak se 15%, ky ekuacion mund të përdoret si regresion.
Analiza e dispersionit.
Detyra e analizës së variancës është të analizojë variancën e ndryshores së varur:
∑(y i - y cp) 2 = ∑(y(x) - y cp) 2 + ∑(y - y(x)) 2
Ku
∑(y i - y cp) 2 - shuma totale e devijimeve në katror;
∑(y(x) - y cp) 2 - shuma e devijimeve në katror për shkak të regresionit ("shpjeguar" ose "faktorial");
∑(y - y(x)) 2 - shuma e mbetur e devijimeve në katror.
Raporti teorik i korrelacionit sepse një marrëdhënie lineare është e barabartë me koeficientin e korrelacionit r xy.
Për çdo formë varësie, ngushtësia e lidhjes përcaktohet duke përdorur koeficienti i korrelacionit të shumëfishtë:

Ky koeficient është universal, pasi pasqyron ngushtësinë e lidhjes dhe saktësinë e modelit, si dhe mund të përdoret për çdo formë lidhjeje midis variablave. Kur ndërtohet një model korrelacioni me një faktor, koeficienti i korrelacionit të shumëfishtë është i barabartë me koeficientin e korrelacionit të çiftit r xy.
1.6. Koeficienti i përcaktimit.
Katrori i koeficientit të korrelacionit (i shumëfishtë) quhet koeficienti i përcaktimit, i cili tregon proporcionin e variacionit të atributit rezultant të shpjeguar me variacionin e atributit të faktorit.
Më shpesh, duke dhënë një interpretim të koeficientit të përcaktimit, ai shprehet në përqindje.
R 2 \u003d -0,74 2 \u003d 0,5413
ato. në 54.13% të rasteve, ndryshimet në x çojnë në një ndryshim në y. Me fjalë të tjera, saktësia e përzgjedhjes së ekuacionit të regresionit është mesatare. Pjesa e mbetur prej 45.87% e ndryshimit në Y është për shkak të faktorëve që nuk janë marrë parasysh në model.

Bibliografi

  1. Ekonometria: Teksti mësimor / Ed. I.I. Eliseeva. - M.: Financa dhe statistika, 2001, f. 34..89.
  2. Magnus Ya.R., Katyshev P.K., Peresetsky A.A. Ekonometria. Kursi fillestar. Tutorial. - Botimi i 2-të, Rev. – M.: Delo, 1998, f. 17..42.
  3. Workshop mbi ekonometrinë: Proc. shtesa / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko dhe të tjerët; Ed. I.I. Eliseeva. - M.: Financa dhe statistika, 2001, f. 5..48.