Шетелдіктерді қалай анықтауға болады: 10 қадам (суреттермен)

Мазмұны:

Шетелдіктерді қалай анықтауға болады: 10 қадам (суреттермен)
Шетелдіктерді қалай анықтауға болады: 10 қадам (суреттермен)

Бейне: Шетелдіктерді қалай анықтауға болады: 10 қадам (суреттермен)

Бейне: Шетелдіктерді қалай анықтауға болады: 10 қадам (суреттермен)
Бейне: ҚАЛАЙ КЕЗ КЕЛГЕН ТОВАРДЫ САТУҒА БОЛАДЫ? | САТУ ӨНЕРІ СЫРЛАРЫ 2024, Мамыр
Anonim

Статистика бойынша, аутриент немесе «сыртқа шығу» - бұл деректер немесе деректер жиынтығының кез келген басқа нүктесінен өте алыс ауытқу нүктесі (деректер жиынтығы деректер деп аталады). Көбінесе, деректер жинағындағы штаттан тыс көрсеткіш статистикке өлшеу кезінде ауытқулар немесе эксперименттік қателер туралы ескерту бола алады, бұл статистиканы мәліметтер жиынынан шеттетуді алып тастауға әкелуі мүмкін. Егер статистикалар деректер жиынынан шеттетулерді алып тастаса, зерттеуден алынған қорытындылар мүлде өзгеше болуы мүмкін. Статистикалық мәліметтер жиынтығын дұрыс түсінуді қамтамасыз ету үшін шектен шығуды есептеу мен талдауды білу өте маңызды.

Қадам

Шығындарды есептеу 1 -қадам
Шығындарды есептеу 1 -қадам

Қадам 1. Потенциалды мәннен тыс деректерді анықтауды үйреніңіз

Деректер жиынынан деректерді өшіруді немесе алмауды шешпес бұрын, әрине, біз қай деректердің сыртқа шығуға мүмкіндігі бар екенін анықтауымыз керек. Жалпы алғанда, аутрич - бұл бір деректер жиынтығындағы басқа мәліметтерден өте алыс ауытқу нүктесі, яғни басқаша айтқанда, басқа мәліметтерден «тыс». Деректер кестесінде немесе (атап айтқанда) графикте ауытқуларды анықтау әдетте оңай. Егер деректер жиынының біреуі графикпен визуалды түрде сипатталса, онда басқа деректерден «өте алыс» сияқты болады. Егер, мысалы, деректер жиынындағы мәліметтердің көпшілігі түзу сызықты құрайтын болса, онда сыртқы нүкте сол сызықты құрады деп түсіндірілмейді.

Бөлмедегі 12 түрлі объектінің температурасын көрсететін деректер жиынтығын қарастырайық. Егер 11 объектінің температурасы шамамен 70 Фаренгейт (21 градус Цельсий) болса, бірақ 12 -ші пештің температурасы 300 Фаренгейт (150 градус Цельсий) болса, онда пештің температурасы өте ықтимал екенін бірден байқауға болады. сыртқы

Есептегіштерді есептеңіз 2 -қадам
Есептегіштерді есептеңіз 2 -қадам

2 -қадам. Датументтерді ең төменнен жоғарыға дейін жинақтаңыз

Деректер жинағындағы ауытқуларды есептеудің бірінші қадамы - бұл деректер жиынының медианасын (орташа мәнін) табу. Егер деректер жиынындағы деректер кішіден үлкенге дейін реттелсе, бұл тапсырма өте қарапайым болады. Сонымен, жалғастырмас бұрын, деректерді осындай мәліметтер жиынына орналастырыңыз.

Жоғарыдағы мысалды жалғастырайық. Бұл бөлмедегі бірнеше заттардың температурасын білдіретін деректер жиынтығы: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Егер біз деректерді төменнен жоғарыға қарай реттесек, онда мәліметтердің реті: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300} болады

Есептегіштерді есептеңіз 3 -қадам
Есептегіштерді есептеңіз 3 -қадам

Қадам 3. Деректер жиынының медианасын есептеңіз

Деректер жинағының медианасы - бұл нүктенің екінші жартысы сол нүктеден жоғары, ал қалған жартысы оның астында орналасқан - бұл деректер жиынының «ортасында» орналасқан нүкте. Егер деректер жиынындағы деректер саны тақ болса, онда оны табу өте оңай - медианасы - жоғарыда және төменде бірдей сан болатын деректер. Алайда, егер деректер жиынтығындағы деректер саны жұп болса, онда бірде -бір дерек ортасына сәйкес келмейтіндіктен, медиананы табу үшін ортасындағы 2 дата орта есеппен алынады. Ескеру керек, ауытқуларды есептеу кезінде медианаға әдетте Q2-ni айнымалысы тағайындалады, себебі Q2 Q1 мен Q3 арасында, төменгі және жоғарғы квартиль, біз оны кейінірек талқылаймыз.

  • Деректер саны жұп болатын деректер жиынтығымен шатастыруға болмайды-2 орташа деректердің орташа мәні көбінесе деректер жиынында жоқ санды қайтарады-бұл жақсы. Алайда, егер 2 орташа деректер бірдей сан болса, онда орташа, әрине, сол сан болады, бұл да жақсы.
  • Жоғарыдағы мысалда бізде 12 деректер бар. Орташа 2 нүкте-сәйкесінше 70 және 71-ші 6-шы және 7-ші деректер, сондықтан біздің деректер жиынының медианасы осы 2 санның орташа мәні: ((70 + 71) / 2), = 70.5.
Есептегіштерді есептеңіз 4 -қадам
Есептегіштерді есептеңіз 4 -қадам

Қадам 4. Төменгі квартилді есептеңіз

Q1 айнымалысын беретін бұл мән - бұл мәліметтердің 25 пайызын (немесе төрттен бір бөлігін) білдіретін деректер. Басқаша айтқанда, бұл медианадан төмен орналасқан мәліметтерді екіге бөлетін деректер. Егер медианадан төмен мәліметтердің саны жұп болса, медиананың өзін табатындай, Q1 -ді табу үшін тағы да ортасындағы 2 деректерді ортаға салу керек.

Біздің мысалда медианадан жоғары орналасқан 6 дата және медианадан төмен орналасқан 6 дата бар. Бұл төменгі квартилді табу үшін медианадан төмен 6 датумның ортасындағы 2 деректерді орта есеппен алуымыз керек дегенді білдіреді. Медианадан төмен 6 датумның 3 -ші және 4 -ші деректері - 70. Демек, орташа мән ((70 + 70) / 2), = 70. 70 біздің бірінші тоқсанға айналады.

Есептегіштерді есептеңіз 5 -қадам
Есептегіштерді есептеңіз 5 -қадам

5 -қадам. Жоғарғы квартилді есептеңіз

Q3 айнымалысын беретін бұл мән - бұл деректер жиынында 25 пайыздық деректер бар деректер. Q3 табу Q1 табумен бірдей, тек бұл жағдайда біз медианадан төмен емес, медианадан жоғары деректерді қарастырамыз.

Жоғарыда келтірілген мысалды жалғастыра отырып, медианадан жоғары 6 датумның ортасындағы 2 дата 71 және 72. Бұл 2 деректердің орташа мәні ((71 + 72)/2), = 71, 5. 71, 5 - біздің 3 -тоқсан.

6 -қадамнан тыс мәндерді есептеңіз
6 -қадамнан тыс мәндерді есептеңіз

Қадам 6. Квартал аралық қашықтықты табыңыз

Енді біз Q1 және Q3 тапқандықтан, осы екі айнымалы арасындағы қашықтықты есептеуіміз керек. Q1 -ден Q3 -ке дейінгі арақашықтықты Q3 -тен Q1 -ні азайту арқылы табады. Деректер жиынындағы шекті емес нүктелердің шекарасын анықтау үшін төрттік аралықтар үшін алатын мәндер өте маңызды.

  • Біздің мысалда Q1 мен Q3 мәндері 70 және 71, 5. Квартальдық қашықтықты табу үшін Q3 - Q1 = 71.5 - 70 = шегереміз. 1, 5.
  • Айта кету керек, бұл Q1, Q3 немесе екеуі де теріс сандар болса да дұрыс. Мысалы, егер біздің Q1 мәніміз -70 болса, біздің дұрыс төрттік арақашықтық 71,5 -(-70) = 141, 5 болар еді.
Есептегіштерді есептеңіз 7 -қадам
Есептегіштерді есептеңіз 7 -қадам

Қадам 7. Деректер жиынынан «ішкі қоршауды» табыңыз

Деректердің «ішкі қоршау» және «сыртқы қоршау» деп аталатын сан шекарасына сәйкес келетінін тексеру арқылы анықталатындар табылады. Деректер жиынтығының ішкі қоршауынан тыс жерге түсетін нүктені «кішігірім сырттай» деп атайды, ал сыртқы қоршаудың сыртына түсетін деректерді «негізгі шеткі» деп атайды. Деректер жиынтығындағы ішкі қоршауды табу үшін алдымен кварталаралық қашықтықты 1, 5 -ке көбейтіңіз. Содан кейін нәтижені Q3 -ке қосып, оны Q1 -ден шегеріңіз. Сіз алатын екі мән - бұл деректер жиынының ішкі қоршау шекаралары.

  • Біздің мысалда төрттік арақашықтық (71,5 - 70) немесе 1,5. 1,5 -ты 1,5 -ке көбейткенде 2,25 шығады. Біз бұл санды Q3 -ке қосамыз және ішкі қоршаудың шекараларын табу үшін Q1 -ді осы санға шығарамыз:

    • 71, 5 + 2, 25 = 73, 75
    • 70 - 2, 25 = 67, 75
    • Сонымен, біздің ішкі қоршауымыздың шекарасы 67, 75 және 73, 75.
  • Біздің деректер жиынтығында тек пештің температурасы 300 Фаренгейт - бұл шектеулерден тыс, сондықтан бұл деректер шамалы ерекшеленеді. Дегенмен, біз әлі де бұл температураның маңызды айырмашылығы бар -жоғын есептеген жоқпыз, сондықтан біз есептеулерді аяқтамайынша қорытынды жасамаңыз.

    Есептегіштерді есептеңіз 7 -қадамBullet2
    Есептегіштерді есептеңіз 7 -қадамBullet2
Есептегіштерді есептеңіз 8 -қадам
Есептегіштерді есептеңіз 8 -қадам

Қадам 8. Деректер жиынынан «сыртқы қоршауды» табыңыз

Бұл ішкі қоршауды табу әдісімен жасалады, тек тоқсанаралық қашықтық 1,5 орнына 3 -ке көбейтіледі, содан кейін нәтиже Q3 -ке қосылады және сыртқы қоршаудың жоғарғы және төменгі шекараларын табу үшін Q1 -ден шегеріледі.

  • Біздің мысалда төрттік арақашықтықты 3 -ке көбейткенде (1, 5 x 3), немесе 4, 5 береді. Біз сыртқы қоршаудың шекарасын бұрынғыдай табамыз:

    • 71, 5 + 4, 5 = 76
    • 70 - 4, 5 = 65, 5
    • Сыртқы қоршаудың шекаралары 65.5 және 76.
  • Сыртқы қоршау шекарасынан тыс орналасқан деректер негізгі сыртқа шығарғыштар деп аталады. Бұл мысалда пештің температурасы, 300 Фаренгейт, сыртқы қоршаудың сыртында анық орналасқан, сондықтан бұл мәлімет «сөзсіз» негізгі айырмашылық болып табылады.

    Есептегіштерді есептеңіз 8 -қадам Bullet2
    Есептегіштерді есептеңіз 8 -қадам Bullet2
Есептегіштерді есептеңіз 9 -қадам
Есептегіштерді есептеңіз 9 -қадам

Қадам 9. Сыртқы деректерді «тастау» керек пе, жоқ па, соны анықтау үшін сапалы пайымдауларды қолданыңыз

Жоғарыда сипатталған әдісті қолдана отырып, деректер кіші нүкте ма, негізгі мағына ма, әлде мүлдем басқа ма екенін анықтауға болады. Алайда, қателеспеңіз - деректерді сыртқа шығарушы ретінде табу тек қана «алып тасталуы тиіс» емес, «жиналыстан» алынып тасталатын кандидатты көрсетеді. Деректер жинағындағы басқа деректерден ауытқуға себеп болатын «себеп» оны тастауды немесе алмауды анықтауда өте маңызды. Жалпы алғанда, өлшеу, тіркеу немесе эксперименттік жоспарлаудағы қателіктен туындаған сыртқы көрсеткіш, мысалы, жойылуы мүмкін. Екінші жағынан, қателіктен туындамаған және бұрын болжанбаған жаңа ақпаратты немесе үрдістерді көрсететін ауытқулар әдетте «жойылмайды».

  • Қарастыруға болатын тағы бір критерий - бұл мәліметтер жиынының орташа мәніне үлкен әсер етуі, яғни, оны шатастырып жіберуі немесе оны қате көрсетуі. Егер сіз деректер жиынтығының орташа мәнінен қорытынды жасағыңыз келсе, бұл өте маңызды.
  • Біздің мысалды зерттейік. Бұл мысалда, пештің болжанбайтын табиғи күштер арқылы 300 Фаренгейтке жетуі «өте мүмкін» болып көрінетіндіктен, біз кездейсоқ күйдірілген пештің жоғары температураның ауытқуына әкеліп соқтырды деген сенімділікпен қорытынды жасай аламыз. Сондай -ақ, егер біз сыртқа шығарғыштарды алып тастамасақ, онда біздің мәннің орташа мәні (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89,67 Фаренгейт (Цельсий бойынша 32 градус)), ал егер біз сыртқы көрсеткіштерді алып тастайтын болсақ, орташа мән (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/11 = 70,55 Фаренгейт (Цельсий бойынша 21 градус).

    Бұл ауытқулар адамдардың қателіктерінен туындағандықтан және бөлмедегі орташа температура Цельсий бойынша 32 градусқа дейін жетеді деп айту дұрыс болмайтындықтан, біз өзімізден тыс жерлерді «лақтыруды» таңдаған дұрыс

Есептегіштерді есептеңіз 10 -қадам
Есептегіштерді есептеңіз 10 -қадам

Қадам 10. Сыртқы көрсеткіштерді сақтаудың маңыздылығын (кейде) біліңіз

Кейбір қателіктер қателіктер тудыратындықтан және/немесе нәтижелерді дәл емес немесе қате көрсететіндіктен, деректер жиынынан алынуы керек, бірақ кейбір шеттетулер сақталуы керек. Егер, мысалы, бөтен адам табиғи жолмен сатып алынған болып көрінсе (яғни қатенің нәтижесі емес) және/немесе зерттелетін құбылысқа жаңа көзқарас ұсынатын болса, онда сыртқы нүктені деректер жиынынан алып тастауға болмайды. Ғылыми зерттеулер, әдетте, сыртқа шығуға қатысты өте нәзік жағдай болып табылады - қателіктерді дұрыс алып тастау жаңа үрдісті немесе жаңалықты көрсететін ақпаратты тастауды білдіруі мүмкін.

Мысалы, біз балық тоғанында балықтың мөлшерін ұлғайту үшін жаңа препарат ойлап табамыз. Біз ескі деректер жиынтығын қолданамыз ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69), тек бұл жолы әрбір дерек балықтың салмағын көрсетеді. (грамммен) туғаннан басқа эксперименттік препарат бергеннен кейін. Басқаша айтқанда, бірінші препарат бір балықтың салмағын 71 граммға жеткізеді, екінші препараттың салмағы 70 граммды құрайды және т.б. Бұл жағдайда 300 «әлі де» үлкен айырмашылық болып табылады, бірақ біз бұл деректерді тастамауымыз керек, себебі ол қатесіз алынған деп есептесек, бұл зерттеудегі табысты білдіреді. Балықты 300 грамм салуға қабілетті препарат барлық басқа препараттарға қарағанда жақсы жұмыс істейді, сондықтан бұл деректер біздің деректер жиынтығындағы «ең маңызды» болып табылады, «ең маңызды» емес

Ұсынылған: