دسته: آمار
بازدید: 47 بار
فرمت فایل: doc
حجم فایل: 36 کیلوبایت
تعداد صفحات فایل: 21
مشاهدات پرت تحلیلهای آماری را مشكل میسازند. هنگام تحلیل دادهها، گاهی اوقات مقادیری دور از بقیه دادهها پیدا میكنید چنین مقادیری مشاهدات پرت نامیده میشود.
هنگامی كه شما با یك مشاهده پرت روبهرو میشوید ممكن است وسوسه شوید كه آن را حذف كنید. در ابتدا از خود این سوالها را بپرسید :
- آیا این مقدار را به طور صحیح وارد كامپیوتر شده؟ اگر خطایی در وارد كردن دادهها دارد آن را تصحیح كنید.
- آیا در رابطه با این مقدار خطای آزمایشی وجود دارد؟
- آیا آن مشاهده از یك تنوع زیستی سبب شده است ؟ اگر هر مقدار، از یك شخص مختلف بیاید آن مشاهده ممكن است یك مقدار صحیح باشد و علت آن مشاهده علت فردی است كه با دیگران تفاوت دارد.
بعد از پاسخ منفی به این سوالها، شما باید تصمیم بگیرید كه با این مشاهدات چه كار كنید ؟
كه 2 احتمال وجود دارد:
- یك امكان این است كه آن مشاهده پرت از شانس ناشی شود در این مورد شما باید آن مقدار را در تحلیل نگه دارید كه آن مقدار از جامعهای میآید كه دیگر مقادیر آمدهاند بنابراین باید محاسبه شود.
- امكان دیگر آن است كه مشاهده پرت از یك خطا ناشی شود (مانند صفره یا سوراخی در فیلتر). وقتی یك مقدار نادرست در تحلیل وارد شود نتیجه بی اعتبار خواهد بود و آن مقدار از جامعه متفاوت از بقیه میآید كه گمراه كننده است و باید از دادهها حذف شود.
مسأله این است كه شما هرگز مطمئن نیستید كه كدام از این امكانها درست است.
به طور آشكار هیچ محاسبات ریاضی به شما نخواهد گفت كه آن مشاهده پرت از جامعه همانند یا مختلف از بقیه دادهها میآید اما محاسبات آماری میتواند به این سوال پاسخ دهد. اگر مقادیر واقعاً همه نمونه گرفته شده از یك توزیع باشند شانسی كه یك مقدار دور از بقیه دادهها باشد چیست؟ اگر این احتمال كوچك باشد شما نتیجهگیری خواهید كرد كه با احتمال زیاد مشاهده پرت یك مقدار نادرست است و شما برای حذف آن توجیه و دلیل دارد.
آمار شناسان چندین روش را برای شناسایی نقاط پرت تدبیر كردهاند. همه روشها در ابتدا معلوم میكنند كه این شاهدات پرت چقدر از بقیه نقاط دور هستند. این با محاسبه اختلاف بین مشاهده پرت و میانگین مقادیر باقی مانده و سپس تقسیم بر انحراف معیار كه استاندارد كردن آن است بدست میآید.
سپس مقدار p-value را برای این سوال مقایسه میكنیم. كه اگر مقدار p- value كوچك باشد شما نتیجه میگیرد كه انحراف مشاهده پرت از بقیه نقاط معنی دار است.
پس وقتی در منابع مشاهدات پرت جستجو میكنیم در ابتدا باید بررسی كنیم كه در ثبت و وارد كردن دادهها خطایی نباشد. برای كاهش رخداد در خطای ثبت دادهها از برنامهای استفاده كنید كه امكان اجرای محاسبات روی چندین ستون اعداد را برقرار كند مانند EXCEL و SAS نیز مخصوصاً ابزار خوبی برای این هدف است و دلیل دیگر برای مشاهدات پرت حادثههایی هستند كه به ندرت رخ میدهند مانند یك روز 70 درجه در ژانویه در OREGON
چرا مشاهدات پرت مسأله و مشكل هستند ؟
روشهای در حال توسعه بر جستجوی مشاهدات پرت و فهمیدن این كه تحلیلهای آماری را پیچیده میكنند بخش مهمی از تمام تحلیل را در برمیگیرد.
برای مثال با حضور مشاهده پرت در هر آزمون آماری میانگین و انحراف معیار تحریف میشود. برآورد ضرایب رگرسیون كه مجموع مربعات خطا را مینیمم میكند بسیار تحت تأثیر مشاهده پرت است.
چندین عامل تأثیر گذار از مشاهدات پرت عبارت است از :
- اریبی با تحریف برآوردها
- زیاد نشدن مجموع توان دومها
- تحریف p-value
- نتیجهگیری غلط
مثال زیر ممكن است خیلی بزرگ به نظر بیاید اما دادههای حقیقی با این مشخصات وجود دارند. اما نتایج به روشنی ثابت میكنند كه مشكلات ناشی از مقدارهای غیر عادی در كمین هستند.
فایل ورد 21 ص