نامرتبط ولی مربوط

سلام. در این پست یه کم به زبان ریاضی و آمار حرق می‌زنم، پس پیشنهاد می‌کنم قبل از این که شروع به مطالعه این پست کنید، اگر با مفاهیم امید ریاضی، واریانس و کواریانس آشنا نیستین، اول مروری روی آن‌ها داشته باشید.

فقط به طور خیلی خلاصه اشاره می‌کنم:

امید ریاضی: زمانی که ما یک آزمایش تکرارپذیر رو به صورت نامحدود تکرار کنیم (مثل پرتاب تاس) و میانگین مقدار‌هایی رو که مشاهده می‌کنیم حساب کنیم، این مقدار میانگین به یک عدد میل میکنه که به اون عدد امید ریاضی گفته میشه. (به عنوان مثال امید ریاضی در آزمایش پرتاب تاس برار ۳.۵ هست.) به طور کلی هم امید ریاضی به حاصل‌ضرب مقدار احتمال یک رویداد در مقدار آن رویداد هست. امید ریاضی به زبان ساده‌تر در واقع همون مقدار مورد انتظار هست و با $E$ نمایش داده می‌شه.

واریانس: میانگین مربع تفاضل مقدار نقطه‌های یک تابع با مقدار میانگین آن تابع هست و به زبان ساده‌تر میزان فاصله از مقدار میانگین رو نشون میده. مقدار واریانس نشان‌دهنده میزان تنوع مقدار داده‌ها نیز می‌باشد و با $Var$ نمایش داده می‌شه.
کواریانس: میزان تغییرات هماهنگ دو متغیر تصادفی مثلا و هست و با نمایش داده می‌شه. البته به دلیل این که در این پست راجع به کواریانس می‌نویسم یه کم بیشتر توضیحش میدم.
- مقدار ۰ برای کواریانس دو متغیر به این معنی هست که بین این دو متغیر هیج ارتباطی وجود نداره.
- مقدار مثبت کواریانس برای آن‌ها به این معنی هست که با افزایش یکی از آن‌ها، دیگیری هم افزایش پیدا می‌کند. (رابطه مستقیم)
- مقدار منفی کواریانس به این معنی هست که افزایش یکی از آن‌ها باعث کاهش دیگری می‌شود و برعکس. (رابطه عکس)

همچنین رابطه‌هایی میان این سه بزرگ‌وار برقرار هست که من یکیش رو این‌جا می‌نویسم و شما اگر دوست داشتید می‌تونید بقیش رو بگردید پیدا و استفاده کنید.

$cov(X,Y) = EXY - EX.EY$

اما ماجرای نوشتن این پست زمانی شروع شد که در کتابی دیدم بعضی موقع‌ها:

این امکان وجود داره که مقدار کواریانس دو متغیر ۰ باشه ولی همچنان بین آن‌ها ارتباط وجود داشته باشه!

برای همین تصمیم گرفتم که ببینم چه زمان‌هایی این اتفاق می‌افته!؟

با دو مثال ساده ساده این موضوع رو نشنون میدم:

مثال اول: متغیر تصادفی $X$ با $EX=0$ و $EX^3=0$ با میانگین صفر را در نظر بگیرید. همچنین متغیر $Y=X^2$ را در نظر بگیرید. واضح هست که متغیر‌های $X$ و $Y$ به هم مرتبط هستند چون با داشتن یکی، دیگری هم قابل محاسبه است. ولی:

$cov(X,Y) = EXY - EX.EY = EX^3=0$

مثال دوم: فرض کنید که $X$ یک متغیر تصادفی باشه که با احتمال ۰.۵ می‌تونه مقدارهای $+1$ و $-1$ رو بگیره. همچنین فرض کنید که $Y$ نیز یک متغیر تصادفی باشه و $Y=0$ زمانی که $X=-1$ و $Y$ به صورت تصادفی با احتمال ۰.۵ برابر $-1$ و $+1$ زمانی که $X=1$ باشه. همچنین فرض کنید که میانگین هر دوی آن‌ها صفر باشه.

واضحه که $X$ و $Y$ به هم مرتبط هستند. (از آن‌جایی که دونستن $Y$ به ما اجازه میده که از مقدار $X$ آگاه باشیم.) ولی:

$E[XY] =(-1) \cdot 0 \cdot P(X=-1)$

$+1 \cdot 1 \cdot P(X=1,Y=1)$

$+1 \cdot (-1)\cdot P(X=1,Y=-1)$

$=0$

یا به‌طور کلی با داشتن هر توزیع $P(X)$ و هر $P(Y|X)$ که در آن به ازای همه $X$ ها $P(Y=\alpha|X)=P(Y=-\alpha|X)$ باشد، همیشه کواریانس ۰ را خواهیم داشت.

شاد باشید و خوش بگذرونید!

پانوشت(ها):

در این پست سعی کردم این مفاهیم رو خیلی ساده و قابل فهم بیان کنم. البته من ریاضی‌دان نیستم(ای کاش بودم!) در نتیجه ممکنه که بعضی از تعریف‌ها و جمله‌هام به‌طور کامل درست نباشه. پس از هر کسی که اشتباه‌های احتمالی رو در نظرات بگه ممنون میشم.
در حال مطالعه چندتا کتاب در زمینه مدیریت هم هستم و به محض این که تمام شدن، اگر به نظرم مفید بودن این‌جا معرفیشون می‌کنم.

اشتراک‌گذاری

لایه‌های مخفی یک داده پرت

روزنوشته‌های یک علاقمند به یادگیری انسان، ماشین و علم داده

نامرتبط ولی مربوط

دیدگاهتان را بنویسید لغو پاسخ