Thứ Hai, 5 tháng 8, 2013

Applied statistics & probability for buzzus (Thốngkêhọc búzù ứngdụng)

Thốngkêhọc búzù ứngdụng


Photo Unknown. Source Somewhere In The Net


Đây là tríchđoạn chương giớithiệu khóatrình thốngkêhọc
 ứngdụng cho riêng văncông búzù (Applied Statistics 
& Probability for Buzzus, aka ASPB), gồm 4 
bài-giảng siêu-côđọng cover toànbộ các vấnđề 
thiếtthực nhất của khoahọc thốngkê & sácxuất.

Trung Tướng dựđịnh triểnkhai khóatrình ASPB này với 
giá 10 Ông Tơn per Nhândân. Nhưng qua 3 ngày 
thảoluận tại tùybút Sóc Đen Bụng Đỏ, dựđịnh 
thấtbại toàndiện. Trung Tướng quyếtđịnh tăng giá 
lên 50 Ông Tơn (per Nhândân), và khuyếncáo 
văncông: chưa hiểu mình muốn gì, đừng baogiờ xuống tiền.

Nếu chỉ mua tàiliệu mà không dự giảng, mời trả 30 Ông Tơn.

Những ai trót đăngký giá 10 Tơn trước thờiđiểm publish
 entry, sẽ được bảolưu order. Đó hầu-như là một khuyếnmãi.

Bốn bài ASPB sẽ hướngdẫn các cô 6 chuyênmục: (i) Cănbản,
 (ii) Mẫu, (iii) Ướclượng, (iv) Kiểmđịnh, (v) Dựbáo, (vi) Kỹnăng,
 theo cách dễ hấpthụ nhất, dễ ápdụng nhất, thậmchí cho kẻ 
mù-chữ.

1: Ra quyếtđịnh (Decision Making)

Ra quyếtđịnh là việc các cô phải làm mỗi ngày mỗi giờ.

Bị cảm, bú thuốc Paracetamol hay Panadol?

Sang năm cưới em Meomeo hay em Bali?

Tháng tới mở tiệm bán phở, hay điệnthoại, hay quantài?

Tuần sau đầutư cổphiếu Apple, hay Facebook, hay Google?

Đấy đều là các quyếtđịnh. Thắng hay thua. Lợi hay hại. Tùy 
các cô có đọc tiếp hay không.

2: Giảthuyết (Hypothesis)

"Anh tin cổphiếu Google vọt 5% trước Giángsinh".

"Em nghĩ Paracetamol hiệuquả hơn Panadol".

Đấy đều là các giảthuyết, đươngnhiên chẳng cái nào sure 100%.

Trong mọi vấnđề thườngnhật của các cô, luôn tồntại nhiều 
giảthuyết đầy rủiro. Để ra một quyếtđịnh đúngđắn, các cô 
phải đặt các giảthuyết hợplý, và chọn cái tốt nhất.

"Cổphiếu Google vọt 50% đêm nay" hẳn là một giảthuyết 
kém hợplý. Khảnăng hiệnthực của nó nhẽ chưa tới 0.01%.

2.1: Giảthuyết gốc (Null Hypothesis)

Khi các cô tậptrung cânnhắc một giảthuyết, thì nó là giảthuyết gốc.
Kýhiệu Ho.

"Cổphiếu Google vọt 5% trước Giángsinh" đang là giảthuyết gốc 
của các cô.

2.2: Giảthuyết ngược (Alternative Hypothesis)

Để phánxét giảthuyết gốc đáng tincậy hay không, các cô phải 
đặt giảthuyết ngược. Kýhiệu H1.

"Cổphiếu Google không-thể vọt 5% trước Giángsinh" là một 
giảthuyết ngược.

"Cổphiếu Google chắcchắn vọt 10% trước Giángsinh" cũng là 
một giảthuyết ngược, thế mới tài.

Note: Để ra một quyếtđịnh, phải xácđịnh giảthuyết gốc, và một
 giảthuyết ngược.

3: Sailầm loại I & sailầm loại II (Type I Error & 
Type II Error)

Với mỗi quyếtđịnh của mình, các cô đều có-thể mắc sailầm.

Nếu sau Giángsinh, cổphiếu Google vọt 5% thật (aka giảthuyết 
gốc đúng), mà các cô nhát-chết không đầutư (aka phủnhận 
giảthuyết gốc). Xin chia-buồn, các cô đã mắc sailầm loại I.

Nếu sau Giángsinh, cổphiếu Google đứng-yêm (aka giảthuyết 
gốc sai), nhưng các cô hehe nhỡ-tay đầutư mẹ 100,000 Tơn 
(aka chấpnhận giảthuyết gốc). Xin chia-buồn, các cô đã mắc
 sailầm loại II.

Sailầm loại nào tệhại hơn?

Anhhùng Lê Văn Luyện giết Lừa, Tòa Lừa nhậnđịnh anh ý
 "có-tội", và xử anh ý tửhình.

Nếu anh Luyện giết Lừa thật (giảthuyết gốc đúng), thì Tòa
 Lừa quyếtđịnh hehe chuẩn và ngon.

Nếu anh Luyện không giết Lừa (giảthuyết gốc sai), thì Tòa
 Lừa hehe dính sailầm loại II.

Mang anh Luyện sang Mẽo xử, Tòa Mẽo cũng nhậnđịnh anh 
ý "có-tội", nhưng cho anh ý 10 năm khángcáo và cơhội chứngminh anh ý vôtội.

Nếu anh Luyện giết Lừa thật, thì Tòa Mẽo dính sailầm loại I.

Sailầm loại nào dễ phântrần hơn?

4: Kiểmđịnh giảthuyết (Hypothesis Testing)

Để yêntâm một giảthuyết gốc là đáng tincậy đến-mức có-thể
ra quyếtđịnh nghiêmtúc, trong chừngmực lýthuyết, các cô phải
 thựchiện kiểmđịnh (test) nó và giảthuyết ngược của nó.

Các cô pháthiện, rằng đã 4 năm liền, cổphiếu Google cứ trước
 lễ Giángsinh lại tăng giá 5-7%, chả nguyênnhân mẹ. Thôngtin
 ý đã đủ trôngđợi "Cổphiếu Google vọt 5% trước Giángsinh",
 hay chưa?

Phải kiểmđịnh đcm.

Thốngkêhọc Búzù cungcấp các cô loạt phươngthức kiểmđịnh
 giảthuyết dưới triếtlý Bựa, bằng các côngcụ thốngkê cơbản.

5: Mẫu & cỡ-mẫu (Sample & Sample Size)

Thốngkêhọc hànlâm sửdụng các thuậttoán hànlâm nhằm kiểmđịnh
 any giảthuyết trên các mẫu thôngtin thuthập. Thốngkêhọc búzù cũng.

Trung Tướng phátbiểu: gái Lừa toàn vú bé.

Vú bằng ngần nào là bé?

Trung Tướng giảđịnh: vú gái mỏng hơn 5cm là bé.

Giảđịnh "dầy 5cm" đấy gọi là thôngsố (Hypothesis Parameter).

Để khẳngđịnh giảthuyết của Trung Tướng, cần kiểmtra toànbộ
 45 triệu đànbà Lừa.

Số 45 triệu đấy gọi là tổngthể (Statistics Population).

Nhưng Trung Tướng chỉ test được 100 đànbà hehe.

Đám đànbà đạidiện đấy gọi là mẫu (Sample). Số 100 đấy gọi
là cỡ-mẫu (Sample Size).

Cỡ-mẫu càng lớn thì giảthuyết càng chắccú, dĩnhiên.

Cỡ-mẫu baonhiêu là vừa?

Bốn mùa Giángsinh đã đủ cỡ-mẫu cho kỳvọng cổphiếu vọt 5%, 
hay chưa?

6: Bácbỏ & chấpthuận kiểmđịnh

Đám 100 đànbà bị Trung Tướng test vú, thật tiếc, có độ-dầy 
vú trungbình 80cm.

Giảthuyết gốc (aka Gái Lừa Vú Bé), bởi vậy, bị bácbỏ. Đcm sốliệu
 trungbình kiểmđịnh khác quá xa thôngsố của giảthuyết.

Nhưng, đcm, nếu độ-dầy vú trungbình của 100 đànbà mẫu chỉ tròmtrèm
7cm. Giảthuyết Vú Bé nên được chấpthuận, hay vẫn chưa?

6.1: Mức-bácbỏ búzù (Significance Level)

Trung Tướng địnhnghĩa, mức-bácbỏ búzù là khảnăng bácbỏ một 
giảthuyết gốc.

Bọn hànlâm thì địnhnghĩa, mức-bácbỏ là sácxuất của sailầm loại I.

Mức-bácbỏ kýhiệu bằng chữ Alpha (Hylạp "α").

Trái với mức-bácbỏ, mức-chấpthuận là sácxuất của sailầm loại II.

Mức-chấpthuận kýhiệu bằng chữ Beta (Hylạp "β").

Đấy là các hệsố nhằm hạnchế các sailầm (both loại I & II) khi
 tínhtoán kiểmđịnh các giảthuyết búzù.

Mức-bácbỏ búzù thường là 0.01, 0.05, và 0.10, tươngứng 1%, 
5%, và 10%.

Sau này, các cô chỉ cần chọn Alpha & Beta, đéo cần bănkhoăn.
 Đạikhái, Alpha các cô chọn càng cao thì khảnăng giảthuyết bị bácbỏ 
càng cao.

6.2: Lệch-chuẩn búzù (Standard Deviation)

Lệch-chuẩn, hay độ-lệch chuẩn, là một kháiniệm thốngkê quantrọng.

Chảdụ, khốilượng bìnhquân của 100 bầnnông bằng 60Kg. Khốilượng
 bìnhquân của 2 ông voi và 50 ông gà cũng bằng 60Kg. Trung Tướng 
nói, lệch-chuẩn của bọn bầnnông thấp hơn, aka chúng đều-nhau hơn. 
Các kếtquả kiểmđịnh trên một mẫu có lệch-chuẩn thấp hơn sẽ đáng
 tincậy hơn.

Lệch-chuẩn kýhiệu bằng chữ Sigma (Hylạp "σ"), và tính khá giảndị.

Giảndị như nào? Mời học.

Rốtcuộc văncông búzù có nên đầutư cổphiếu Google trước Giángsinh?
 Mời học.

Không học thì cắn cứt.

(@2012)

Không có nhận xét nào:

Đăng nhận xét