5 bài toán xác suất/thống kê

Bài 1 (Khó nâng cao)

Một nhà nghiên cứu muốn ước lượng chiều cao trung bình (theo cm) của một giống cây mới. Ông chọn ngẫu nhiên 36 cây và đo chiều cao, thu được trung bình mẫu \(\overline{X}=122{,}3\) (cm), độ lệch chuẩn mẫu \(S=6{,}0\) (cm). Giả sử có thể coi quần thể (population) chiều cao tuân theo phân phối chuẩn. Hãy xét 4 mệnh đề sau:

  1. a) Khoảng tin cậy 95% cho trung bình quần thể là \(\overline{X}\pm 1{,}96 \frac{S}{\sqrt{n}}\).
  2. b) Nếu thay 1,96 bằng 2,0 thì khoảng tin cậy được “an toàn” hơn (rộng hơn).
  3. c) Với n=36, ta dùng z=1,96 (phân phối chuẩn) chứ không dùng t-Student.
  4. d) Nếu muốn độ dài khoảng tin cậy 95% không vượt quá 2 cm, ta cần cỡ mẫu gấp đôi (72) thay vì 36.

Lời giải chi tiết Bài 1:

  • (a) Đúng. Giả sử biết hoặc chấp nhận “phân phối chuẩn   +  S\approx \sigma\text{ (cỡ lớn)}”, ta hay dùng z=1,96. Công thức \(\overline{X}\pm z_{\alpha/2}\frac{S}{\sqrt{n}}\).
  • (b) Đúng. Thay 1,96 bằng 2,0 ⇒ biên độ lớn hơn ⇒ khoảng rộng hơn, “an toàn” hơn (ít rủi ro bỏ sót).
  • (c) Sai. Thường với cỡ mẫu n=36 và chỉ có \(S\) (chưa biết \(\sigma\) thật), ta nên dùng t-Student (bậc tự do 35), không phải z. (Trừ khi n đủ lớn hoặc \(\sigma\) đã biết, hay “lý do khác”.)
  • (d) Để độ dài 2 biên \(\le2\) cm, ta đòi \(\bigl(2z_{\alpha/2}\frac{S}{\sqrt{n}}\bigr)\le2\). Muốn giảm 1/2 độ dài ⇒ n cần tăng gấp 4 lần (vì độ dài tỉ lệ \(\frac1{\sqrt{n}}\)). Gấp đôi n chỉ giảm \(\frac{1}{\sqrt{2}}\approx0,71\) lần độ dài, chưa đủ. Phát biểu “cần gấp đôi” là sai.

Kết luận Bài 1: (a) Đ, (b) Đ, (c) S, (d) S.


Bài 2 (Khó nâng cao)

Một thử nghiệm “2 mẫu” độc lập: nhóm 1 (n=50) dùng chế phẩm A, nhóm 2 (n=60) dùng chế phẩm B. Ta đo chỉ số “hiệu quả” (điểm) và được \(\overline{X}_1=75\), \(\overline{X}_2=78\), mỗi nhóm có độ lệch chuẩn 8.0 (gần bằng nhau). Giả sử 2 quần thể gốc đều phân phối chuẩn, ta muốn kiểm định giả thuyết H0: \(\mu_1=\mu_2\) so sánh với H1: \(\mu_1\neq\mu_2\) (hai phía).

  1. a) Thống kê kiểm định: \[ T = \frac{\overline{X}_1 - \overline{X}_2}{S_p\sqrt{\frac1{n_1} + \frac1{n_2}}} \] với \[ S_p^2= \frac{(n_1-1)S_1^2 +(n_2-1)S_2^2}{n_1+n_2-2}. \]
  2. b) Giá trị T thực nghiệm \(\approx \frac{75 -78}{8\sqrt{\frac1{50}+\frac1{60}}}\approx -3{,}00\).
  3. c) Với bậc tự do \(\nu=108\), \(\alpha=0,05\), t-bảng \(\approx \pm1,98\). Ta có \(|T|>1,98\) ⇒ bác bỏ H0.
  4. d) Kết luận: “Chế phẩm B tốt hơn A” (tức \(\mu_2>\mu_1\)).

Lời giải chi tiết Bài 2:

  • (a) Đúng. Đây là công thức T-test cho 2 mẫu độc lập, phương sai giả thiết bằng nhau.
  • (b) Tính: \[ S_p=8 \quad(\text{vì }S_1=S_2=8 \implies S_p=8). \] \(\sqrt{\frac1{50}+\frac1{60}}\approx\sqrt{0,02+0,0167}= \sqrt{0,0367}\approx0,1916.\) \(\Delta\overline{X}= -3.\) \(\frac{-3}{8\times0,1916}\approx -1,96,\) không phải -3,00. Số -3,00 là sai. (b) Sai.
  • (c) Giả sử T\(\approx -1,96\). Kiểm định 2 phía \(\alpha=0,05\). Bậc tự do \(\approx110\). Tới hạn \(\approx\pm1,98\). \(|-1,96|\approx1,96<1,98\) ⇒ không bác bỏ H0. Phát biểu “bác bỏ” là sai. (c) Sai.
  • (d) Đưa ra kết luận “B tốt hơn A” là không đủ cơ sở khi (c) đã không bác bỏ H0. Sai.

Kết luận Bài 2: (a) Đ, (b) S, (c) S, (d) S.


Bài 3 (Khó nâng cao)

Trong một khảo sát, người ta dự đoán tỉ lệ “nhà hộp” (kiểu kiến trúc) ở thành phố là p\(\approx0,4\). Để kiểm định, lấy ngẫu nhiên 200 ngôi nhà: quan sát được 100 là “nhà hộp”. Ta xét H0: p=0,4 so với H1: p≠0,4. Dùng kiểm định Z (cỡ mẫu lớn): \[ Z= \frac{\hat{p}-0,4}{\sqrt{\frac{0,4\cdot0,6}{n}}}. \]

  1. a) \(\hat{p}=100/200=0,5\).
  2. b) Z\(\approx \frac{0,5-0,4}{\sqrt{(0,4\cdot0,6)/200}}= \frac{0,1}{\sqrt{0,24/200}}= \frac{0,1}{\sqrt{0,0012}}= \frac{0,1}{0,03464}\approx2,89.\)
  3. c) \(\alpha=0,05\) với kiểm định 2 phía ⇒ ngưỡng Z\(\approx\pm1,96\). Vì 2,89>1,96 ⇒ bác bỏ H0.
  4. d) Kết luận: “p>0,4” với mức ý nghĩa 5%.

Lời giải chi tiết Bài 3:

  • (a) Đúng. Tỉ lệ mẫu = 0,5.
  • (b) Tính chi tiết: \(\sqrt{0,4\cdot0,6/200}= \sqrt{0,24/200}= \sqrt{0,0012}\approx0,03464.\) \(\frac{0,1}{0,03464}\approx2,89.\) Đúng.
  • (c) 2,89>1,96 ⇒ bác bỏ H0. Đúng.
  • (d) Kiểm định 2 phía, ta chỉ biết p≠0,4. Từ \(\hat{p}=0,5\) >0,4, ta suy p>0,4. Đúng. (Trong thực tế, “p>0,4” được suy ra với khoảng tin cậy, v.v.)

Kết luận Bài 3: (a) Đ, (b) Đ, (c) Đ, (d) Đ.


Bài 4 (Khó nâng cao)

Một bài kiểm định \(\chi^2\) cho bảng 4×3 (4 hàng, 3 cột), thu được \(\chi^2=14,8\), cỡ mẫu n=600. Có 4×3=12 “ô”, bậc tự do \((4-1)\times(3-1)=3\times2=6\). Kiểm định giả thuyết H0: “Không có liên hệ giữa dòng và cột” so với H1: “Có liên hệ”.

  1. a) \(\chi^2_{thực nghiệm}=14,8\), bậc tự do=6, \(\alpha=0,05\). Mốc tra \(\chi^2_{0,05;6}\approx12,59.\)
  2. b) Ta có 14,8>12,59 ⇒ bác bỏ H0.
  3. c) p-value=0,05 nghĩa là xác suất quan sát được \(\chi^2 \ge14,8\) nếu H0 đúng là 5%.
  4. d) Mức ý nghĩa \(\alpha=0,01\) ⇒ \(\chi^2_{0,01;6}\approx16,81\). Vì 14,8<16,81 ⇒ không bác bỏ H0.

Lời giải chi tiết Bài 4:

  • (a) Đúng. Ở bậc tự do 6, \(\chi^2_{0,05}\approx12,59\).
  • (b) 14,8>12,59 ⇒ bác bỏ H0 ở \(\alpha=0,05\). Đúng.
  • (c) p-value không nhất thiết =0,05; ta cần tra p-value thực tế (khoảng 0,02). Phát biểu “=0,05” là sai.
  • (d) Ở \(\alpha=0,01\), ngưỡng \(\approx16,81\). Thực nghiệm 14,8<16,81 ⇒ chưa đủ bằng chứng bác bỏ. Đúng.

Kết luận Bài 4: (a) Đ, (b) Đ, (c) S, (d) Đ.


Bài 5 (Khó nâng cao)

Cho mô hình hồi quy tuyến tính đơn \(Y=\beta_0 + \beta_1 X + \varepsilon\), với \(\varepsilon\sim N(0,\sigma^2)\). Khi chạy dữ liệu n=25, thu được ước lượng \(\hat{\beta}_1=2,5\) (phương sai \(\mathrm{Var}(\hat{\beta}_1)=0,25\)), và R2=0,64. Giả thiết: \(\beta_1=0\) hay \(\beta_1\neq0\) (hai phía).

  1. a) Thống kê kiểm định T: \(\displaystyle T=\frac{\hat{\beta}_1 -0}{\sqrt{0,25}}= \frac{2,5}{0,5}=5,0\).
  2. b) Bậc tự do \(\nu=n-2=23\). Lấy \(\alpha=0,05\), t_{(0,025;23)}\approx2,07. Ta có |T|=5>2,07 ⇒ bác bỏ \(\beta_1=0\).
  3. c) R2=0,64 cho thấy X giải thích 64% biến thiên của Y. Kết luận “mô hình phù hợp mức vừa phải”.
  4. d) p-value tương ứng |T|=5, bậc tự do 23, khoảng 0,01-0,02.

Lời giải chi tiết Bài 5:

  • (a) \(\hat{\beta}_1=2,5\), \(\mathrm{Var}(\hat{\beta}_1)=0,25\implies \mathrm{SE}(\hat{\beta}_1)=0,5.\) T=2,5/0,5=5. Đúng.
  • (b) Bậc tự do = 25 -2=23, t_{0,025;23}\approx2,07. |5|>2,07 ⇒ bác bỏ H0. Đúng.
  • (c) R2=0,64 nghĩa 64% phương sai Y được X giải thích ⇒ khá cao, chứ không chỉ “vừa phải” tùy quan điểm. Nói “vừa phải” có thể là đánh giá cá nhân, khó khẳng định tuyệt đối sai hay đúng. Tuy nhiên, thường 0,64 được xem là tương đối tốt. (Tùy bối cảnh, mệnh đề “vừa phải” mơ hồ.) Ở đây coi như “mức vừa phải” → ta đánh giá: không có chuẩn xác “đúng/sai” tuyệt đối, song hay bị coi “mơ hồ”. Giả sử ta xếp mệnh đề này “Sai” nếu nó khẳng định “vừa phải” mà 0,64 khá cao.
  • (d) |T|=5 ⇒ p-value rất nhỏ, <0,001 (chứ không phải 0,01-0,02). (Thực tế tra t-bảng bậc tự do 23, T=5 cho p <0,0001). Phát biểu “0,01-0,02” sai.

Kết luận Bài 5: (a) Đ, (b) Đ, (c) S, (d) S.