1. Số trung bình cộng

Công thức tính số trung bình cộng của các dữ liệu thống kê như sau:

Trường hợp bảng phân bố tần suất và tần số ghép lớp

ci, fi, ni là các giá trị đại diện cho lớp thứ i.
Ý nghĩa của số trung bình:
Số trung bình của mẫu số liệu được sử dụng để đại diện cho toàn bộ tập hợp số liệu của mẫu. Đây là một chỉ số đặc trưng quan trọng của mẫu số liệu.
Ví dụ 1: Điểm kiểm tra môn Toán của lớp 10A được trình bày trong bảng dưới đây:
Số điểm | 7 | 8 | 9 | 10 |
Số học sinh | 12 | 15 | 8 | 5 |
Tính điểm trung bình của các học sinh trong lớp.
Hướng dẫn giải quyết:
Điểm trung bình của các học sinh lớp 10A được tính là:

Lợi ích của việc sử dụng số trung bình cộng:
- Dễ hiểu và dễ áp dụng: Số trung bình cộng là chỉ số đơn giản, dễ nắm bắt và tính toán. Nó cung cấp một giá trị duy nhất đại diện cho toàn bộ tập dữ liệu.
- Đại diện cho tập dữ liệu: Là chỉ số thống kê cơ bản, số trung bình cộng cho phép đánh giá mức độ trung bình của các giá trị trong tập dữ liệu, từ đó phản ánh xu hướng chung của chúng.
- Ứng dụng đa dạng: Phương pháp này có thể được áp dụng rộng rãi trong các lĩnh vực như kinh tế, y tế, giáo dục và công nghiệp để đánh giá và so sánh dữ liệu.
Hạn chế của việc sử dụng số trung bình cộng:
- Dễ bị ảnh hưởng bởi các giá trị ngoại lệ: Khi tập dữ liệu có các giá trị ngoại lệ, số trung bình cộng có thể bị lệch và không phản ánh chính xác thực trạng của dữ liệu.
- Không thể hiện sự phân tán của dữ liệu: Trong các tập dữ liệu có phân bố không đồng đều, số trung bình cộng không thể hiện được sự biến động và sự đa dạng của các giá trị.
- Không phù hợp với dữ liệu phân loại: Số trung bình cộng chỉ có ý nghĩa với dữ liệu số học và không thể áp dụng cho các loại dữ liệu phân loại như loại sản phẩm hay nhóm khách hàng.
- Cần số lượng mẫu đủ lớn: Để số trung bình cộng phản ánh chính xác, cần có một số lượng mẫu đủ lớn. Nếu mẫu quá nhỏ, kết quả có thể không đáng tin cậy.
2. Số trung vị

Khi dữ liệu trong mẫu có sự chênh lệch lớn giữa các giá trị, số trung bình có thể không phản ánh đúng các số liệu trong mẫu. Trong trường hợp này, số trung vị là chỉ số phù hợp hơn.
Định nghĩa: Giả sử ta có một dãy n số liệu đã được sắp xếp theo thứ tự không giảm (hoặc không tăng). Khi đó, số trung vị, ký hiệu là Me, được xác định như sau:
+ Số nằm ở giữa dãy khi số lượng phần tử N là lẻ:

+ Trung bình cộng của hai giá trị đứng giữa dãy khi số phần tử N là chẵn:

Ví dụ: Xem xét các tập dữ liệu sau:
a) 8; 6; 1; 6; 10; 3; 8; 2; 11; 15; 12.
b) 2; 9; 7; 12; 10; 6; 8; 15.
Xác định trung vị và tứ phân vị cho các tập dữ liệu sau.
Hướng dẫn giải quyết:
a) Sắp xếp các số liệu theo thứ tự tăng dần, ta có:
1; 2; 3; 6; 6; 8; 8; 10; 11; 12; 15.

b) Đưa các số liệu vào thứ tự tăng dần, ta có:
2; 6; 7; 8; 9; 10; 12; 15
Với số lượng mẫu là n = 8, trung vị được tính bằng cách lấy trung bình của giá trị thứ 4 và 5. Cụ thể là:

Lợi ích khi sử dụng số trung vị:
- Khả năng chống lại ảnh hưởng của giá trị ngoại lệ: Số trung vị nằm ở vị trí giữa của dữ liệu khi được sắp xếp theo thứ tự tăng dần, do đó, nó ít bị ảnh hưởng bởi các giá trị ngoại lệ cao hoặc thấp.
- Tốt cho dữ liệu phân phối lệch: Trong trường hợp dữ liệu phân bố không đều, số trung vị thường phản ánh chính xác hơn so với số trung bình cộng.
- Đơn giản và dễ tiếp cận: Số trung vị là chỉ số đơn giản, dễ hiểu và không yêu cầu nhiều phép tính phức tạp như các phương pháp thống kê khác.
Hạn chế của số trung vị:
- Không thể hiện sự biến động của dữ liệu: Số trung vị chỉ cho biết giá trị trung tâm mà không phản ánh mức độ biến động và đa dạng của các giá trị trong tập dữ liệu.
- Khó khăn khi xử lý dữ liệu lớn: Đối với các tập dữ liệu lớn, việc tính toán số trung vị có thể phức tạp hơn so với việc tính số trung bình cộng.
- Không áp dụng cho dữ liệu phân loại: Số trung vị chủ yếu dùng cho dữ liệu số học và không thích hợp với các biến phân loại.
3. Mốt
Mốt: Ký hiệu: Mo
Mốt trong bảng phân bố tần số là giá trị (xi) có tần số (ni) cao nhất, được ký hiệu là Mo.
Lưu ý: Nếu có hai giá trị tần số giống nhau và lớn hơn các giá trị tần số khác, thì tình huống này có hai Mốt, ký hiệu Mo1 và Mo2.
Ví dụ: Dữ liệu bảng số lượng áo bán được trong một quý tại một cửa hàng áo sơ mi nam.
Cỡ áo | 36 | 37 | 38 | 39 | 40 | 41 | 42 | Tổng |
Tần số | 13 | 45 | 126 | 110 | 125 | 40 | 5 | 464 |



Lợi ích của việc sử dụng Mốt:
- Phản ánh xu hướng phổ biến: Mốt là giá trị xuất hiện nhiều nhất trong tập dữ liệu, giúp người phân tích nhận diện sự phân bố và xu hướng của các giá trị.
- Xác định đơn giản: Việc sử dụng mốt để đại diện cho dữ liệu không yêu cầu tính toán phức tạp và dễ dàng nhận biết, đặc biệt là với các tập dữ liệu có phân loại rõ ràng.
- Thích hợp với dữ liệu phân loại: Mốt thường được sử dụng hiệu quả cho dữ liệu phân loại, nơi việc xác định giá trị xuất hiện nhiều nhất mang lại ý nghĩa quan trọng.
Nhược điểm của việc sử dụng Mốt:
- Mốt không thể hiện được sự biến động trong dữ liệu: Mốt chỉ cho thấy giá trị xuất hiện nhiều nhất mà không phản ánh sự thay đổi và phân bố chi tiết của dữ liệu.
- Không thích hợp với dữ liệu liên tục: Mốt thường không dùng cho dữ liệu liên tục mà chỉ phù hợp với dữ liệu phân loại.
- Có thể có nhiều giá trị mốt: Trong một số trường hợp, dữ liệu có thể có nhiều giá trị mốt bằng nhau, làm cho việc xác định giá trị đại diện duy nhất trở nên khó khăn.
4. So sánh và lựa chọn
Đặc điểm | Số trung bình cộng | Số trung vị | Mốt |
Đại diện cho | Giá trị trung bình của tập dữ liệu | Giá trị ở vị trí giữa của tập dữ liệu | Giá trị xuất hiện nhiều nhất trong tập dữ liệu |
Ưu điểm | Dễ tính toán, ít bị ảnh hưởng bởi giá trị ngoại lệ | Chống lại ảnh hưởng của giá trị ngoại lệ | Phản ánh được xu hướng xuất hiện thường xuyên trong dữ liệu |
Ứng dụng | Được sử dụng nhiều trong các nghiên cứu và phân tích | Phù hợp với dữ liệu có phân phối lệch | Có thể sử dụng cho dữ liệu phân loại và số học |
Nhược điểm | Nhạy cảm với giá trị ngoại lệ | Không phản ánh sự biến động của dữ liệu | Không phù hợp với dữ liệu có nhiều giá trị lặp lại |
Khi nào nên sử dụng từng loại số liệu thống kê:
- Áp dụng số trung bình cộng khi:
+ Cần đánh giá giá trị trung bình của toàn bộ dữ liệu.
+ Dữ liệu không bị ảnh hưởng quá nhiều bởi các giá trị ngoại lệ.
+ Muốn thể hiện mức độ trung bình của dữ liệu một cách đơn giản và nhanh chóng.
Ví dụ: Đánh giá điểm trung bình của học sinh trong một lớp học.
- Áp dụng số trung vị khi:
+ Dữ liệu có sự phân phối không đều và chứa nhiều giá trị ngoại lệ.
+ Cần thể hiện giá trị ở vị trí trung tâm của dữ liệu mà không bị ảnh hưởng bởi các giá trị ngoại lệ.
Ví dụ: Đánh giá mức thu nhập trung bình của một nhóm người với sự chênh lệch lớn về thu nhập.
- Áp dụng mốt khi:
+ Khi cần phân tích dữ liệu phân loại và xác định giá trị xuất hiện nhiều nhất.
+ Khi dữ liệu có sự phân bố rõ ràng và có thể thể hiện một xu hướng phổ biến trong tập dữ liệu.
Ví dụ: Xác định loại sản phẩm được bán chạy nhất trong cửa hàng.
Mỗi loại số liệu thống kê đều có ứng dụng và lợi ích riêng trong việc phân tích và đánh giá dữ liệu. Chọn loại số liệu phù hợp với từng tình huống sẽ giúp cải thiện hiệu quả phân tích và ra quyết định.
5. Bài tập thực hành
Bài 1: Bảng phân bố tần số của tuổi thọ 30 bóng đèn điện.
Tuổi thọ | Tần số |
1150 | 3 |
1160 | 6 |
1170 | 12 |
1180 | 6 |
1190 | 3 |
Cộng | 30 |
Giá trị trung bình:

Bài 2: Bảng phân bố tần suất của độ dài 60 lá dương sỉ trưởng thành:
Lớp của độ dài (cm) | Tần suất | Giá trị đại diện |
[10; 20) | 13,3 | 15 |
[20; 30) | 30,0 | 25 |
[30; 40) | 40,0 | 35 |
[40; 50) | 16,7 | 45 |
Cộng | 100 (%) |
Giá trị trung bình:

Bài 3: Kiểm tra điện lượng của một số viên pin tiểu từ một hãng sản xuất cho kết quả như sau:
Điện lượng (nghìn mAh) | [0,9; 0,95) | [0,95; 1,0) | [1,0; 1,05) | [1,05; 1,1) | [1,1; 1,15) |
Số viên pin | 10 | 20 | 35 | 15 | 5 |
Hãy ước lượng giá trị trung bình và mốt của mẫu số liệu đã được phân nhóm.
Hướng dẫn giải
Điện lượng (nghìn mAh) | [0,9; 0,95) | [0,95; 1,0) | [1,0; 1,05) | [1,05; 1,1) | [1,1; 1,15) |
Giá trị đại diện | 0,925 | 0,975 | 1,025 | 1,075 | 1,125 |
Số viên pin | 10 | 20 | 35 | 15 | 5 |
Giá trị trung bình của dãy số liệu xấp xỉ:
(0,925 imes 10 + 0,975 imes 20 + 1,025 imes 35 + 1,075 imes 15 + 1,125 imes 5) : 85 = 1,016
Nhóm chứa giá trị mốt của dãy số liệu là nhóm [1,0; 1,05).
Giá trị mốt của mẫu số liệu trên là:
