Trong thống kê và lý thuyết xác suất, giá trị trung bình (tiếng Anh: median) là một giá trị phân tách mẫu thành hai phần bằng nhau, với một nửa có giá trị lớn hơn và nửa còn lại có giá trị nhỏ hơn. Đây là giá trị nằm ở giữa phân bố, sao cho số lượng giá trị bên trên và bên dưới nó là bằng nhau. Điều này có nghĩa là một nửa quần thể có giá trị nhỏ hơn hoặc bằng giá trị trung bình, và nửa còn lại có giá trị lớn hơn hoặc bằng giá trị trung bình.
Để xác định giá trị trung bình trong một tập hợp hữu hạn, ta sắp xếp các giá trị theo thứ tự tăng dần và chọn giá trị ở giữa. Nếu số lượng giá trị là số chẵn, ta thường tính trung bình của hai giá trị nằm ở giữa.
Cách giải thích đơn giản
Giả sử có 19 người nghèo và 1 tỷ phú trong một căn phòng. Mỗi người đều đặt tiền lên bàn: mỗi người nghèo đặt 5 đồng, còn tỷ phú đặt 1 tỷ đồng (10 đồng). Tổng cộng là 1.000.000.095 đồng. Nếu chia đều số tiền đó cho 20 người, mỗi người sẽ nhận được 50.000.004 đồng và 75 xu. Đây là giá trị trung bình của số tiền mà mỗi người đã mang vào phòng. Tuy nhiên, giá trị trung bình lại là 5 đồng, vì ta có thể chia thành hai nhóm 10 người, và nhóm đầu tiên mang không nhiều hơn 5 đồng, trong khi nhóm còn lại mang không dưới 5 đồng. Theo cách này, giá trị trung bình phản ánh số tiền điển hình mà một người mang vào phòng. Ngược lại, giá trị trung bình không phản ánh rõ ràng, vì không ai – dù là người nghèo hay tỷ phú – mang số tiền gần bằng 50.000.004,75 đồng.
Không có giá trị trung vị duy nhất: có thể tồn tại nhiều giá trị trung vị khác nhau
Nhiều giá trị trung vị có thể xảy ra: chẳng hạn, khi số lượng các giá trị là chẵn, không thể xác định một giá trị trung vị duy nhất. Lưu ý rằng một nửa số giá trị trong danh sách nhỏ hơn hoặc bằng một trong hai giá trị trung tâm, và nửa còn lại lớn hơn hoặc bằng một trong hai giá trị đó. Mọi giá trị nằm giữa hai giá trị trung tâm cũng đều là giá trị trung vị. Vì vậy, trong trường hợp này, cả hai giá trị trung tâm và mọi giá trị nằm giữa chúng đều được coi là trung vị.
Đo lường sự phân tán trong thống kê
Khi trung vị được sử dụng như một tham số vị trí trong thống kê mô tả, có một số phương pháp để đo độ biến đổi: khoảng biến thiên giao độ (range), khoảng tứ phân vị (interquartile range), và độ lệch tuyệt đối (absolute deviation). Vì trung vị là tứ phân vị thứ hai, việc tính toán nó được minh họa trong các bài viết về tứ phân vị.
Trung vị trong các phân bố xác suất
Xem xét một phân bố xác suất trên tập số thực với hàm phân bố tích lũy F. Dù đó là phân bố liên tục với hàm mật độ xác suất hay phân bố rời rạc, giá trị trung vị m của phân bố này thỏa mãn điều kiện sau
được tính bằng cách sử dụng tích phân Riemann-Stieltjes. Đối với phân bố liên tục với hàm mật độ xác suất f, ta có
Trung vị của các phân bố cụ thể
- Trung vị của phân bố chuẩn với giá trị trung bình μ và độ biến thiên σ là μ. Thực tế, trong phân bố chuẩn, trung bình = trung vị = mode.
- Trung vị của phân bố đều trong khoảng [a, b] là (a + b) / 2, đây cũng chính là giá trị trung bình.
- Trung vị của phân bố Cauchy với tham số vị trí x0 và tham số tỉ lệ (scale parameter) y là x0, tham số vị trí.
- Trung vị của phân phối mũ với tham số λ là tham số tỉ lệ (scale parameter) nhân với lôga tự nhiên của 2, λln 2.
- Trung vị của phân bố Weibull với tham số hình dạng (shape parameter) k và tham số tỉ lệ λ là λ(log 2).
Trung vị trong thống kê mô tả
Trung vị thường được sử dụng chủ yếu trong các phân bố lệch vì nó phản ánh chính xác hơn xu hướng trung bình. Ví dụ với tập hợp { 1, 2, 2, 2, 3, 9 }, trung vị là 2, đồng thời cũng là mode, và nó cho thấy xu hướng trung tâm (central tendency) rõ ràng hơn so với giá trị trung bình số học là 3,166…
Tính toán trung vị là một kỹ thuật phổ biến trong thống kê tổng kết (summary statistics) và xử lý dữ liệu thống kê tổng kết (summarizing statistical data), vì nó dễ hiểu và tính toán, đồng thời cung cấp độ đo chính xác hơn trong trường hợp có giá trị ngoại lệ (outlier).
Các đặc điểm lý thuyết
Các tính chất tối ưu
Số trung vị cũng là điểm trung tâm, nơi mà tổng độ lệch tuyệt đối nhỏ nhất; ví dụ, nó sẽ là (1 + 0 + 0 + 0 + 1 + 7) / 6 = 0.5 khi sử dụng trung vị, trong khi nếu dùng giá trị trung bình, kết quả là 1.5. Trong lý thuyết xác suất, giá trị của c mà làm cho tổng này nhỏ nhất
là giá trị trung vị của phân phối xác suất của biến ngẫu nhiên X.
Bất đẳng thức liên quan đến giá trị trung bình và số trung vị
Đối với các phân phối xác suất liên tục, hiệu số giữa số trung vị và giá trị trung bình không vượt quá độ lệch chuẩn. Xem bất đẳng thức giữa các tham số vị trí và tỉ lệ (an inequality on location and scale parameters).
Tính toán hiệu quả
Mặc dù việc sắp xếp n phần tử thường yêu cầu O(n log n) thao tác, bằng cách sử dụng thuật toán 'chia để trị', số trung vị của n phần tử có thể được xác định với chỉ O(n) thao tác (trên thực tế, ta có thể tìm phần tử thứ k trong danh sách các giá trị bằng phương pháp này; thuật toán này được gọi là thuật toán lựa chọn (selection algorithm)).