
Trong nghiên cứu thống kê và phương pháp nghiên cứu định lượng, mẫu dữ liệu là tập hợp các dữ liệu được thu thập hoặc lựa chọn từ một tổng thể thống kê theo một quy tắc nhất định.
Khi tổng thể quá lớn, việc tính toán hoặc liệt kê toàn bộ các giá trị trong tổng thể để phục vụ cho mục đích thống kê thường không khả thi. Các mẫu thường là một phần của tổng thể lớn hơn. Dữ liệu từ các mẫu được thu thập và phân tích để rút ra kết luận hoặc suy diễn về tổng thể. Quá trình thu thập dữ liệu từ một mẫu được gọi là lấy mẫu. Các mẫu có thể được lấy từ tổng thể mà không cần trả lại, tức là tập hợp con của tổng thể, hoặc có thể là các tập hợp con khác nhau trong trường hợp mẫu thay thế.
Loại mẫu
Một mẫu hoàn chỉnh bao gồm tất cả các đối tượng từ một tổng thể lớn hơn, đáp ứng đầy đủ các tiêu chí lựa chọn cụ thể. Chẳng hạn, mẫu đầy đủ của “các nam giới Úc cao hơn 2m” sẽ bao gồm danh sách tất cả những người đàn ông Úc vượt qua độ cao 2m, nhưng không bao gồm nam giới Đức hay phụ nữ Úc thấp hơn 2m. Để xây dựng mẫu đầy đủ, cần một danh sách toàn diện của tổng thể, bao gồm thông tin như chiều cao, giới tính, và quốc tịch của từng cá nhân. Trong trường hợp tổng thể con người, danh sách như vậy gần như không khả thi, nhưng trong nhiều lĩnh vực khác, mẫu đầy đủ thường có thể được tạo ra cho các tập hợp lớn hơn.
Một mẫu không thiên lệch là tập hợp các đối tượng được chọn từ một mẫu đầy đủ mà không phụ thuộc vào đặc tính của các đối tượng. Ví dụ, mẫu không thiên lệch của “các nam giới Úc cao hơn 2m” có thể được tạo ra bằng cách chọn ngẫu nhiên 1% của nhóm này. Tuy nhiên, trong một số tình huống, như danh sách cử tri, mẫu có thể không hoàn toàn không thiên lệch, vì ví dụ, nam giới dưới 18 tuổi không đủ điều kiện ứng cử. Trong các tập hợp lớn, mẫu ngẫu nhiên có thể đại diện cho phân số của tổng thể, mà không bị ảnh hưởng bởi những thuộc tính cụ thể.
Để tránh mẫu bị thiên lệch hay không đại diện, phương pháp tốt nhất là chọn mẫu ngẫu nhiên, hay còn gọi là mẫu xác suất. Mẫu ngẫu nhiên đảm bảo rằng mỗi cá thể trong tổng thể có cơ hội chọn lựa như nhau, không có sự phân biệt nào trong việc lựa chọn. Các loại mẫu ngẫu nhiên có thể bao gồm mẫu hệ thống và mẫu phân lớp.
Mẫu không ngẫu nhiên, còn gọi là mẫu không xác suất, là loại mẫu không được chọn một cách ngẫu nhiên. Ví dụ về các mẫu không ngẫu nhiên bao gồm mẫu thuận lợi, mẫu phán đoán, mẫu có chủ đích, mẫu theo hạn ngạch, mẫu dây chuyền, và giao điểm vuông góc trong các phương pháp như Monte Carlo.
Mẫu số liệu thống kê rất phổ biến và được áp dụng trong nhiều tình huống khác nhau.
Diễn giải toán học về mẫu ngẫu nhiên
Trong toán học, nếu X là một biến ngẫu nhiên với phân phối F, thì một mẫu ngẫu nhiên có độ dài n (n có thể là 1, 2, 3,...) là một tập hợp gồm n biến ngẫu nhiên độc lập, mỗi biến đều có phân phối F.
Một đại diện của mẫu là tập hợp các kết quả từ n thí nghiệm, mỗi thí nghiệm có cùng số lượng đo. Ví dụ, nếu X biểu thị chiều cao của một cá nhân và cá nhân n là có nghĩa, sẽ là chiều cao của cá nhân thứ i. Cần lưu ý rằng một mẫu biến ngẫu nhiên (tức là tập hợp các phép đo) không nên bị nhầm lẫn với kết quả của các thử nghiệm (các giá trị được chọn ngẫu nhiên, gọi là các biến ngẫu nhiên). Nói cách khác, là hàm biểu thị các phép đo trong thử nghiệm thứ i và là giá trị thực thu được từ phép đo.
Khái niệm mẫu bao gồm cả quá trình thu thập dữ liệu (các biến ngẫu nhiên). Điều này rất quan trọng để các báo cáo toán học có thể thực hiện các phép đo và số liệu thống kê, như trung bình mẫu và phương sai.
Tài nguyên bên ngoài
- Các thuật ngữ thống kê được giải thích đơn giản
