Thông tin và dữ liệu mà con người có thể nhận diện tồn tại dưới nhiều hình thức khác nhau, chẳng hạn như số liệu, ký tự văn bản, âm thanh, hình ảnh... Tuy nhiên, trên máy tính, tất cả thông tin và dữ liệu đều được chuyển đổi thành dạng số nhị phân (chuỗi bit).
Nguyên tắc cơ bản
Để máy tính xử lý dữ liệu, cần phải chuyển đổi chúng thành dạng nhị phân. Mỗi loại dữ liệu yêu cầu phương pháp mã hóa riêng biệt. Cụ thể:
- Dữ liệu dạng số (số nguyên hoặc số thực) sẽ được chuyển đổi trực tiếp thành các chuỗi nhị phân theo các chuẩn quy định.
- Ký tự được mã hóa theo một bộ mã đặc thù, nghĩa là mỗi ký tự tương ứng với một chuỗi số nhị phân cụ thể.
- Dữ liệu không phải số như âm thanh, hình ảnh và nhiều loại dữ liệu vật lý khác cần phải được số hóa (digitalizing) để đưa vào máy tính.
Phân loại và biểu diễn dữ liệu
Dù tất cả dữ liệu trong máy tính đều được lưu trữ dưới dạng nhị phân, chúng thường được phân thành hai loại chính dựa trên bản chất của dữ liệu:
- Dạng cơ bản: bao gồm số (số nguyên hoặc số thực) và ký tự.
- Số nguyên không dấu được biểu diễn bằng dạng nhị phân thông thường.
- Số nguyên có dấu sử dụng mã bù hai.
- Số thực được biểu diễn theo dạng dấu phẩy động.
Để biểu diễn dữ liệu cơ bản, người ta sử dụng một số bit. Những bit này được kết hợp lại để tạo thành từ, chẳng hạn như từ 8 bit, 16 bit, và các kích thước lớn hơn.
- Dạng cấu trúc:
Dựa trên dữ liệu cơ bản, máy tính tạo ra các dạng dữ liệu có cấu trúc để đáp ứng nhiều mục đích khác nhau.
Tùy vào cách tổ chức, chúng ta có thể có mảng, tập hợp, chuỗi, bản ghi, và nhiều cấu trúc khác.
- Bài giảng tin học đại cương (Đại học Bách Khoa Hà Nội - 2007)