Âm vị là phân đoạn nhỏ nhất của âm thanh được dùng để phân biệt các cách phát âm. Vì vậy, âm vị là một nhóm các âm thanh với sự khác biệt tương đối nhỏ nhưng lại đảm nhận vai trò quan trọng tùy theo người nói và phương ngữ. Ví dụ, mặc dù hầu hết người bản ngữ không nhận ra điều này, trong hầu hết các ngôn ngữ, k trong từng từ lại có sự khác biệt rõ rệt. Ví dụ, k trong kit được phát âm là [kʰ] và k trong skill lại là /k/. Trong một số ngôn ngữ, một ký tự có thể đại diện cho một âm vị, nhưng trong tiếng Anh, điều này không thực sự chính xác. Ví dụ, trong tiếng Anh, ký tự sh đại diện cho âm /ʃ/, trong khi cả k và c đều đại diện cho âm /k/ (trong kit và cat).
Trong ngôn ngữ học, các âm vị (thường được thiết lập bằng cách sử dụng các cặp tối thiểu, ví dụ như kill vs Kiss hoặc pat vs bat) được viết giữa các dấu gạch chéo, ví dụ: /p/. Để thể hiện phát âm chính xác hơn, các nhà ngôn ngữ học sử dụng dấu ngoặc vuông, ví dụ [pʰ] (biểu thị một p bật hơi).
Trong ngôn ngữ học, có nhiều quan điểm khác nhau về chính xác của âm vị và cách phân tích một ngôn ngữ cụ thể theo thuật ngữ âm vị (hoặc ngữ âm). Tuy nhiên, một âm vị thường được hiểu là một tập hợp trừu tượng của các âm thanh giọng nói (điện thoại) được coi là tương đương nhau trong một ngôn ngữ cụ thể. Ví dụ, trong tiếng Anh, âm k trong kit và skill không giống nhau (như được mô tả bên dưới), nhưng chúng là các biến thể phân phối của một âm vị /k/. Những biến thể này của âm thanh lời nói là hiện thực hóa của cùng một âm vị được gọi là allophones. Sự biến đổi allophonic có thể được điều hòa, trong trường hợp một âm vị nhất định được nhận ra là một âm sắc nhất định trong môi trường âm vị học cụ thể, hoặc nó có thể tự do trong trường hợp nó có thể thay đổi ngẫu nhiên. Theo cách này, âm vị thường được coi là cơ sở trừu tượng để biểu diễn các phân đoạn từ, trong khi các âm thanh lời nói tạo ra sự nhận thức về ngữ âm tương ứng, hoặc hình thức bề mặt.
