Protein (phát âm tiếng Anh: /ˈproʊˌtiːn/, phát âm tiếng Việt: prồ-tê-in hay còn gọi là chất đạm) là một phân tử sinh học lớn, bao gồm nhiều amino acid liên kết với nhau. Protein thực hiện nhiều chức năng trong tế bào, bao gồm xúc tác các phản ứng trao đổi chất, sao chép DNA, phản ứng với kích thích, và vận chuyển các phân tử từ vị trí này sang vị trí khác. Các protein khác nhau chủ yếu dựa vào trình tự của các amino acid và trình tự nucleotide trong gene tương ứng, ảnh hưởng đến quá trình gập protein (protein folding) và xác định chức năng của nó.
Một chuỗi liên tiếp các amino acid kết nối với nhau gọi là chuỗi polypeptide. Một protein bao gồm ít nhất một chuỗi polypeptide dài. Những chuỗi polypeptide ngắn, thường có dưới 20-30 amino acid, hiếm khi được coi là protein và thường được gọi là peptide hoặc oligopeptide. Các amino acid liên kết với nhau bằng liên kết peptide. Trình tự amino acid trong một protein được quy định bởi trình tự gene theo mã di truyền. Trong tự nhiên, có khoảng 20 amino acid tham gia vào việc hình thành protein; tuy nhiên, một số sinh vật có thể sử dụng selenocysteine và pyrrolysine. Sau khi được tổng hợp, các amino acid trong protein có thể trải qua các sửa đổi hóa học qua quá trình sửa đổi sau dịch mã (post-translational modification), làm thay đổi tính chất hóa học, cấu trúc, độ ổn định, hoạt tính và chức năng của protein. Một số protein còn có nhóm phi-peptide gắn thêm, được gọi là nhóm ngoại lai (prosthetic group) hoặc đồng yếu tố (cofactor). Protein cũng có thể tương tác với nhau để thực hiện các chức năng chuyên biệt và thường phối hợp thành các phức hệ protein ổn định.
Sau khi được hình thành, các protein chỉ tồn tại trong một khoảng thời gian nhất định trước khi bị phân giải và tái sinh qua quá trình quay vòng protein (protein turnover). Tuổi thọ của một protein được đo bằng chu kỳ bán rã và có thể thay đổi rất lớn. Thời gian tồn tại của protein có thể từ vài phút đến hàng năm, với thời gian sống trung bình khoảng 1-2 ngày trong tế bào động vật. Các protein bất thường hoặc bị gập xoắn sai thường được phân giải nhanh hơn, có thể do chúng bị đánh dấu để tiêu hủy hoặc trở nên không ổn định.
Tương tự như các đại phân tử sinh học khác như polysaccharide và acid nucleic, protein là một phần thiết yếu trong cơ thể sinh vật, đóng vai trò trong mọi hoạt động bên trong tế bào. Nhiều protein hoạt động như enzyme, xúc tác cho các phản ứng sinh hóa và rất cần thiết cho quá trình trao đổi chất. Chúng cũng có chức năng cấu trúc hoặc vận động, ví dụ như actin và myosin trong cơ bắp, cũng như protein trong bộ xương tế bào, tạo thành khung hỗ trợ duy trì hình dáng của tế bào. Ngoài ra, một số protein tham gia vào tín hiệu tế bào, phản ứng miễn dịch, kết dính tế bào và chu kỳ tế bào. Đối với động vật, protein cần thiết trong chế độ ăn uống để cung cấp các amino acid thiết yếu mà cơ thể không thể tự tổng hợp. Quá trình tiêu hóa giúp 'bẻ gãy' các protein để sử dụng trong trao đổi chất.
Protein có thể được tinh chế từ nhiều thành phần khác nhau của tế bào thông qua các kỹ thuật như siêu ly tâm (ultracentrifugation), kết tủa, điện di và sắc ký; sự tiến bộ trong công nghệ di truyền đã mở ra nhiều phương pháp mới để tinh sạch protein. Các kỹ thuật phổ biến để nghiên cứu cấu trúc và chức năng của protein bao gồm hóa mô miễn dịch (immunohistochemistry), gây đột biến định hướng điểm (site-directed mutagenesis), tinh thể học tia X, cộng hưởng từ hạt nhân và khối phổ kế.
BMP/ĐIỆN GIẢI: | |||
Na = 140 | Cl = 100 | BUN = 20 | / |
Glu = 150 | |||
K = 4 | CO2 = 22 | PCr = 1.0 | \ |
KHÍ MÁU ĐỘNG MẠCH: | |||
HCO3 = 24 | paCO2 = 40 | paO2 = 95 | pH = 7.40 |
THÔNG KHÍ PHẾ NANG: | |||
pACO2 = 36 | pAO2 = 105 | A-a g = 10 | |
KHÁC: | |||
Ca = 9.5 | Mg = 2.0 | PO4 = 1 | |
CK = 55 | BE = −0.36 | AG = 16 | |
ĐỘ THẨM THẤU HUYẾT TƯƠNG/THẬN: | |||
PMO = 300 | PCO = 295 | POG = 5 | BUN:Cr = 20 |
XÉT NGHIỆM NƯỚC TIỂU: | |||
UNa = 80 | UCl = 100 | UAG = 5 | FENa = 0.95 |
UK = 25 | USG = 1.01 | UCr = 60 | UO = 800 |
PROTEIN/ĐƯỜNG RUỘT/XÉT NGHIỆM CHỨC NĂNG GAN: | |||
LDH = 100 | TP = 7.6 | AST = 25 | TBIL = 0.7 |
ALP = 71 | Alb = 4.0 | ALT = 40 | BC = 0.5 |
AST/ALT = 0.6 | BU = 0.2 | ||
AF alb = 3.0 | SAAG = 1.0 | SOG = 60 | |
DỊCH NÃO TỦY: | |||
CSF alb = 30 | CSF glu = 60 | CSF/S alb = 7.5 | CSF/S glu = 0.4 |
Hóa sinh
Hầu hết các protein bao gồm một hoặc nhiều chuỗi polypeptide thẳng được tạo thành từ 20 loại L-α-amino acid khác nhau. Các amino acid cấu thành protein (amino acid sinh protein) có đặc điểm chung là đều có một α-carbon, nơi liên kết với một nhóm amin, một nhóm carboxyl và nhiều nhóm bên khác nhau. Proline là trường hợp đặc biệt khi nó có một vòng tại đầu N của nhóm amin, làm cho nửa liên kết CO–NH có hình dạng cố định là phẳng. Các nhóm bên của amino acid có tính chất và cấu trúc hóa học phong phú; sự kết hợp và tương tác giữa chúng trong protein quyết định cấu trúc 3 chiều và đặc tính phản ứng hóa học của protein.
Các amino acid trong chuỗi polypeptide được kết nối với nhau bằng liên kết peptide. Khi nằm trong chuỗi protein, từng amino acid được gọi là phần thừa (hay phần dư, residue), và cấu trúc liên kết của các nguyên tử carbon, nitro và oxy được gọi là mạch chính hay bộ khung protein.
Liên kết peptide có hai dạng cộng hưởng (resonance, hay cấu trúc mesome), tạo ra các đặc điểm liên kết đôi và cản trở sự quay quanh trục của nó, do đó các nguyên tử carbon alpha gần như đồng phẳng. Hai góc nhị diện khác trong liên kết peptide xác định hình dạng cục bộ mà khung xương protein đảm nhận. Điểm kết thúc của protein với nhóm carboxyl tự do gọi là điểm kết thúc-C, trong khi điểm kết thúc với nhóm amin tự do gọi là điểm kết thúc-N. Các thuật ngữ protein, polypeptide, và peptide có thể gây nhầm lẫn và mang ý nghĩa chồng lặp. Protein thường chỉ các phân tử sinh học hoàn chỉnh trong cấu hình ổn định, trong khi peptide thường ám chỉ oligome amino acid ngắn mà không có cấu trúc ba chiều ổn định. Tuy nhiên, ranh giới giữa hai định nghĩa này không phải lúc nào cũng rõ ràng, thường là peptide dài khoảng 20–30 amino acid. Polypeptide thường được sử dụng để chỉ bất kỳ mạch thẳng nào từ amino acid, không phụ thuộc vào chiều dài, và thường không có cấu hình xác định.
Sự xuất hiện trong tế bào
Các nhà sinh học ước lượng rằng một vi khuẩn kích thước trung bình chứa khoảng 2 triệu protein trong tế bào (ví dụ như E. coli và Staphylococcus aureus). Các vi khuẩn nhỏ hơn như Mycoplasma hay spirochetes chỉ chứa từ 50.000 đến 1 triệu protein. Ngược lại, tế bào nhân thực lớn hơn và do đó chứa nhiều protein hơn. Ví dụ, tế bào nấm men ước tính có khoảng 50 triệu protein và tế bào người có từ 1 đến 3 tỷ protein. Bộ gene của vi khuẩn mã hóa cho số lượng protein thấp hơn 10 lần so với con người (ví dụ vi khuẩn nhỏ ~1.000, E. coli: ~4.000, nấm men: ~6.000, loài người: ~20.000).
Nồng độ protein trong một tế bào có sự biến thiên lớn, từ chỉ một vài phân tử đến hàng trăm nghìn phân tử. Khoảng một phần ba tổng số protein không được tổng hợp trong tế bào hoặc chỉ được sản sinh trong những điều kiện nhất định. Ví dụ, trong số 20.000 protein được mã hóa bởi bộ gene của con người, chỉ có 6.000 protein được phát hiện trong nguyên bào lympho. Hơn nữa, số lượng protein mà bộ gene mã hóa thường tương quan với mức độ phức tạp của cơ thể sinh vật. Sinh vật nhân thực, vi khuẩn, vi khuẩn cổ và virus có trung bình 15.145, 3.200, 2.358 và 42 protein tương ứng được mã hóa trong bộ gene của chúng.
Tổng hợp
Sinh tổng hợp
Protein được hình thành từ các amino acid liên kết lại với nhau dựa trên thông tin được mã hóa trong gene. Mỗi protein có một trình tự amino acid độc nhất, được xác định bởi trình tự nucleotide trong gene tương ứng. Mã di truyền bao gồm các bộ ba nucleotide được gọi là codon, mỗi codon đại diện cho một amino acid cụ thể, ví dụ AUG (adenine-uracil-guanine) mã hóa cho methionine. Với bốn nucleotide có trong DNA, có tổng cộng 64 codon khả thi; tuy nhiên, chỉ có 20 amino acid, vì vậy một số amino acid được mã hóa bởi nhiều hơn một codon. Gene trong DNA đầu tiên được phiên mã thành phân tử tiền-mRNA bởi các enzyme như RNA polymerase. Hầu hết sinh vật sau đó xử lý tiền-mRNA với các sửa đổi sau phiên mã để tạo ra phân tử mRNA hoàn chỉnh, làm khuôn mẫu cho quá trình tổng hợp protein tại ribosome. Ở sinh vật nhân sơ, mRNA được sử dụng ngay sau khi hình thành hoặc liên kết với ribosome khi ra khỏi vùng nhân. Trong khi đó, ở sinh vật nhân thực, mRNA được tổng hợp trong nhân tế bào rồi sau đó chuyển đến bào tương, nơi quá trình tổng hợp protein diễn ra. Tốc độ tổng hợp protein ở sinh vật nhân sơ nhanh hơn so với sinh vật nhân thực, có thể đạt tới 20 amino acid mỗi giây.
Giai đoạn tổng hợp protein từ mRNA được gọi là dịch mã. mRNA được đưa vào ribosome, nơi ribosome đọc ba nucleotide một lần theo nguyên tắc bổ sung, khớp mỗi codon với một anticodon trên phân tử tRNA, tRNA mang theo amino acid tương ứng. Trước đó, enzyme aminoacyl tRNA synthetase 'nạp' amino acid vào phân tử tRNA. Chuỗi polypeptide đang hình thành được gọi là chuỗi mới sinh. Quá trình tổng hợp protein luôn diễn ra từ đầu N đến đầu C.
Kích thước của một protein có thể được đo bằng số lượng amino acid hoặc tổng khối lượng phân tử, thường được tính bằng đơn vị dalton (đơn vị khối lượng nguyên tử) hoặc kilodalton (kDa). Protein từ nấm men thường dài khoảng 466 amino acid và có khối lượng khoảng 53 kDa. Protein lớn nhất được biết đến là titin, một thành phần của sợi cơ vân, với khối lượng phân tử lên đến 3.000 kDa và chứa tới 27.000 amino acid.
Hóa tổng hợp
Các protein ngắn có thể được tổng hợp hóa học bằng các phương pháp như tổng hợp peptide, dựa trên kỹ thuật tổng hợp hữu cơ như kết nối hóa học để tạo ra các peptide dài hơn. Tổng hợp hóa học cho phép đưa vào chuỗi polypeptide các amino acid nhân tạo, bao gồm việc gắn các phân tử thăm dò huỳnh quang vào mạch bên của chuỗi amino acid. Mặc dù có hiệu quả trong phòng thí nghiệm hóa sinh và sinh học tế bào, tổng hợp hóa học không thường được thương mại hóa. Ngoài ra, tổng hợp hóa học không hiệu quả cho các chuỗi polypeptide dài hơn 300 amino acid, và các protein được tổng hợp có thể không đạt cấu trúc bậc bốn như mong đợi. Hầu hết các phương pháp tổng hợp hóa học bắt đầu từ đầu C đến đầu N, ngược với các phản ứng sinh học.
Protein
Hầu hết protein gập thành một cấu trúc ba chiều duy nhất. Hình dạng mà protein tự nhiên uốn gấp được gọi là hình dạng nguyên sinh. Dù nhiều protein có thể gập mà không cần hỗ trợ nhờ vào tính chất hóa học của các amino acid, một số khác cần sự trợ giúp của phân tử chaperone để đạt được hình dạng nguyên sinh. Các nhà hóa sinh phân loại bốn cấp độ cấu trúc protein:
- Cấu trúc sơ cấp: Trình tự sắp xếp các gốc amino acid trong chuỗi polypeptide, được duy trì bởi liên kết peptide. Protein là polyamide.
- Cấu trúc bậc hai: Tương tác không gian giữa các gốc amino acid gần nhau, chủ yếu bền vững nhờ liên kết hiđrô giữa các liên kết peptide lân cận. Ví dụ về cấu trúc bậc hai bao gồm xoắn α, phiến gấp nếp β và các vùng chuyển hướng. Nhiều vùng có cấu trúc bậc hai khác nhau có thể tồn tại trong một protein.
- Cấu trúc bậc ba: Hình dạng tổng thể của một protein đơn lẻ; liên quan đến không gian giữa các cấu trúc bậc hai. Thường được giữ ổn định nhờ tương tác phi cục bộ, chủ yếu là lõi kị nước, cầu muối, liên kết hiđrô và liên kết disulfide. Thuật ngữ 'cấu trúc bậc ba' thường đồng nghĩa với 'uốn gấp' và kiểm soát chức năng chính của protein.
- Cấu trúc bậc bốn: Hình thành từ nhiều phân tử protein liên kết, thường gọi là tiểu đơn vị protein, hoạt động như một phức hợp protein.
Protein không phải là một phân tử hoàn toàn 'cứng nhắc'. Không chỉ dừng lại ở một bậc cấu trúc nhất định, protein có khả năng chuyển đổi giữa nhiều cấu trúc khác nhau khi thực hiện các chức năng sinh học. Những cấu trúc bậc 3 và bậc 4 thường được gọi là 'cấu dạng', và sự chuyển đổi giữa chúng được gọi là sự thay đổi cấu dạng. Những thay đổi này thường xảy ra khi một phân tử cơ chất (substrate molecule) liên kết với vị trí hoạt động của enzyme, nơi protein tham gia vào quá trình xúc tác hóa học. Các protein trong dung dịch hòa tan cũng trải qua biến đổi cấu trúc do các rung động nhiệt và va chạm với các phân tử khác.
Tất cả protein hoặc những đoạn protein được phân loại thành bốn nhóm chính, liên quan đến cấu trúc bậc 4 của chúng: protein dạng cầu (globular protein), protein dạng sợi (fibrous protein), protein màng tích hợp (integral membrane protein) và protein không trật tự nội tại (intrinsically disordered protein). Phần lớn protein dạng cầu có thể hòa tan và thường là các enzyme. Protein dạng sợi thường có vai trò cấu trúc, như collagen, thành phần chính của mô liên kết, hay keratin, thành phần protein của tóc và móng. Protein màng thường hoạt động như thụ thể hoặc kênh dẫn cho các phân tử mang điện tích hoặc phân cực vượt qua màng tế bào. Protein không trật tự nội tại khác biệt cơ bản về tính trật tự hình dạng so với ba loại trên. Nhiều protein có hình dạng xác định rõ khi ở dạng nguyên thể (native), trong khi protein không trật tự nội tại không có hình dáng cố định; chuỗi polypeptide của chúng rất linh động và không có hình dạng nhất định. Tính linh hoạt này cho phép protein không trật tự nội tại tương tác với nhiều protein khác hoặc gập thành các hình dạng cụ thể chỉ khi liên kết với các đối tác. Chúng thường tham gia vào truyền tín hiệu, điều hòa hoạt động của các phân tử khác, hoặc làm khung cho các protein khác bám vào.
Một trường hợp đặc biệt của liên kết hiđrô liên phân tử trong protein, chỉ che chắn yếu ớt khỏi tác động của nước và do đó dễ bị khử nước, được gọi là dehydron.
Xác định cấu trúc
Việc khám phá cấu trúc bậc ba của protein, hay cấu trúc bậc bốn của các phức hợp protein, mang lại những bằng chứng quan trọng về chức năng của protein. Các phương pháp thực nghiệm như tinh thể học tia X và phổ NMR thường được sử dụng để xác định cấu trúc, cung cấp thông tin với độ phân giải ở cấp nguyên tử. Đặc biệt, kỹ thuật NMR có thể ước lượng khoảng cách giữa từng cặp nguyên tử và hình dạng cuối cùng của protein được xác định thông qua bài toán hình học khoảng cách. Kỹ thuật giao thoa phân cực hai sóng dẫn (Dual polarisation interferometry) cho phép đo hình dạng tổng thể của protein và những thay đổi do tương tác giữa các nguyên tử hoặc các tác động khác. Lưỡng hướng sắc phân cực tròn (circular dichroism) là một kỹ thuật phòng thí nghiệm giúp xác định các thành phần cấu trúc bậc hai như gấp nếp β và xoắn α của protein. Kính hiển vi điện tử truyền qua giúp thu thập thông tin về cấu trúc có độ phân giải thấp hơn của các phức hợp protein lớn, bao gồm cả virus; một kỹ thuật khác là 'xác định cấu trúc tinh thể bằng kính hiển vi điện tử truyền qua' (electron crystallography) có thể đạt được độ phân giải cao trong một số trường hợp, đặc biệt với tinh thể hai chiều của protein màng. Thông tin cấu trúc thường được lưu trữ tại Ngân hàng Dữ liệu Protein (Protein Data Bank, PDB), nơi cung cấp dữ liệu về cấu trúc hàng nghìn protein dưới dạng tọa độ Descartes cho từng nguyên tử.
Hiện nay có nhiều trình tự gene được giải mã hơn so với số lượng protein đã được xác định cấu trúc. Ngoài ra, các cấu trúc quan sát thường bị chệch khỏi hình dạng tự nhiên của protein do điều kiện quan sát trong kỹ thuật tinh thể học tia X, một trong những phương pháp chính để xác định cấu trúc protein. Đặc biệt, protein dạng cầu thường dễ chuẩn bị làm mẫu cho tinh thể hóa trước khi thực hiện chụp tinh thể học tia X. Ngược lại, các protein dạng màng rất khó để chuyển thành dạng tinh thể và chưa có dữ liệu về chúng trong PDB. Hướng nghiên cứu 'bộ gene mã hóa cấu trúc protein' (structural geneomics) gần đây đã được khởi xướng nhằm giảm bớt những khoảng trống trong hiểu biết này bằng cách nghiên cứu cấu trúc của một số lớp protein thông qua cách chúng uốn gập. Phương pháp dự đoán cấu trúc protein nhằm cung cấp một cái nhìn sơ bộ về cấu trúc của những protein chưa được xác định qua thực nghiệm.
Chức năng tế bào
Protein là nhân tố chính trong tế bào, thực hiện các nhiệm vụ dựa trên thông tin được mã hóa trong gene. Ngoài một số loại RNA nhất định, phần lớn các phân tử sinh học khác là tương đối trơ với tác động của protein. Protein chiếm một nửa trọng lượng khô của tế bào vi khuẩn Escherichia coli, trong khi các đại phân tử khác như DNA và RNA chỉ chiếm khoảng 3% và 20%. Tập hợp các protein biểu hiện trong một tế bào cụ thể hoặc một loại tế bào được gọi là hệ protein (proteome) hay bộ protein hoàn chỉnh.
Đặc điểm nổi bật của protein, cũng là nguồn gốc của nhiều chức năng đa dạng, chính là khả năng liên kết đặc hiệu và chặt chẽ với các phân tử khác. Khu vực của protein có khả năng liên kết được gọi là vùng liên kết (binding site), thường xuất hiện dưới dạng các khe hở (depression) hoặc 'túi' (pocket) trên bề mặt phân tử. Khả năng liên kết này phụ thuộc vào cấu trúc bậc ba của protein, xác định vị trí túi liên kết, cùng với các tính chất hóa học của chuỗi nhánh amino acid xung quanh. Liên kết giữa protein có thể rất đặc hiệu và chặt chẽ; chẳng hạn, protein ức chế ribonuclease (ribonuclease inhibitor protein) liên kết với protein angiogenin ở người với hằng số phân ly thấp dưới femto mol (<10 M), nhưng không liên kết với protein onconase tương tự ở động vật lưỡng cư (>1 M). Những thay đổi hóa học nhỏ, như việc thêm một nhóm methyl vào phân tử, đôi khi có thể làm mất liên kết với protein; ví dụ, aminoacyl tRNA synthetase đặc hiệu với amino acid valine lại phân biệt rõ với isoleucine, mặc dù chúng có chuỗi bên tương đồng.
Protein có khả năng liên kết với nhau cũng như với các cơ chất tiểu phân tử (small-molecule substrate). Khi protein liên kết đặc hiệu với các bản sao khác của cùng một phân tử, chúng có thể oligome hóa để hình thành những cấu trúc nhỏ; quá trình này thường diễn ra ở các protein cấu trúc có chứa các monome dạng cầu tự tổ chức thành những sợi vững chắc. Tương tác giữa các protein cũng điều hòa hoạt động enzym, điều khiển các chu kỳ tế bào, và cho phép hình thành các phức hợp protein lớn thực hiện những phản ứng sinh học liên quan chặt chẽ với nhau. Protein cũng có thể liên kết với, hoặc thậm chí tích hợp vào màng tế bào. Khả năng kết nối với các đối tác để kích thích sự thay đổi hình dáng trong các protein tạo ra một mạng lưới tín hiệu tế bào rộng lớn và phức tạp. Vì tương tác giữa các protein là thuận nghịch và phụ thuộc vào khả năng của các nhóm protein khác nhau để hình thành tổ hợp thực hiện các chức năng riêng biệt, nghiên cứu về các tương tác protein đặc hiệu là chìa khóa để hiểu những khía cạnh quan trọng của chức năng tế bào, cũng như để phân biệt các loại tế bào khác nhau.
Loại protein | Chức năng | Ví dụ |
---|---|---|
Cấu trúc | Cấu trúc, nâng đỡ | Collagene và elastin tạo nên cấu trúc sợi rất bền của mô liên kết, dây chằng, gân. Keratin tạo nên cấu trúc chắc của da, lông, móng. Protein tơ nhện, tơ tằm tạo nên độ bền vững của tơ nhện, vỏ kén. |
Enzyme | Xúc tác sinh học: tăng tốc độ phản ứng, chọn lọc các phản ứng sinh hóa | Các enzyme thủy phân trong dạ dày phân giải thức ăn, enzyme amylase trong nước bọt phân giải tinh bột chín, enzyme pepsin phân giải protein, enzyme lipase phân giải lipid. |
Hormone | Điều hòa các hoạt động sinh lý | Hormone insulin và glucagon do tế bào đảo tụy (beta cell) thuộc tuyến tụy tiết ra có tác dụng điều hòa hàm lượng đường glucose trong máu động vật có xương sống. |
Vận chuyển | Vận chuyển các chất | Huyết sắc tố hemoglobin có chứa trong hồng cầu động vật có xương sống có vai trò vận chuyển oxy từ phổi theo máu đi nuôi các tế bào. |
Vận động | Tham gia vào chức năng vận động của tế bào và cơ thể | Actinin, myosin có vai trò vận động cơ. Tubulin có vai trò vận động lông, roi của các sinh vật đơn bào. |
Bảo vệ | Bảo vệ cơ thể chống bệnh tật | Interferon chống virus. Kháng thể chống vi khuẩn gây bệnh. |
Thụ quan | Cảm nhận, truyền tín hiệu, đáp ứng các kích thích của môi trường | Thụ quan màng của tế bào thần kinh khác tiết ra (chất trung gian thần kinh) và truyền tín hiệu. |
Dự trữ | Dự trữ chất dinh dưỡng | Albumin lòng trắng trứng là nguồn cung cấp amino acid cho phôi phát triển. Casein trong sữa mẹ là nguồn cung cấp amino acid cho thai nhi. Trong hạt cây có chứa nguồn protein dự trữ cần thiết cho hạt nảy mầm. |
Enzyme
Vai trò nổi bật nhất của protein trong tế bào là như các enzyme, khi chúng đóng vai trò xúc tác cho các phản ứng sinh hóa. Enzyme có tính đặc hiệu cao và chỉ tham gia vào một hoặc một vài phản ứng hóa học. Chúng thường tham gia vào các phản ứng trao đổi chất, cũng như tác động lên DNA trong các quá trình như nhân đôi, sửa chữa và phiên mã. Một số enzyme còn tác động lên các protein khác để thêm vào hoặc loại bỏ nhóm chức hóa học trong quá trình gọi là sửa đổi sau dịch mã (post-translational modification). Hiện có khoảng 4.000 phản ứng sinh hóa đã được biết đến được xúc tác bởi enzyme. Sự gia tăng tốc độ phản ứng nhờ có enzyme thường rất lớn—tăng lên tới 10 lần so với phản ứng không có xúc tác, như trường hợp của orotate decarboxylase (xảy ra trong 78 triệu năm không có enzyme, nhưng chỉ cần 18 mili giây với enzyme).
Các phân tử được enzyme liên kết và tác động đến gọi là các cơ chất (substrate). Mặc dù enzyme có thể có hàng trăm amino acid, thường chỉ một số ít các nhóm dư (residues) tham gia vào tiếp xúc với cơ chất, và thậm chí chỉ một số nhỏ hơn—trung bình từ 3 đến 4 nhóm dư—tham gia trực tiếp vào xúc tác. Khu vực của enzyme liên kết với cơ chất và chứa các nhóm dư xúc tác được gọi là vị trí hoạt động (active site).
Dirigenet protein là những phần tử thuộc một lớp protein có vai trò điều tiết hóa học lập thể (stereochemistry) của hợp chất được tổng hợp bởi các enzyme khác.
Tín hiệu tế bào và liên kết phối tử
Nhiều protein tham gia vào các giai đoạn của quá trình truyền tín hiệu tế bào và tải nạp tín hiệu. Một số protein như insulin là những protein ngoại bào, thực hiện chức năng truyền tín hiệu từ tế bào mà chúng được tổng hợp đến các tế bào khác ở xa trong mô. Các protein khác là protein màng (membrane protein), hoạt động như thụ thể có chức năng chính là liên kết với phân tử tín hiệu và kích thích một đáp ứng hóa sinh bên trong tế bào. Nhiều thụ thể có vị trí liên kết nằm trên bề mặt tế bào, với miền tác động bên trong tế bào, mà chức năng enzym của chúng có thể trải qua một thay đổi cấu dạng (conformational change) được phát hiện bởi các protein khác bên trong tế bào.
Kháng thể là thành phần protein của hệ miễn dịch thu được (adaptive immune system) với chức năng chính là liên kết với các kháng nguyên, hay các cơ chất lạ bên trong cơ thể, để nhận diện và đánh dấu chúng nhằm tiêu hủy. Kháng thể có thể được tiết vào môi trường ngoại bào hoặc bám vào màng của các tế bào B chuyên biệt (B cell) gọi là tế bào plasma. Trong khi các enzyme bị giới hạn bởi ái lực liên kết với các chất nền để điều khiển phản ứng mà chúng tham gia, các kháng thể không gặp phải giới hạn này. Ái lực liên kết của kháng thể với mục tiêu của chúng là cực kỳ cao.
Nhiều phối tử (ligand) giúp vận chuyển các protein liên kết đặc hiệu cùng với các phân tử sinh học nhỏ đến những vị trí khác nhau trong cơ thể của sinh vật đa bào. Những protein này cần có ái lực liên kết mạnh mẽ khi phối tử có mặt với nồng độ cao, nhưng cũng phải giải phóng phối tử khi nồng độ thấp tại các mô đích. Ví dụ tiêu biểu là haemoglobin, đóng vai trò vận chuyển oxy từ phổi đến các mô và cơ quan ở động vật có xương sống, và có sự tương đồng trong nhiều giới sinh học. Lectin là các protein liên kết với đường, có chức năng đặc hiệu cao với phân tử đường tương ứng, và tham gia vào quá trình nhận diện phân tử ở tế bào và protein. Các thụ thể và hormone cũng là những protein có ái lực liên kết đặc hiệu cao.
Protein xuyên màng (transmembrane protein) còn được xem như những protein chuyên chở phối tử, làm thay đổi tính thấm của màng tế bào đối với các phân tử nhỏ và ion. Màng tế bào có một lõi kị nước, khiến các phân tử phân cực hay mang điện không thể khuếch tán qua. Protein màng chứa các kênh bên trong cho phép những phân tử này đi vào và ra khỏi tế bào. Nhiều kênh ion protein cho phép chỉ một loại ion đặc biệt đi qua; chẳng hạn, các kênh kali và natri chỉ cho phép ion tương ứng đi qua.
Protein cấu trúc
Các protein cấu trúc cung cấp độ bền và tính cứng cho các thành phần sinh học không ở dạng lỏng khác. Phần lớn các protein này có hình dạng sợi, như collagen và elastin, đóng vai trò quan trọng trong mô liên kết như sụn, trong khi keratin có mặt trong các cấu trúc cứng hoặc dạng sợi như lông, móng, lông vũ, móng guốc và vỏ giáp. Một số protein cầu cũng tham gia vào các chức năng sinh học, chẳng hạn như sợi actin và tubulin, mặc dù ở dạng monome chúng tan được, nhưng khi polymer hóa lại tạo thành dạng sợi dài, cứng, giúp tạo nên bộ khung tế bào, duy trì hình dạng và kích thước của tế bào.
Những protein khác với chức năng cấu trúc bao gồm các protein động cơ như myosin, kinesin và dynein, có khả năng sinh ra lực cơ học. Những protein này cực kỳ quan trọng cho sự di chuyển của tế bào ở sinh vật đơn bào và cho hoạt động sinh sản của tinh trùng ở hầu hết các sinh vật đa bào. Chúng cũng tạo ra lực đẩy cần thiết để cơ co lại và có vai trò quan trọng trong quá trình vận chuyển nội bào.
Phương pháp nghiên cứu
Hoạt động và chức năng của protein có thể được nghiên cứu qua các phương pháp in vitro, in vivo, và in silico. Phương pháp in vitro cho phép nghiên cứu các protein trong môi trường kiểm soát, giúp hiểu rõ cách thức hoạt động của một protein; ví dụ, lĩnh vực động học enzyme (enzyme kinetic) khám phá cơ chế phản ứng trong quá trình xúc tác của enzyme và độ ái lực của nó với nhiều loại phân tử cơ chất khác nhau. Ngược lại, phương pháp in vivo cung cấp thông tin về vai trò sinh lý của protein trong tế bào hoặc toàn bộ sinh vật. Phương pháp in silico sử dụng các kỹ thuật tin sinh học để phân tích protein.
Tinh sạch protein
Để thực hiện phân tích in vitro, một protein cần nghiên cứu phải được làm sạch và tách ra (protein purification) khỏi các thành phần khác trong tế bào. Quá trình này thường bắt đầu bằng việc phá vỡ tế bào (hay còn gọi là tiêu tế bào, cytolysis), khi mà màng tế bào bị phá hủy do nước thẩm thấu quá nhiều vào bên trong, làm giải phóng các thành phần bên trong vào một dung môi gọi là dung dịch thủy phân tế bào (crude lysate, hay cytolysate). Hỗn hợp thu được được tinh sạch thông qua phương pháp siêu ly tâm (ultracentrifugation), phân tách nhiều thành phần tế bào thành các phần chứa các protein hòa tan khác nhau; như màng lipid, protein, bào quan tế bào và acid nucleic. Hỗn hợp này được kết tinh qua phương pháp tách tinh thể muối (salting out), giúp tập trung protein từ dung dịch. Sau đó, nhiều kỹ thuật sắc ký được sử dụng để cô lập một hoặc một vài protein cần nghiên cứu dựa trên các tính chất như trọng lượng phân tử, tổng điện tích và ái lực liên kết. Mức độ sàng lọc được giám sát thông qua nhiều kỹ thuật điện di trên gel (gel electrophoresis) nếu biết trọng lượng phân tử và điểm đẳng điện (isoelectric point) của protein cần nghiên cứu, hoặc thông qua phân tích phổ nếu protein có những đặc trưng phổ dễ phân biệt, hoặc qua thí nghiệm thử enzyme (enzyme assay) nếu protein có hoạt tính enzyme. Thêm vào đó, protein có thể được cô lập theo điện tích của chúng nhờ sử dụng phương pháp tập trung đẳng điện (isoelectric focusing).
Đối với các protein tự nhiên, cần thực hiện một chuỗi bước tinh sạch trước khi thu được một lượng protein đủ tinh khiết cho mục đích sử dụng trong phòng thí nghiệm. Để đơn giản hóa quá trình này, các nhà hóa sinh thường áp dụng kỹ thuật di truyền để thêm các đặc điểm vào protein, giúp dễ dàng sàng lọc mà không làm ảnh hưởng đến cấu trúc hay hoạt động của chúng. Ở đây, một 'chất đánh dấu' (tag) chứa trình tự amino acid đặc hiệu, thường là một chuỗi histidine (chất 'His-tag'), được gắn vào một đầu của protein. Kết quả là, khi dung dịch hòa tan protein được đưa vào các ống nghiệm của máy sắc ký chứa niken, histidine liên kết với niken và giữ lại trong cột, trong khi các thành phần không được đánh dấu trong dung dịch sẽ chảy qua không bị cản trở. Nhiều phương pháp đánh dấu đã được phát triển để hỗ trợ các nhà nghiên cứu trong việc sàng lọc các protein đặc biệt từ những hỗn hợp phức tạp.
Khu trú tế bào
Phương pháp nghiên cứu in vivo đối với protein thường liên quan đến việc tổng hợp và xác định vị trí (khu trú, localization) protein bên trong tế bào. Mặc dù nhiều protein nội bào được sinh tổng hợp trong tế bào chất và ở các vị trí liên kết với màng tế bào hoặc protein được tiết ra từ mạng lưới nội chất, cách thức các protein được định hướng (protein targeting) đến các bào quan cụ thể hoặc các cấu trúc tế bào vẫn còn nhiều điều chưa được hiểu rõ. Một kỹ thuật hữu ích là sử dụng phương pháp di truyền để biểu hiện một protein dung hợp (fusion protein, hay chimera), là protein được tạo ra bằng cách nối hai hoặc nhiều đoạn gene mã hóa cho từng protein riêng biệt, kết hợp với một 'thành phần báo cáo' như protein huỳnh quang xanh (GFP). Vị trí của protein dung hợp trong tế bào có thể dễ dàng xác định và chụp ảnh dưới kính hiển vi, như minh họa ở hình bên cạnh.
Các phương pháp khác để xác định vị trí protein trong tế bào yêu cầu sử dụng các ngăn nội bào chỉ thị đã biết cho các vùng cụ thể như lưới nội chất ER, bộ máy Golgi, thực bào, không bào, ty thể, lục lạp, và màng sinh chất. Bằng cách sử dụng các phân tử đánh dấu huỳnh quang xanh cho những vùng chỉ thị này hoặc sử dụng kháng thể cho các phân tử chỉ thị đã biết, người ta có thể xác định dễ dàng vị trí protein cần nghiên cứu trong tế bào. Ví dụ, kỹ thuật hiển vi huỳnh quang miễn dịch gián tiếp (indirect immunofluorescence) cho phép phát hiện huỳnh quang các vị trí và hiển thị chúng. Bột huỳnh quang cũng được dùng để đánh dấu các ngăn tế bào cho các mục đích tương tự.
Một số kỹ thuật khác, như kỹ thuật hóa mô miễn dịch (immunohistochemistry), thường sử dụng một kháng thể nhắm vào một hoặc nhiều protein cần nghiên cứu, liên hợp với enzyme để tạo ra ánh sáng hoặc tín hiệu tạo sắc tố (chromogeneic) mà các nhà nghiên cứu có thể so sánh giữa các mẫu, từ đó thu thập thông tin về vị trí protein. Một kỹ thuật khác là đồng cất phân đoạn (cofractionation) trong gradient sucrose (hoặc các vật liệu khác) sử dụng các bước lọc ly tâm phân đoạn (differential centrifugation). Dù kỹ thuật này không cho biết sự đồng khu trú của một khoang có tỷ trọng đã biết và protein quan tâm, nhưng nó tăng cường độ tinh khiết và hỗ trợ cho các nghiên cứu trên quy mô lớn.
Cuối cùng, phương pháp tiêu chuẩn vàng để xác định khu trú tế bào là kỹ thuật hiển vi điện tử miễn dịch (immunoelectron microscopy). Kỹ thuật này cũng sử dụng một kháng thể đối với protein cần nghiên cứu, kết hợp với các kỹ thuật hiển vi điện tử cổ điển. Mẫu được chuẩn bị giống như khi kiểm tra qua kính hiển vi điện tử thông thường, sau đó được xử lý bằng một kháng thể nhắm vào protein quan tâm, liên hợp với vật liệu có mật độ electron cao, thường là vàng. Kỹ thuật này cho phép xác định chi tiết siêu cấu trúc cũng như vị trí protein cần nghiên cứu.
Thông qua các ứng dụng kỹ thuật di truyền khác như gây đột biến định hướng điểm (site-directed mutagenesis), các nhà nghiên cứu có thể thay đổi trình tự protein và do đó ảnh hưởng đến cấu trúc, sự khu trú tế bào và tính nhạy cảm đối với sự điều hòa biểu hiện. Kỹ thuật này thậm chí cho phép gắn các phân tử amino acid không có trong tự nhiên vào protein, sử dụng các tRNA được sửa đổi, và có thể đánh giá tính hợp lý trong việc thiết kế protein mới với các đặc tính nổi bật.
Proteomic
Toàn bộ protein có mặt tại một thời điểm trong một tế bào hoặc loại tế bào được gọi là bộ protein hay proteome. Ngành nghiên cứu này, nhằm tổng hợp dữ liệu lớn, được gọi là proteomic, mang tên tương tự như ngành geneomic. Một số kỹ thuật quan trọng trong proteomic bao gồm điện di trên gel hai chiều (2D gel electrophoresis), cho phép tách rời nhiều protein, phương pháp khối phổ giúp nhận diện nhanh chóng loại protein và trình tự peptide (thường thực hiện sau khi tiêu hóa trên gel (in-gel digestion)), protein microarray cho phép xác định mức độ tương đối của nhiều protein trong tế bào, và sàng lọc thể lai hai mảnh (two-hybrid screening), giúp khám phá các tương tác protein-protein một cách có hệ thống. Tổng hợp tất cả các tương tác sinh học khả dĩ từ những tương tác này gọi là interactome. Nỗ lực nhằm xác định cấu trúc của protein ở mỗi dạng gập khả dĩ được gọi là ngành nghiên cứu bộ gene cấu trúc (structural geneomics).
Tin sinh học
Nhiều phương pháp tính toán đã được phát triển để phân tích cấu trúc, chức năng, và sự tiến hóa của protein.
Sự phát triển của các công cụ này đã mang lại lượng lớn dữ liệu về bộ gene và bộ protein (proteomic) từ nhiều sinh vật, trong đó có bộ gene người. Việc nghiên cứu thực nghiệm mọi protein là điều không khả thi, vì vậy chỉ có một số ít protein được nghiên cứu trong phòng thí nghiệm, trong khi các công cụ tính toán được sử dụng để suy diễn về các protein tương tự. Những protein này có thể được nhận diện chính xác ở những sinh vật khác nhau nhờ vào phương pháp bắt cặp trình tự (sequence alignment). Bộ gene và trình tự gene được khai thác thông qua nhiều công cụ khác nhau dựa trên các đặc tính cụ thể. Các công cụ nhận diện trình tự (sequence profiling tools) có thể phát hiện vị trí enzyme giới hạn, khung đọc mở (open reading frame) trong trình tự nucleotide, và dự đoán cấu trúc bậc 2. Các cây phát sinh chủng loài có thể được xây dựng và giả thuyết tiến hóa phát triển thông qua phần mềm chuyên dụng như ClustalW, nhằm xem xét tổ tiên của các sinh vật hiện đại cùng với các gene mà chúng biểu hiện. Lĩnh vực tin sinh học hiện đã trở thành công cụ quan trọng cho phân tích gene và protein.
Dự đoán cấu trúc và mô phỏng
Chú thích: (a) Cấu trúc chính là chuỗi các amino acid tạo nên polypeptide (trên cùng bên trái).
(b) Cấu trúc bậc hai có thể là chuỗi xoắn alpha hoặc tấm xếp nếp beta, được duy trì nhờ các liên kết hydro giữa các amino acid ở các phần khác nhau của polypeptide (giữa bên trái và giữa bên phải).
(c) Cấu trúc bậc ba hình thành từ sự gấp nếp và kết nối của cấu trúc bậc hai (dưới cùng bên trái).
(d) Cấu trúc bậc bốn diễn ra do các tương tác giữa hai hoặc nhiều đơn vị bậc ba. Ví dụ, hemoglobin là một protein trong hồng cầu vận chuyển oxy đến các mô cơ thể (dưới cùng bên phải).
Bổ sung cho lĩnh vực bộ gene cấu trúc (structural geneomic), lĩnh vực dự đoán cấu trúc protein phát triển các mô hình toán học hiệu quả về protein, nhằm dự đoán lý thuyết dựa trên các công cụ tính toán thay vì thực nghiệm. Phương pháp dự đoán thành công nhất, gọi là mô hình đồng đẳng (homology modeling), dựa trên sự tồn tại của một cấu trúc 'khuôn mẫu' với trình tự tương tự như protein đang được mô hình hóa. Mục tiêu của bộ gene cấu trúc là cung cấp hình ảnh biểu diễn chính xác trong các cấu trúc đã biết để mô hình hóa các cấu trúc chưa biết. Mặc dù việc tạo ra các mô hình chính xác còn khó khăn khi chỉ có khuôn mẫu xa lạ, người ta cho rằng sự bắt cặp trình tự là nút thắt trong quá trình này, vì có thể tạo ra các mô hình khá chính xác nếu biết một trình tự bắt cặp 'hoàn hảo'. Nhiều phương pháp dự đoán cấu trúc đã được áp dụng trong kỹ thuật protein, trong đó các protein gập lạ đã được thiết kế. Một vấn đề phức tạp khác là dự đoán tương tác liên phân tử, chẳng hạn như trong sự cập bến của phân tử (molecular docking) và dự đoán tương tác protein–protein.
Các mô hình toán học dùng để mô phỏng quá trình động lực của sự gập protein và liên kết protein bao gồm cơ học phân tử, đặc biệt là động lực học phân tử. Kỹ thuật Monte Carlo hỗ trợ cho các tính toán, dựa trên điện toán phân tán và tính toán song song tiên tiến (ví dụ như dự án Folding@home thực hiện mô phỏng cấu trúc phân tử dựa trên GPU). Mô phỏng in silico nghiên cứu sự gập của các miền nhỏ xoắn α trong protein như đầu của villin và protein phụ của HIV. Các phương pháp lai kết hợp chuẩn động lực học phân tử với toán học của cơ học lượng tử để khám phá các trạng thái điện tử của rhodopsin.
Dự đoán protein mất trật tự và cấu trúc không cố định
Nhiều protein trong sinh vật nhân thực Eucaryota (~33%) bao gồm các đoạn với cấu trúc không ổn định nhưng vẫn thực hiện chức năng sinh học, được gọi là protein mất trật tự nội tại (intrinsically disordered proteins). Việc dự đoán và phân tích những protein này trở thành một lĩnh vực quan trọng trong nghiên cứu cấu trúc protein.
Dinh dưỡng
Hầu hết vi sinh vật và thực vật có khả năng tổng hợp tất cả 20 amino acid thiết yếu, trong khi động vật (bao gồm con người) cần lấy một số amino acid từ thực phẩm. Những amino acid mà sinh vật không thể tự tổng hợp được gọi là amino acid thiết yếu. Một số enzyme quan trọng tham gia vào việc tổng hợp amino acid không có ở động vật, như aspartokinase, xúc tác phản ứng đầu tiên trong tổng hợp lysine, methionine, và threonine từ aspartate. Khi amino acid có sẵn trong môi trường, vi sinh vật có thể tiết kiệm năng lượng bằng cách hấp thụ amino acid từ môi trường và giảm quá trình tổng hợp các amino acid này trong chu trình sinh dưỡng.
Trong động vật, amino acid được hấp thụ qua việc tiêu thụ thực phẩm chứa protein. Quá trình tiêu hóa protein dẫn đến việc phân tách thành các amino acid, nhờ vào sự biến tính do acid và thủy phân bởi enzyme protease. Một số amino acid được sử dụng để tổng hợp protein mới, trong khi những amino acid khác chuyển hóa thành glucose qua quá trình tân tạo glucose (gluconeogenesis) hoặc tham gia vào chu trình acid citric. Việc sử dụng protein làm nhiên liệu rất quan trọng trong tình trạng thiếu dinh dưỡng, giúp cơ thể duy trì sự sống, đặc biệt là trong cơ.
Lịch sử và từ nguyên
Protein được Antoine Fourcroy và những nhà khoa học khác công nhận là một lớp phân tử sinh học đặc biệt vào thế kỷ 18, dựa trên các đặc tính như khả năng đông đặc hoặc tạo bông (flocculate) khi tiếp xúc với nhiệt hoặc acid. Một số mẫu protein được chú ý bao gồm albumin trong lòng trắng trứng, serum albumin trong máu, fibrin, và gluten từ lúa mì.
Nhà hóa học Gerardus Johannes Mulder người Hà Lan là người đầu tiên mô tả protein, và thuật ngữ này được Jöns Jacob Berzelius, nhà hóa học người Thụy Điển, đặt vào năm 1838. Mulder đã tiến hành các phân tích ban đầu trên những protein phổ biến và phát hiện rằng hầu hết protein có cùng công thức thực nghiệm, C400H620N100O120P1S1. Ông đã đi đến kết luận sai lầm rằng chúng là hỗn hợp của một loại phân tử lớn. Thuật ngữ 'protein' được Berzelius, đồng nghiệp của Mulder, đề xuất, bắt nguồn từ tiếng Hy Lạp πρώτειος (proteios), có nghĩa là 'sơ cấp' hoặc 'đứng đầu'. Mulder cũng nhận diện các sản phẩm phân hủy protein như amino acid leucin, với trọng lượng phân tử gần đúng là 131 Da.
Các nhà dinh dưỡng học như Carl von Voit từ Đức đã cho rằng protein là thành phần dinh dưỡng quan trọng nhất cho cấu trúc cơ thể, với niềm tin rằng 'máu tươi tạo ra máu tươi' ('flesh makes flesh'). Karl Heinrich Ritthausen đã bổ sung vào danh sách các protein với acid glutamic. Tại Trung tâm thí nghiệm nông nghiệp Connecticut (Connecticut Agricultural Experiment Station), nhà hóa học Thomas Burr Osborne đã thực hiện những nghiên cứu chi tiết về protein trong thực vật. Cùng với Lafayette Mendel, họ áp dụng quy luật cực tiểu của Liebig trong nghiên cứu chuột thí nghiệm, thiết lập danh sách các amino acid thiết yếu cho dinh dưỡng. Nghiên cứu này tiếp tục được phát triển cùng William Cumming Rose. Hiểu biết rằng protein là các chuỗi polypeptide được hai nhà hóa học người Đức Franz Hofmeister và Hermann Emil Fischer xác định vào năm 1902. Vai trò quan trọng của protein như enzyme xúc tác trong sinh vật không được công nhận đầy đủ cho đến năm 1926, khi James B. Sumner chứng minh rằng enzyme urease thực chất là một protein.
Việc tinh sạch protein với khối lượng lớn gặp nhiều khó khăn đã khiến cho các nhà hóa sinh phải vật lộn trong những nghiên cứu đầu tiên. Do đó, những nghiên cứu ban đầu chủ yếu tập trung vào các protein có sẵn số lượng lớn, chẳng hạn như từ máu, lòng trắng trứng, các loại độc tố, và các enzyme tiêu hóa hoặc trao đổi chất lấy từ các lò sát sinh. Vào thập niên 1950, công ty Armour Hot Dog Co. đã chiết xuất được khoảng 1 kg ribonuclease A tinh khiết từ tuyến tụy bò và cung cấp miễn phí cho các nhà nghiên cứu; điều này đã làm cho ribonuclease A trở thành một trong những mục tiêu nghiên cứu chính trong lĩnh vực hóa sinh trong nhiều thập kỷ tiếp theo.
Linus Pauling được công nhận là người đã đưa ra mô hình dự đoán thành công cấu trúc bậc 2 của các protein đối xứng đều dựa trên liên kết hydro, một ý tưởng mà ông đã tiếp thu từ William Astbury vào năm 1933. Công trình nghiên cứu sau đó của Walter Kauzmann về sự biến tính, phần nào dựa trên nghiên cứu trước đó của Kaj Linderstrøm-Lang, đã đóng góp quan trọng vào việc hiểu rõ hơn về quá trình gập protein (protein folding) và cấu trúc trung gian do tương tác kị nước.
Insulin là protein đầu tiên được giải trình tự, công việc này được thực hiện bởi Frederick Sanger vào năm 1949. Sanger đã xác định chính xác trình tự các amino acid của insulin, từ đó chứng minh một cách thuyết phục rằng các protein là những polymer mạch thẳng chứa amino acid, chứ không phải là các mạch nhánh, hệ keo hay cyclol. Ông đã giành giải Nobel Hóa học cho thành tựu này vào năm 1958.
Cấu trúc protein đầu tiên được quan sát là của hemoglobin và myoglobin, do Max Perutz và Sir John Cowdery Kendrew thực hiện độc lập vào năm 1958. Tính đến năm 2017, ngân hàng dữ liệu protein (Protein Data Bank) đã chứa hơn 126.060 protein với cấu trúc được quan sát ở cấp độ nguyên tử. Gần đây, kỹ thuật hiển vi electron lạnh (cryo-electron microscopy) trong nghiên cứu lắp ráp đại phân tử và các phương pháp tính toán dự đoán cấu trúc protein (computational protein structure prediction) cho các miền protein nhỏ (small protein domain) đã trở thành hai cách tiếp cận chính trong nghiên cứu cấu trúc protein.