Mã gen (tiếng Anh: Genetic code) là tập hợp các quy tắc mà tế bào sống áp dụng để dịch mã thông tin từ vật liệu di truyền (các chuỗi ba nucleotide hay codon của DNA hoặc RNA) thành protein. Ribosome thực hiện quá trình dịch mã, liên kết các amino acid để tạo thành protein theo trình tự mà RNA thông tin (mRNA) chỉ định, sử dụng RNA vận chuyển (tRNA) để mang amino acid và đọc ba nucleotide của mRNA đồng thời. Mã gen gần như giống nhau giữa tất cả các sinh vật và có thể được thể hiện trong bảng 64 ô.
Trong quá trình tổng hợp protein, các codon quyết định amino acid nào sẽ được gắn vào vị trí tiếp theo trên chuỗi. Một bộ ba nucleotide trong trình tự acid nucleic chỉ mã hóa cho một amino acid duy nhất (với một số ngoại lệ). Đa số gen được mã hóa bằng một sơ đồ duy nhất (tham khảo bảng mã RNA). Sơ đồ này thường được gọi là mã gen tiêu chuẩn, hay đơn giản là mã gen. Có các mã biến thể (variant code, như trong ty thể).
Lịch sử
Cấu trúc DNA được phát hiện vào năm 1953, đánh dấu sự khởi đầu của hàng loạt nghiên cứu về mã hóa protein. Francis Crick và James Watson, hai nhà khoa học đến từ Anh và Mỹ, lần đầu tiên đưa ra giả thuyết về việc thông tin di truyền được truyền từ DNA và mối liên hệ giữa DNA với protein. George Gamow, một nhà vật lý người Mỹ gốc Liên Xô, là người đầu tiên đề xuất sơ đồ tổng hợp protein từ DNA. Ông cho rằng bộ ba base cần thiết để mã hóa 20 amino acid tiêu chuẩn mà tế bào sử dụng để tạo protein, với khả năng mã hóa tối đa 4 = 64 amino acid. Ông gọi mối liên hệ DNA-protein này là 'mã kim cương' (diamond code).
Năm 1954, Gamow thành lập câu lạc bộ RNA Tie, một tổ chức khoa học không chính thức theo đề xuất của Watson, dành cho các nhà nghiên cứu với quan điểm khác nhau về cách tổng hợp protein từ gen. Câu lạc bộ có 20 thành viên thường trực, mỗi người đại diện cho một amino acid, cùng với 4 thành viên danh dự để đại diện cho bốn nucleotide của DNA.
Đóng góp quan trọng đầu tiên của câu lạc bộ cho khoa học là 'một trong những bài báo chưa công bố quan trọng nhất trong lịch sử khoa học' và 'bài báo chưa công bố nổi tiếng nhất trong sinh học phân tử,' do Crick thực hiện. Vào tháng 1 năm 1955, Crick gửi bài báo có tiêu đề 'On Degenerate Templates and the Adaptor Hypothesis: A Note for the RNA Tie Club' đến các thành viên của câu lạc bộ. Bài báo này 'đã thay đổi hoàn toàn cách mà chúng ta hiểu về tổng hợp protein,' theo lời kể của Watson. Crick đưa ra giả thuyết rằng mã bộ ba không được truyền trực tiếp cho các amino acid như Gamow nghĩ, mà được một phân tử khác giữ vai trò (một 'tác nhân thích ứng' (adaptor) tương tác với các amino acid). Sau này, 'tác nhân thích ứng' được xác định là tRNA.
Codon
Crick, Brenner, Barnett và Watts-Tobin đã lần đầu tiên chứng minh rằng mã di truyền được mã hóa bởi ba base DNA. Marshall Nirenberg và Heinrich J. Matthaei đã là những người đầu tiên khám phá bản chất của mã di truyền vào năm 1961.
Họ đã áp dụng một hệ thống không tế bào (cell-free system) để dịch mã một chuỗi RNA poly-uracil (như UUUUU...) và phát hiện rằng polypeptide tổng hợp được chỉ chứa duy nhất amino acid phenylalanin. Từ đó, họ suy ra rằng codon UUU quy định amino acid phenylalanin.
Tiếp theo, các thí nghiệm của Severo Ochoa đã chứng minh rằng chuỗi RNA poly-adenin (AAAAA...) mã hóa cho polypeptide poly-lysin và chuỗi RNA poly-cytosine (CCCCC...) mã hóa cho polypeptide poly-prolin. Do đó, codon AAA quy định amino acid lysin còn codon CCC quy định amino acid prolin. Nhờ vào việc sử dụng các chất copolymer khác nhau, hầu hết các mã còn lại đã được xác định sau đó.
Nghiên cứu của Har Gobind Khorana đã xác định các mã di truyền còn lại. Ngay sau đó, Robert W. Holley đã tìm ra cấu trúc của RNA vận chuyển (tRNA), một phân tử quan trọng hỗ trợ quá trình dịch mã RNA thành protein. Nghiên cứu này dựa trên các công trình trước đó của Ochoa. Vào năm 1959, Ochoa được trao giải Nobel về Sinh lý học và Y học cho công trình nghiên cứu về enzym trong tổng hợp RNA.
Nhờ mở rộng nghiên cứu, Nirenberg và Philip Leder đã làm rõ bản chất của mã di truyền và giải mã các codon. Trong các thí nghiệm này, nhiều tổ hợp mRNA đã được truyền qua một bộ lọc chứa ribosome, các thành phần của tế bào thực hiện việc dịch RNA thành protein. Các bộ ba mã hóa đã thúc đẩy các tRNA cụ thể liên kết với ribosome. Leder và Nirenberg cũng đã xác định được trình tự của 54 trong số 64 codon trong thí nghiệm của họ. Khorana, Holley và Nirenberg đã cùng nhận giải Nobel năm 1968 cho nghiên cứu của họ.
Richard Epstein và Charles Steinberg là hai nhà khoa học phát hiện ra bộ ba kết thúc trong mã di truyền. Họ đặt tên cho các bộ ba kết thúc là UAA là ochre, UAG là amber, và UGA là opal. Từ 'amber' được đặt theo tên Harris Bernstein, một người bạn của họ, trong đó 'bernstein' trong tiếng Đức có nghĩa là hổ phách, còn trong tiếng Anh là 'amber'. Hai codon kết thúc còn lại được gọi là 'ochre' (màu thổ hoàng) và 'opal' để duy trì chủ đề màu sắc.
Mã di truyền mở rộng (sinh học tổng hợp)
Trong nhiều lĩnh vực học thuật, quan điểm về sự tiến hóa của mã di truyền từ dạng gốc mơ hồ đến mã di truyền rõ ràng ('mã đông cứng' - 'frozen') với 20 (+2) amino acid chính đã được chấp nhận rộng rãi. Tuy nhiên, vẫn có những ý kiến và quan điểm khác nhau, và cách tốt nhất để xác nhận là qua thực nghiệm. Các mô hình cũng đã được đề xuất để dự đoán 'điểm vào' nơi amino acid tổng hợp xâm nhập vào mã di truyền.
Kể từ năm 2001, 40 amino acid phi tự nhiên đã được thêm vào protein thông qua việc tạo ra codon độc nhất (tái mã hóa) và RNA vận chuyển tương ứng: aminoacyl – cặp tRNA-synthetase để mã hóa chúng với các đặc tính hóa lý và sinh học phong phú. Mục tiêu là để khám phá cấu trúc và chức năng của protein hoặc tạo ra hoặc cải thiện protein. H. Murakami và M. Sisido đã mở rộng một số codon lên 4 và 5 base. Steven A. Benner đã phát triển mã chức năng thứ 65 (in vivo).
Năm 2015, N. Budisa, D. Söll và các cộng sự công bố việc thay thế hoàn toàn tất cả 20.899 dư lượng tryptophan (codon UGG) bằng thienopyrrole-alanin phi tự nhiên trong mã di truyền của vi khuẩn Escherichia coli. Đến năm 2016, sinh vật bán tổng hợp ổn định đầu tiên được tạo ra, là một loại vi khuẩn (đơn bào) với hai base tổng hợp (được gọi là X và Y). Những base này có khả năng sống sót và phân chia tế bào. Vào năm 2017, các nhà nghiên cứu ở Hàn Quốc thông báo rằng họ đã tạo ra một con chuột với mã di truyền mở rộng có thể tạo ra protein chứa amino acid phi tự nhiên.
Vào tháng 5 năm 2019, các nhà nghiên cứu đã công bố việc tạo ra một chủng vi khuẩn mới mang tên 'Syn61' của Escherichia coli. Chủng này có bộ gen tổng hợp được tái cấu trúc hoàn chỉnh (tất cả các phần chồng chéo đều được mở rộng), được tái mã hóa (loại bỏ hoàn toàn ba trong số 64 codon) và đã được điều chỉnh để loại bỏ những tRNA và các yếu tố giải phóng không cần thiết. Chủng vi khuẩn này hoàn toàn sống sót nhưng phát triển chậm hơn 1,6 lần so với chủng bản gốc 'MDS42'.
Đặc tính
Khung đọc
Một khung đọc được xác định bởi bộ ba nucleotide đầu tiên mà quá trình dịch mã sử dụng để bắt đầu. Nó thiết lập khung cho một chuỗi các codon liên tiếp và không chồng chéo, được gọi là 'khung đọc mở' (ORF). Ví dụ: chuỗi 5'-AAATGAACG-3' (như hình bên), nếu được đọc từ vị trí đầu tiên thì chứa các codon AAA, TGA và ACG; nếu đọc từ vị trí thứ hai thì nó chứa codon AAT và GAA; còn nếu đọc từ vị trí thứ ba, nó chứa các codon ATG và AAC. Vì vậy, mỗi trình tự có thể được đọc theo hướng 5' → 3' ở ba khung đọc khác nhau, mỗi khung tạo ra một trình tự amino acid riêng biệt: như trong ví dụ, lần lượt là Lys (K)-Trp (W)-Thr (T), Asn (N)-Glu (E), hoặc Met (M)-Asn (N) (khi dịch mã với mã ty thể của động vật có xương sống). Khi DNA ở dạng sợi kép, có thể xác định 6 khung đọc, ba khung theo hướng trên một sợi và ba khung theo hướng ngược lại trên sợi đối diện. Các khung mã hóa protein được xác định bởi một mã mở đầu, thường là codon AUG (ATG) đầu tiên trong trình tự RNA (DNA).
Trong các sinh vật nhân chuẩn, các ORF trong exon thường bị cắt đứt bởi intron.
Mã mở đầu và kết thúc
Quá trình dịch mã bắt đầu bằng mã mở đầu, nhưng chỉ mã mở đầu không đủ để khởi động quá trình. Các trình tự gần đó, chẳng hạn như trình tự Shine-Dalgarno ở E. coli và các yếu tố khởi đầu, cũng cần thiết để bắt đầu dịch mã. Mã mở đầu phổ biến nhất là AUG, mã hóa cho methionin hoặc formylmethionin (trong vi khuẩn, ty thể và lạp thể). Một số sinh vật cũng sử dụng các mã mở đầu khác như 'GUG' hoặc 'UUG'; những codon này thường đại diện cho valin và leucin, nhưng khi hoạt động như mã mở đầu, chúng được dịch mã thành methionin hoặc formylmethionin.
Có ba mã kết thúc với các tên gọi cụ thể: UAG gọi là amber, UGA gọi là opal (đôi khi cũng được gọi là umber) và UAA gọi là ochre. Những mã kết thúc này còn được gọi là mã 'chấm dứt' hoặc 'vô nghĩa'. Chúng đánh dấu điểm kết thúc của quá trình dịch mã và giải phóng polypeptide mới ra khỏi ribosome, vì không có tRNA tương ứng mang anticodon để nhận diện các tín hiệu kết thúc này, mà thay vào đó, một yếu tố giải phóng sẽ liên kết với ribosome để kết thúc quá trình dịch mã.
Tác động của đột biến
Trong quá trình sao chép DNA, đôi khi có thể xảy ra lỗi trong quá trình nhân đôi sợi thứ hai. Những lỗi này, hay còn gọi là đột biến, có thể ảnh hưởng đến kiểu hình của sinh vật, đặc biệt khi chúng xảy ra trong vùng mã hóa protein của gen. Tỷ lệ lỗi thường khoảng 1 lỗi trên mỗi 10–100 triệu base, nhờ vào khả năng 'hiệu đính' của enzyme DNA polymerase.
Đột biến sai nghĩa và đột biến vô nghĩa là các ví dụ về đột biến điểm có thể gây ra các bệnh di truyền như bệnh hồng cầu hình liềm và tan máu bẩm sinh. Đột biến sai nghĩa có thể thay đổi đặc tính của amino acid đã mã hóa, ảnh hưởng đến các trạng thái cơ bản như acid, phân cực hoặc không phân cực, trong khi đột biến vô nghĩa tạo ra mã kết thúc sớm.
Đột biến dịch khung xảy ra khi có sự thêm hoặc bớt base không phải bội số của 3 nucleotide, làm gián đoạn trình tự khung đọc. Những đột biến này thường dẫn đến việc dịch mã sai và có thể làm xuất hiện mã kết thúc sớm, cắt ngắn protein và giảm chức năng của nó. Vì lý do này, đột biến dịch khung rất hiếm gặp trong các trình tự mã hóa protein in vivo. Nếu protein dịch mã là thiết yếu cho sự sống, sự mất chức năng có thể dẫn đến cái chết trước khi sinh vật có thể sống sót. Đột biến dịch khung có thể gây ra các bệnh di truyền nghiêm trọng như bệnh Tay–Sachs.
Mặc dù hầu hết đột biến thay đổi trình tự protein đều có hại hoặc mang cả lợi và hại, một số đột biến lại có lợi. Những đột biến này có thể giúp sinh vật đột biến chống chọi tốt hơn với các áp lực môi trường hoặc sinh sản nhanh hơn so với sinh vật hoang dã. Trong những trường hợp này, đột biến có xu hướng phổ biến hơn qua chọn lọc tự nhiên. Các virus sử dụng RNA làm vật liệu di truyền có tỷ lệ đột biến cao, điều này có thể là lợi thế giúp chúng tiến hóa nhanh chóng và tránh được phản ứng của hệ miễn dịch. Ở các quần thể lớn của sinh vật sinh sản vô tính, như E. coli, nhiều đột biến có lợi có thể xảy ra đồng thời, hiện tượng này được gọi là giao thoa vô tính và gây ra cạnh tranh giữa các đột biến.
Thoái hóa
Thoái hóa là hiện tượng thừa thãi trong mã di truyền. Thuật ngữ này do Bernfield và Nirenberg đưa ra. Mã di truyền có tính dư thừa nhưng không mơ hồ (tham khảo bảng mã dưới đây để biết chi tiết). Ví dụ, mặc dù codon GAA và GAG đều mã hóa cho acid glutamic (dư thừa), nhưng chúng không mã hóa cho bất kỳ amino acid nào khác (không mơ hồ). Các codon mã hóa một amino acid có thể khác nhau ở bất kỳ vị trí nào trong ba vị trí của chúng. Ví dụ, amino acid leucin được mã hóa bởi các codon YUR hoặc CUN (UUA, UUG, CUU, CUC, CUA hoặc CUG) (khác biệt ở vị trí đầu tiên hoặc thứ ba được thể hiện bằng ký hiệu IUPAC), trong khi amino acid serin được mã hóa bởi các codon UCN hoặc AGY (UCA, UCG, UCC, UCU, AGU hoặc AGC) (khác biệt ở vị trí đầu tiên, thứ hai hoặc thứ ba). Hậu quả thực tiễn của tính dư thừa là các lỗi ở vị trí thứ ba của codon chỉ gây ra đột biến thầm lặng hoặc lỗi không ảnh hưởng đến protein, vì tính kỵ nước hoặc ưa nước vẫn được duy trì nhờ việc thay thế các amino acid tương đương; ví dụ, một codon của NUN (N = bất kỳ nucleotide nào) có xu hướng mã hóa cho các amino acid kỵ nước. NCN tạo ra các amino acid có kích thước nhỏ và tính kỵ nước vừa phải; NAN mã hóa các amino acid ưa nước có kích thước trung bình. Mã di truyền có cấu trúc phù hợp với tính chất kỵ/ưa nước đến mức một phân tích toán học (phân tích thoái hóa) với 12 biến số (4 nucleotide x 3 vị trí) cho thấy mối tương quan đáng kể (C = 0,95) trong việc dự đoán tính chất kỵ/ưa nước của amino acid từ trình tự bộ ba nucleotide, mà không cần dịch mã. Theo bảng dưới đây, 8 amino acid không bị ảnh hưởng bởi đột biến ở vị trí thứ ba của codon, trong khi ở hình trên, đột biến ở vị trí thứ hai có thể gây ra thay đổi cơ bản về tính chất lý hóa của amino acid đã mã hóa. Tuy nhiên, sự thay đổi ở vị trí đầu tiên của codon quan trọng hơn so với thay đổi ở vị trí thứ hai trên toàn bộ hệ thống. Lý do có thể là sự đảo ngược điện tích (từ dương sang âm hoặc ngược lại) chỉ xảy ra khi có đột biến ở vị trí đầu tiên của một số codon cụ thể, không thể xảy ra khi thay đổi ở vị trí thứ hai của bất kỳ codon nào. Sự đảo ngược điện tích như vậy có thể gây ra các vấn đề nghiêm trọng về cấu trúc hoặc chức năng của protein. Điều này có thể đã bị các nghiên cứu trước đây đánh giá thấp.
Xu hướng sử dụng codon
Tần suất của codon, hay còn gọi là xu hướng sử dụng codon, có thể thay đổi giữa các loài và có ảnh hưởng đến việc điều chỉnh quá trình dịch mã. Ví dụ, codon prolin phổ biến nhất ở E. coli là CCG, trong khi ở người, codon này lại ít gặp hơn.
Bảng tần suất codon bộ gen người
|
---|
Mã di truyền thay thế
Amino acid phi tiêu chuẩn
Trong một số protein, các amino acid phi tiêu chuẩn có thể thay thế mã kết thúc tiêu chuẩn, tùy thuộc vào trình tự tín hiệu trong RNA thông tin. Ví dụ, UGA có thể mã hóa cho selenocysteine, còn UAG có thể mã hóa cho pyrrolysine. Selenocysteine được coi là amino acid thứ 21, trong khi pyrrolysine là amino acid thứ 22. Khác với selenocysteine, pyrrolysine được mã hóa bởi UAG với sự tham gia của một synthetase aminoacyl-tRNA đặc biệt. Cả hai amino acid này có thể tồn tại trong cùng một sinh vật. Mặc dù mã di truyền thường cố định trong một loài, nhưng sinh vật nhân sơ như Acetohalobium arabaticum có thể mở rộng mã di truyền từ 20 lên 21 amino acid (bao gồm cả pyrrolysine) dưới những điều kiện phát triển nhất định.
Biến thể
Ban đầu, người ta có một quan điểm đơn giản và phổ biến rằng mã di truyền phải đồng nhất: bất kỳ sự thay đổi nào trong mã di truyền sẽ gây chết cho sinh vật (dù Crick đã nêu virus là một ngoại lệ). Đây được gọi là lập luận 'sự cố bất dịch' (frozen accident) về tính phổ biến của mã di truyền. Tuy nhiên, trong bài báo chuyên đề năm 1968 về nguồn gốc của mã di truyền, Francis Crick đã khẳng định rằng tính phổ biến của mã di truyền ở mọi sinh vật là một giả định chưa được chứng minh và có thể không đúng trong một số trường hợp. Ông dự đoán rằng 'Mã di truyền có tính phổ biến (giống nhau ở mọi sinh vật) hoặc gần như vậy.' Biến thể đầu tiên được phát hiện vào năm 1979 bởi các nhà nghiên cứu gen ty thể ở người. Sau đó, nhiều biến thể nhỏ đã được phát hiện, bao gồm các mã ty thể chuyển đổi khác nhau. Ví dụ, các biến thể nhỏ này liên quan đến việc dịch codon UGA thành tryptophan ở các loài Mycoplasma, và dịch CUG thành serine thay vì leucine trong nấm men thuộc 'nhánh CTG' (như Candida albicans). Virus thường phải sử dụng mã di truyền của vật chủ, do đó việc biến đổi mã di truyền tiêu chuẩn có thể ảnh hưởng đến tổng hợp hoặc hoạt động của protein virus. Tuy nhiên, một số virus như totivirus đã thích nghi với biến đổi mã di truyền của vật chủ. Ở vi khuẩn và cổ khuẩn, GUG và UUG là các codon mở đầu phổ biến. Trong một số trường hợp hiếm hoi, một số protein có thể sử dụng mã mở đầu chuyển đổi. Đáng ngạc nhiên, các biến thể trong giải thích mã di truyền cũng xuất hiện trong các gen mã hóa nhân ở người: Năm 2016, các nhà khoa học đã phát hiện trong khoảng 4% mRNA mã hóa enzyme malate dehydrogenase rằng codon kết thúc được sử dụng tự nhiên để mã hóa amino acid tryptophan và arginine. Kiểu mã hóa này xuất hiện do mã kết thúc đọc xuyên cao và được gọi là đọc xuyên dịch mã chức năng (functional translational readthrough).
Dù có những khác biệt, tất cả các mã di truyền tự nhiên mà con người biết đến đều rất tương đồng. Cơ chế mã hóa giống nhau ở mọi sinh vật: codon ba base, tRNA, ribosome, đọc theo một hướng và dịch codon đơn lẻ thành các amino acid đơn lẻ. Những biến thể cực đoan nhất xảy ra ở một số tiêm mao nhất định, nơi ý nghĩa của codon kết thúc phụ thuộc vào vị trí của chúng trong mRNA. Khi ở gần đầu 3', chúng đóng vai trò là mã kết thúc, trong khi ở các vị trí bên trong, chúng mã hóa amino acid như trong Condylostoma magnum hoặc kích hoạt dịch khung ribosome (ribosomal frameshifting) như ở Euplotes.
Nguồn gốc và biến thể của mã di truyền (bao gồm các cơ chế đằng sau sự tiến hóa của mã di truyền) đã được nghiên cứu kỹ lưỡng, với nhiều nghiên cứu được thực hiện thông qua thực nghiệm tiến hóa mã di truyền của một số sinh vật.
Suy luận
Để suy luận mã di truyền của một sinh vật, có thể bắt đầu bằng việc xác định các gen bảo tồn cao trong bộ gen của nó, sau đó so sánh việc sử dụng codon với amino acid trong protein tương đồng ở các sinh vật khác. Ví dụ, chương trình FACIL suy luận mã di truyền bằng cách xác định các amino acid trong vùng protein tương đồng thường xuyên được căn chỉnh theo từng codon cụ thể. Xác suất của việc gặp amino acid (hoặc mã kết thúc) tại mỗi codon được thể hiện trong một logo mã di truyền.
Từ tháng 1 năm 2022, Shulgina và Eddy đã thực hiện khảo sát toàn diện nhất về mã di truyền, sàng lọc 250.000 bộ gen của sinh vật nhân sơ bằng công cụ Codetta của họ. Công cụ này sử dụng phương pháp tương tự như FACIL nhưng với cơ sở dữ liệu Pfam mở rộng hơn. Mặc dù NCBI cung cấp 33 bảng dịch mã, hai tác giả khảo sát đã phát hiện 5 biến thể mã di truyền mới (được xác nhận bởi các đột biến tRNA) và điều chỉnh một số lỗi quy kết.
Nguồn gốc
Mã di truyền đóng vai trò quan trọng trong lịch sử sự sống, theo một giả thuyết cho rằng các phân tử RNA tự sao chép đã tồn tại trước sự sống như chúng ta biết. Đây là giả thuyết thế giới RNA. Theo giả thuyết này, bất kỳ mô hình nào về sự xuất hiện của mã di truyền đều gắn liền với sự chuyển giao từ ribozyme (enzym RNA) sang protein dưới dạng enzym chính trong tế bào. Theo giả thuyết thế giới RNA, các phân tử RNA vận chuyển dường như đã tiến hóa trước các synthetase aminoacyl-tRNA hiện đại, do đó synthetase không thể giải thích các mô hình của nó.
Một mã di truyền tiến hóa ngẫu nhiên theo giả thuyết tiếp tục hỗ trợ một mô hình sinh hóa hoặc tiến hóa về nguồn gốc của nó. Nếu amino acid được phân bố ngẫu nhiên vào các codon bộ ba, có thể có khoảng 1,5×10 mã di truyền. Con số này được tính toán dựa trên số cách 21 phần tử (20 amino acid cộng với một mã kết thúc) có thể được phân phối vào 64 thùng, mỗi phần tử phải xuất hiện ít nhất một lần. Tuy nhiên, sự phân bố các codon trong mã di truyền không hoàn toàn ngẫu nhiên. Cụ thể, mã di truyền nhóm một số phân chia amino acid nhất định.
Các amino acid thường chia sẻ base đầu tiên trong các codon của chúng, điều này có thể phản ánh sự học lại từ một mã di truyền nguyên thủy và đơn giản hơn với số lượng amino acid ít hơn, sau đó đã phát triển thành mã hóa cho một tập hợp amino acid phong phú hơn. Điều này cũng có thể liên quan đến các yếu tố hóa học và không gian ảnh hưởng đến codon trong quá trình tiến hóa của amino acid đó. Những amino acid có tính chất vật lý tương đồng thường có các codon tương tự, giúp giảm thiểu vấn đề do đột biến điểm và dịch mã sai gây ra.
Một giả thuyết có thể giải thích nhiều khía cạnh của bảng codon thông qua việc sử dụng giản đồ mã hóa bộ ba di truyền không ngẫu nhiên. Ví dụ, sự thiếu vắng các codon cho acid D-amino, mẫu codon thứ cấp cho một số amino acid, sự hạn chế của các vị trí tương đồng đến vị trí thứ ba, bộ mã nhỏ chỉ với 20 amino acid (thay vì gần 64 amino acid) và mối liên hệ giữa các mẫu mã kết thúc và các mẫu mã hóa amino acid có thể được giải quyết thông qua giả thuyết này.
Có ba giả thuyết chính về nguồn gốc của mã di truyền. Nhiều mô hình thuộc một trong số chúng hoặc kết hợp nhiều giả thuyết:
- Đóng băng ngẫu nhiên (Random freeze): mã di truyền được tạo ra một cách ngẫu nhiên. Ví dụ, những ribozym kiểu tRNA ban đầu có thể mang những ái lực khác nhau đối với các amino acid; các codon xuất hiện từ một phần khác của ribozyme với sự biến đổi ngẫu nhiên. Khi đủ peptide được mã hóa, bất kỳ thay đổi ngẫu nhiên lớn nào trong mã di truyền có thể gây tử vong; vì vậy, nó trở thành 'đóng băng' (frozen).
- Ái lực hóa lập thể (Stereochemical affinity): mã di truyền là kết quả của ái lực mạnh mẽ giữa từng amino acid và codon hoặc cụm đối mã của nó; lựa chọn của cụm đối mã gợi ý rằng các phân tử tiền tRNA phù hợp với các amino acid tương ứng nhờ ái lực này. Trong quá trình tiến hóa sau đó, sự tương thích này dần được thay thế bằng sự phù hợp của synthetase aminoacyl-tRNA.
- Tính tối ưu (Optimality): mã di truyền tiếp tục tiến hóa sau lần đầu tiên tạo ra, vì vậy mã hiện tại tối ưu hóa một số chức năng thích ứng, thường là giảm thiểu lỗi.
Các giả thuyết đã xử lý nhiều tình huống khác nhau:
- Các nguyên tắc hóa học quy định cách RNA tương tác với amino acid cụ thể. Thí nghiệm với aptamer chỉ ra rằng một số amino acid có ái lực hóa học chọn lọc với codon của chúng. Các thí nghiệm cho thấy, trong số 8 amino acid được kiểm tra, 6 amino acid cho thấy sự liên kết với bộ ba amino acid của RNA.
- Quá trình mở rộng sinh tổng hợp: Mã di truyền đã phát triển từ một mã đơn giản hơn qua 'mở rộng sinh tổng hợp.' Sự sống nguyên thủy đã 'khám phá' các amino acid mới (như các sản phẩm phụ của trao đổi chất) và đưa một số vào hệ thống mã di truyền. Dù có nhiều bằng chứng gián tiếp cho thấy ít loại amino acid được sử dụng trước đây, các giả thuyết về thứ tự nhập mã của amino acid vẫn đang gây tranh cãi. Một số nghiên cứu gợi ý rằng Gly, Ala, Asp, Val, Ser, Pro, Glu, Leu, Thr có thể là nhóm amino acid bổ sung đầu tiên, trong khi Cys, Met, Tyr, Trp, His, Phe có thể thuộc nhóm bổ sung sau.
- Chọn lọc tự nhiên đã dẫn đến sự phân chia codon của mã di truyền để giảm thiểu tác động của đột biến. Một giả thuyết gần đây cho rằng mã bộ ba xuất phát từ các mã sử dụng codon bộ ba lâu hơn (như codon bộ bốn). Thời gian giải mã bộ ba lâu hơn có thể tạo ra sự dư thừa codon và khả năng kháng lỗi cao hơn. Tính năng này có thể giúp giải mã chính xác ngay cả khi không có bộ máy dịch mã phức tạp như ribosome, ví dụ trước khi tế bào bắt đầu tạo ra ribosome.
- Kênh thông tin: Lý thuyết thông tin mô phỏng quá trình dịch mã di truyền thành các amino acid tương ứng như một kênh thông tin dễ bị lỗi. Tiếng ồn trong kênh đặt ra cho sinh vật câu hỏi cơ bản: làm thế nào để mã di truyền có thể chống lại tiếng ồn và vẫn truyền thông tin chính xác và hiệu quả? Các mô hình 'biến dạng tỷ lệ' cho rằng mã di truyền phát triển từ sự tương tác của ba lực tiến hóa xung đột: nhu cầu amino acid đa dạng, khả năng chịu lỗi và chi phí nguồn sống tối thiểu. Mã xuất hiện không ngẫu nhiên khi xây dựng bản đồ codon thành amino acid. Sự xuất hiện của mã và cấu trúc tô pô được xác định bởi các lỗi có thể xảy ra và vấn đề tô màu bản đồ.
- Lý thuyết trò chơi: Các mô hình dựa trên lý thuyết trò chơi kết hợp các yếu tố của lý thuyết trò chơi, chọn lọc tự nhiên và kênh thông tin. Những mô hình này gợi ý rằng các polypeptide đầu tiên có thể ngắn và không có chức năng enzym. Các mô hình trò chơi cho rằng việc tổ chức các chuỗi RNA trong tế bào có thể là cần thiết để ngăn chặn việc sử dụng mã di truyền 'lừa bịp,' tức là ngăn chặn các loại virus cổ đại lấn át thế giới RNA.
- Mã kết thúc: Các cụm mã kết thúc là một khía cạnh thú vị trong việc tìm hiểu nguồn gốc mã di truyền. Để giải thích sự tiến hóa của mã kết thúc, các nhà khoa học cho rằng codon kết thúc được hình thành để kết thúc dịch mã sớm trong trường hợp xảy ra lỗi dịch khung. Ngược lại, một số mô hình phân tử lập thể giải thích nguồn gốc mã kết thúc là 'không gắn được.'