Gen là một đoạn cụ thể của phân tử acid nucleic có chức năng di truyền. Thông thường, phân tử acid nucleic này là DNA, và rất hiếm khi là RNA (được phát hiện chủ yếu ở một số loại virut).
Thuật ngữ này được dịch từ tiếng Anh gene và tiếng Pháp gène (cả hai đều phát âm là /jēn/). Trong sinh học phổ thông, thuật ngữ này thường được viết là gen (đọc là gien hoặc zen). Gen có khả năng sản xuất các sản phẩm cụ thể, gọi là sản phẩm của gen.
Thuật ngữ 'gen' giữ vai trò thiết yếu và quan trọng trong di truyền học. Ý nghĩa của 'gen' đã thay đổi nhiều kể từ khi di truyền học (genetics - khoa học về gen) ra đời vào năm 1900 cho đến nay. Trong sinh học phân tử hiện đại và di truyền học phân tử từ năm 2000 đến nay, đã có ít nhất 6 định nghĩa mới về gen. Bài viết này chỉ khám phá ý nghĩa của 'gen' trong giai đoạn được gọi là 'thế kỷ tân cổ điển' (từ những năm 1940 đến 1970) và một phần ý nghĩa mới hơn đến những năm 1980.
Trong quá trình biểu hiện gen, DNA đầu tiên được sao chép thành RNA. RNA có thể thực hiện chức năng trực tiếp hoặc đóng vai trò là mẫu để tổng hợp protein, thực hiện các chức năng nhất định. Việc truyền gen cho thế hệ sau là nền tảng của tính kế thừa các đặc điểm kiểu hình. Các gen được tạo thành từ các trình tự DNA khác nhau gọi là kiểu gen. Kiểu gen, kết hợp với các yếu tố môi trường và phát triển, quyết định đặc điểm kiểu hình. Nhiều đặc điểm sinh học bị ảnh hưởng bởi nhiều gen (polygene) và sự tương tác giữa gen và môi trường. Một số đặc điểm di truyền có thể thấy ngay như màu mắt hoặc số lượng chi, trong khi những đặc điểm khác như nhóm máu, nguy cơ bệnh tật hoặc các quá trình sinh hóa cơ bản thì không dễ thấy.
Các gen có thể chứa các đột biến sinh học trong trình tự của chúng, tạo ra các biến thể gọi là allele trong quần thể. Các allele này mã hóa các phiên bản khác nhau của cùng một protein, dẫn đến sự khác biệt trong các đặc điểm kiểu hình. Khi nói đến 'gen' (như 'gen tốt,' 'gen màu tóc'), thường chỉ việc bao gồm các allele khác nhau của cùng một gen.
Khái niệm về gen liên tục được điều chỉnh để phản ánh các phát hiện mới. Ví dụ, các vùng điều hòa của một gen có thể cách xa các vùng mã hóa và các vùng mã hóa có thể bị ngắt quãng bởi các đoạn exon. Một số virus lưu trữ gen của chúng trong RNA thay vì DNA, và một số sản phẩm gen là RNA không mã hóa với chức năng đặc biệt. Do đó, định nghĩa hiện đại về gen là bất kỳ đoạn locus di truyền nào, tức là đoạn trình tự trong bộ gen ảnh hưởng đến các đặc điểm của sinh vật thông qua sản phẩm chức năng hoặc điều hòa biểu hiện gen.
Thuật ngữ gen được nhà thực vật học và di truyền học người Đan Mạch Wilhelm Johannsen giới thiệu vào năm 1905. Ông lấy từ tiếng Hy Lạp cổ đại: γόνος, gonos, có nghĩa là thế hệ con cháu và sinh sản.
Lịch sử
Khám phá các đơn vị di truyền độc lập
Khả năng di truyền của các đơn vị độc lập được nhà thực vật học Gregor Mendel (1822–1884) đề xuất lần đầu tiên. Từ năm 1854 đến 1863, tại một tu viện ở Brno, ông đã trồng và nghiên cứu gần 28.000 cây đậu Hà Lan và theo dõi sự truyền các đặc điểm từ thế hệ này sang thế hệ khác. Ông mô tả các đặc điểm này dưới dạng tổ hợp toán học với n là số đặc điểm khác nhau trong cây đậu. Dù không dùng từ gen, ông đã giải thích kết quả bằng các đơn vị di truyền rời rạc tạo nên các đặc điểm quan sát được. Ông cũng chứng minh quy luật phân ly độc lập, sự khác biệt giữa tính trạng trội và lặn, dị hợp tử (heterozygote) và đồng hợp tử (homozygote), cũng như hiện tượng di truyền không liên tục, trước khi Wilhelm Johannsen phân biệt kiểu gen và kiểu hình.
Trước khi nghiên cứu của Mendel được công bố, sinh học đã chứng kiến một số tiến bộ quan trọng như: kính hiển vi sơ khai của Antonie van Leeuwenhoek (thế kỷ XVII) giúp quan sát thế giới vi sinh vật, và sự phát triển của thuyết tế bào bởi Matthias Schleiden và Theodor Schwann (1838, 1839). Quan niệm phổ biến về di truyền thời bấy giờ vẫn là di truyền các tính trạng tập nhiễm và di truyền hòa hợp (blending inheritance), cho rằng các đặc điểm từ bố mẹ hòa trộn lại, ví dụ lai cây hoa đỏ với hoa trắng sẽ cho ra hoa hồng. Charles Darwin phát triển lý thuyết pangenesis (thuyết mầm, thuyết pangen) từ tiếng Hy Lạp pan ('toàn thể') và genesis ('sự sinh')/genos ('nguồn gốc'). Darwin dùng thuật ngữ gemmule (mầm sinh) để chỉ các hạt giả thuyết hòa trộn trong quá trình sinh sản.
Tuy nhiên, khi Mendel công bố nghiên cứu của mình vào năm 1866, giới khoa học đương thời chưa nhận thức được tầm quan trọng của phát hiện này. Phải đến năm 1900, ba nhà sinh học Hugo de Vries, Carl Correns và Erich von Tschermak, dù không biết đến nghiên cứu của Mendel, đã độc lập thực hiện thí nghiệm và đạt được những kết luận tương tự. Đặc biệt, năm 1889, Hugo de Vries xuất bản cuốn sách Intracellular Pangenesis, trong đó ông dự đoán rằng các tính trạng có đơn vị di truyền độc lập và sự kế thừa này đến từ các hạt mầm. Ông gọi những đơn vị này là 'pangenes' (Pangens trong tiếng Đức), dựa trên lý thuyết pangenesis của Darwin năm 1868.
Vào các năm 1902-1903, dựa trên quan sát của nhiều nhà khoa học, bao gồm Walther Flemming về nhiễm sắc thể trong phân bào, hai nhà khoa học Walter Sutton và Theodor Boveri đã độc lập phát triển Học thuyết di truyền nhiễm sắc thể. Sutton nhấn mạnh sự quan trọng khi ông quan sát thấy nhóm NST lưỡng bội chứa hai tập hợp có hình thái giống nhau, và trong giảm phân, mỗi giao tử chỉ nhận một NST từ mỗi cặp NST tương đồng. Ông đã sử dụng quan sát này để giải thích kết quả của Mendel bằng cách giả thuyết rằng các gen nằm trên nhiễm sắc thể.
Năm 1905, Wilhelm Johannsen đã giới thiệu các thuật ngữ 'gene', 'genotype' và 'phenotype', trong khi William Bateson đặt ra thuật ngữ 'di truyền học' ('genetic').
Trong thập niên 1910, Thomas Hunt Morgan và cộng sự đã chứng minh thành công thuyết di truyền nhiễm sắc thể (chromosome theory of inheritance) bằng cách nghiên cứu ruồi giấm Drosophila melanogaster. Thuyết này xác nhận rằng gen là đơn vị cơ sở của tính di truyền nằm trên nhiễm sắc thể (trong nhân), và các gen sắp xếp theo đường thẳng tạo thành nhóm liên kết.
Khám phá DNA
Trong thế kỷ XX, nghiên cứu về gen và di truyền tiếp tục có những bước tiến quan trọng. Trước đó, Friedrich Miescher (1869) đã phát hiện ra một chất trong nhân tế bào gọi là 'nuclein', mà sau đó Albrecht Kossel (1878) đã phân lập thành phần không phải protein trong nuclein, gọi là axit deoxyribonucleic. DNA đã được chứng minh là chứa thông tin di truyền qua các thí nghiệm thực hiện từ thập niên 1940 đến thập niên 1950 (như thí nghiệm Avery–MacLeod–McCarty và Hershey–Chase). Kết quả nghiên cứu cấu trúc DNA bằng tinh thể học tia X của Rosalind Franklin và Maurice Wilkins đã giúp James D. Watson và Francis Crick đề xuất mô hình chính xác về DNA dạng sợi xoắn kép, trong đó nguyên tắc ghép cặp nucleobase gợi ý cơ chế sao chép vật liệu di truyền.
Đầu thập niên 1950, đa số các nhà sinh học tin rằng các gen trong một nhiễm sắc thể hoạt động như những đoạn rời rạc, không thể tái tổ hợp hoặc sắp xếp như những hạt trên chuỗi. Thí nghiệm của Seymour Benzer với các đột biến ở vùng rII của thể thực khuẩn T4 (1955-1959) đã chứng minh rằng từng gen có cấu trúc thẳng đơn giản, gần như tương ứng với một đoạn của sợi DNA.
Năm 1941, George Beadle và Edward Tatum đã thực hiện thí nghiệm trên nấm mốc bánh mỳ Neurospora crassa để gây đột biến các gen liên quan đến các con đường sinh hóa, và xác nhận rằng mỗi gen điều khiển tổng hợp một enzyme cụ thể. Phát hiện này dẫn đến giả thuyết 'một gen - một enzym', sau này được điều chỉnh thành 'một gen - một chuỗi polypeptide', với cấu trúc bậc 1 của protein, trong đó bao gồm cả các enzyme.
Từ các kết quả nghiên cứu tích lũy, đã hình thành luận thuyết trung tâm của sinh học phân tử, khẳng định rằng các protein được dịch mã từ RNA, trong khi RNA được phiên mã từ DNA. Tuy nhiên, luận thuyết này sau đó phát hiện có những ngoại lệ, chẳng hạn như phiên mã ngược ở retrovirus. Ngành di truyền hiện đại, nghiên cứu ở cấp độ DNA, được gọi là di truyền phân tử.
Vào năm 1972, Walter Fiers cùng nhóm nghiên cứu tại Đại học Ghent đã xác định được trình tự của gen đầu tiên, đó là gen mã hóa protein vỏ của thể thực khuẩn MS2. Tiếp theo, kỹ thuật gián đoạn chuỗi của Frederick Sanger vào năm 1977 đã cải thiện đáng kể hiệu quả giải trình tự DNA, biến nó thành công cụ phổ biến trong các phòng thí nghiệm. Kỹ thuật tự động hóa của phương pháp Sanger được áp dụng trong giai đoạn đầu của dự án giải mã bộ gen người.
Thuyết tổng hợp hiện đại
Vào đầu thế kỷ XX, một số lý thuyết được phát triển để kết hợp di truyền học Mendel với thuyết tiến hóa của Darwin, gọi là thuyết tổng hợp hiện đại, thuật ngữ này được Julian Huxley đưa ra.
Các nhà sinh tiến hóa sau đó đã bổ sung và điều chỉnh khái niệm này, như quan điểm của George C. Williams về gen là yếu tố trung tâm của tiến hóa. Ông định nghĩa gen tiến hóa là đơn vị của chọn lọc tự nhiên với định nghĩa: 'nó là cái tách biệt và tái kết hợp với tần số phù hợp.' Theo quan điểm này, phân tử gen phiên mã như một đơn vị, và gen tiến hóa kế thừa như một đơn vị. Các ý tưởng này, nhấn mạnh vai trò trung tâm của gen trong tiến hóa, được Richard Dawkins thảo luận trong các cuốn sách phổ biến khoa học của ông.
Cơ sở phân tử
DNA
Hầu hết các sinh vật đều mã hóa gen của chúng trong các chuỗi dài DNA (axit deoxyribonucleic). DNA bao gồm một chuỗi các nucleotide, mỗi nucleotide gồm: một đường năm cacbon (2'-deoxyribose), một nhóm phosphat, và một trong bốn base adenine, cytosine, guanine, và thymine.
Hai sợi DNA quấn quanh nhau tạo thành cấu trúc xoắn kép với khung ngoài là đường-phosphat, và các base nằm bên trong, với adenine kết cặp với thymine và guanine kết cặp với cytosine. Các cặp base này liên kết bằng liên kết hydro, với adenine và thymine tạo 2 liên kết hydro, còn cytosine và guanine tạo 3 liên kết hydro. Do đó, hai sợi trong chuỗi xoắn kép liên kết theo nguyên tắc bổ sung, với adenine trên một sợi bắt cặp với thymine trên sợi kia, và ngược lại.
Nhờ vào cấu trúc hóa học của các base pentose, các sợi DNA có định hướng rõ ràng. Một đầu của phân tử DNA chứa nhóm hydroxyl lộ ra từ deoxyribose, gọi là đầu 3'. Đầu còn lại chứa nhóm phosphat, gọi là đầu 5'. Hai sợi trong chuỗi xoắn kép chạy theo hướng ngược nhau. Các quá trình tổng hợp axit nucleic như tái bản DNA và phiên mã diễn ra theo chiều 5'→3', vì các nucleotide mới được gắn vào qua phản ứng khử nước với đầu 3' hydroxyl như là chất cho cặp electron để tạo liên kết hóa học.
Biểu hiện gen, vốn được mã hóa trong DNA, bắt đầu với quá trình phiên mã, chuyển đổi gen thành RNA. RNA là một loại axit nucleic tương tự như DNA nhưng chứa đường ribose thay vì deoxyribose và base uracil thay vì thymine. RNA thường tồn tại dưới dạng sợi đơn và kém bền hơn DNA. Các gen mã hóa protein chứa dãy ba nucleotide gọi là codon, hoạt động như các 'từ' trong 'ngôn ngữ' di truyền. Mã di truyền quyết định cấu trúc protein trong quá trình dịch mã giữa codon và amino acid. Mã di truyền gần như giống nhau ở tất cả các sinh vật đã biết.
Nhiễm sắc thể
Toàn bộ tập hợp gen của một sinh vật hoặc tế bào được gọi là bộ gen (genome), được lưu trữ trong nhiễm sắc thể. Mỗi nhiễm sắc thể chứa một chuỗi dài DNA xoắn kép (cùng với các protein hỗ trợ), trên đó có hàng nghìn gen mã hóa. Vùng của nhiễm sắc thể chứa một gen được gọi là lô-cut. Mỗi lô-cut chứa một alen của gen; tuy nhiên, các cá thể trong một quần thể có thể có các alen khác nhau tại lô-cut, với mỗi alen có thể tương đồng hoặc khác biệt về trình tự nucleotide.
Hầu hết các gen của sinh vật nhân thực được lưu trữ trong một cấu trúc lớn gồm các sợi nhiễm sắc thể. Các nhiễm sắc thể này được cuộn lại trong nhân tế bào thành các búi nhờ sự hỗ trợ của các protein histone, tạo thành đơn vị gọi là nucleosome. DNA được đóng gói và cô đặc theo cách này gọi là chromatin. Cách DNA quấn quanh histone và các sửa đổi hóa học của histone giúp điều chỉnh các vùng DNA cụ thể để quá trình biểu hiện gen có thể xảy ra. Ngoài các đoạn gene, nhiễm sắc thể của sinh vật nhân thực còn chứa các trình tự đảm bảo sự tái bản DNA diễn ra bình thường và phân phối chính xác vào các tế bào con trong quá trình phân bào, bao gồm vùng khởi điểm tái bản, telomere và tâm động. Vùng khởi điểm tái bản là nơi quá trình tái bản DNA bắt đầu. Telomere, các đoạn lặp lại ở đầu nhiễm sắc thể, ngăn chặn sự thoái hóa các vùng trình tự điều hòa và mã hóa. Độ dài của telomere giảm dần qua các lần sao chép và liên quan đến quá trình lão hóa tế bào. Tâm động là nơi các sợi thoi gắn vào để phân tách các chromatid chị em trong quá trình phân bào.
Sinh vật nhân sơ (như vi khuẩn và vi khuẩn cổ) thường lưu trữ bộ gen của mình dưới dạng một sợi nhiễm sắc thể vòng lớn. Một số bào quan trong sinh vật nhân thực cũng chứa các nhiễm sắc thể dạng vòng nhỏ, chứa ít gen. Sinh vật nhân sơ đôi khi thêm vào nhiễm sắc thể của mình những vòng DNA nhỏ gọi là plasmid, chứa một số gen và có thể trao đổi giữa các cá thể. Ví dụ, plasmid có thể chứa các gen giúp vi sinh vật kháng kháng sinh và có khả năng tự sao chép giữa các tế bào, thậm chí giữa các loài khác nhau, thông qua cơ chế chuyển gen ngang.
Trong khi nhiễm sắc thể của sinh vật nhân sơ thường có mật độ gen cao, thì sinh vật nhân thực thường chứa các vùng DNA với chức năng chưa được xác định rõ. Sinh vật đơn bào đơn giản có ít vùng DNA không mã hóa hơn, trong khi các sinh vật đa bào phức tạp như con người có nhiều đoạn DNA mã chưa được hiểu rõ chức năng. Những vùng DNA này thường được gọi là 'DNA rác'. Tuy nhiên, các nghiên cứu gần đây cho thấy mặc dù chỉ 2% bộ gen người mã hóa protein, khoảng 80% số lượng base trong bộ gen có thể được biểu hiện, điều này gợi ý rằng 'DNA rác' có thể có vai trò quan trọng hơn.
Cấu trúc
phiên mã
mRNA
thành
thục
Cấu trúc của một gen bao gồm nhiều yếu tố, trong đó các trình tự mã hóa protein chỉ là một phần nhỏ. Các yếu tố này bao gồm các vùng DNA không được phiên mã và các vùng RNA không được dịch mã.
Hai bên khung đọc mở của mỗi gene có các trình tự điều hòa cần thiết cho sự biểu hiện của nó. Trước tiên, gene cần một trình tự khởi động (promoter). Các yếu tố phiên mã nhận diện và liên kết với vùng trình tự khởi động, sau đó RNA polymerase bắt đầu quá trình phiên mã. Sự nhận diện này thường xảy ra ở hộp TATA trong vùng khởi động. Một gene có thể có nhiều vùng khởi động, tạo ra các RNA thông tin (mRNA) khác nhau ở đầu 5'. Các gene thường xuyên được phiên mã có các trình tự khởi động 'mạnh', tạo liên kết mạnh với các yếu tố phiên mã, do đó phiên mã diễn ra nhanh. Ngược lại, các gene có vùng trình tự khởi động 'yếu' liên kết kém với các yếu tố phiên mã, dẫn đến phiên mã ít hơn. Các vùng trình tự khởi động ở sinh vật nhân thực phức tạp hơn và khó nhận diện hơn so với sinh vật nhân sơ.
Ngoài ra, các gene có thể chứa các vùng điều hòa dài hàng kilobase nằm ở hai bên khung đọc mở, ảnh hưởng đến mức độ biểu hiện. Những vùng này hoạt động bằng cách liên kết với các yếu tố phiên mã, làm cho DNA tạo thành mạch vòng, đưa trình tự điều hòa (và yếu tố phiên mã) gần hơn với RNA polymerase tại vị trí liên kết. Ví dụ, các vùng tăng cường (enhancer) làm tăng tốc độ phiên mã bằng cách liên kết với một protein kích hoạt (activator protein) để kéo RNA polymerase đến vùng khởi động; trong khi đó, vùng bất hoạt (silencer) liên kết với protein ức chế (repressor protein) làm giảm hoạt động của DNA với RNA polymerase.
Phân tử tiền mRNA (pre-mRNA) có các vùng không dịch mã ở cả hai đầu, mỗi đầu chứa vị trí liên kết ribosome, vùng kết thúc (terminator) và các codon khởi đầu và kết thúc. Hầu hết khung đọc mở ở sinh vật nhân thực chứa các đoạn intron không được dịch mã, sẽ được loại bỏ trước khi các đoạn exon được dịch mã. Các trình tự ở cuối mỗi intron xác định các vị trí cắt (splice site, RNA splicing) để tạo ra mRNA thành thục, dùng để mã hóa protein hoặc sản phẩm RNA khác.
Nhiều gene ở sinh vật nhân sơ được tổ chức thành các đơn vị operon, chứa nhiều trình tự mã hóa protein được phiên mã liên tục trong cùng một mRNA. Các gene trong một operon được phiên mã thành mRNA liên tục, gọi là polycistronic mRNA. Trong bối cảnh này, cistron tương đương với khái niệm gen. Sự phiên mã của operon thường bị kiểm soát bởi phân tử ức chế (repressor), mà trạng thái hoạt động hay không của sự phiên mã phụ thuộc vào sự hiện diện của các chất chuyển hóa nhất định. Khi phân tử ức chế hoạt động, nó bám vào một trình tự DNA ở vị trí khởi đầu của operon, gọi là vùng operator, làm cản trở phiên mã của operon; khi phân tử ức chế bất hoạt, phiên mã có thể xảy ra (xem ví dụ Lac operon). Các sản phẩm của gene operon thường có các chức năng liên quan và tham gia vào cùng một mạng lưới điều hòa gene.
Khái niệm dựa trên chức năng
Các nhà nghiên cứu sinh học phân tử thường đối mặt với thách thức trong việc xác định chính xác phần nào của trình tự DNA là gen. Các vùng điều hòa của gen, chẳng hạn như vùng tăng cường, không nhất thiết phải nằm gần trình tự mã hóa trên mạch DNA dài, vì các đoạn DNA trung gian có thể tạo vòng lồi ra (loop out) để kéo gene và vùng điều hòa lại gần nhau. Tương tự, các đoạn intron có thể dài hơn nhiều so với các exon. Thậm chí các vùng điều hòa có thể nằm trên nhiễm sắc thể khác và hoạt động từ xa (in trans), giúp các vùng điều hòa trên một nhiễm sắc thể tiếp cận các gen mục tiêu trên nhiễm sắc thể khác.
Các nghiên cứu sớm trong di truyền phân tử gợi ý rằng một gen có thể mã hóa cho một protein. Khái niệm này, được gọi là giả thuyết một gen-một enzym, được đưa ra trong bài báo quan trọng năm 1941 của George Beadle và Edward Tatum từ nghiên cứu đột biến trên nấm mốc Neurospora crassa. Norman Horowitz, một cộng sự của nghiên cứu Neurospora, hồi tưởng vào năm 2004 rằng 'những thí nghiệm này là nền tảng cho lĩnh vực mà Beadle và Tatum gọi là di truyền sinh hóa. Kết quả của họ thực sự đã đặt nền móng cho di truyền phân tử và các bước tiến sau này.' Khái niệm một gen-một protein đã được điều chỉnh khi phát hiện rằng các gen có thể mã hóa nhiều protein thông qua quá trình cắt-nối có chọn lọc (alternative splicing) và các đoạn mã hóa ngắn, với mRNA được ghép nối qua xử lý cắt-nối chéo (trans-splicing).
Một định nghĩa rộng rãi đôi khi được áp dụng để phản ánh sự phức tạp của các hiện tượng đa dạng, trong đó một gen được hiểu là tập hợp các trình tự mã hóa cho một tập hợp nhất quán các sản phẩm chức năng có thể giao thoa với nhau. Định nghĩa này phân loại gene dựa trên các sản phẩm chức năng (như protein hoặc RNA) thay vì các vị trí locus cụ thể trên đoạn DNA, với các yếu tố điều hòa được xem như là các vùng liên quan đến gene.
Biểu hiện gen
Tất cả các sinh vật đều trải qua hai bước quan trọng để chuyển đổi thông tin di truyền từ DNA thành sản phẩm protein. Đầu tiên, các đoạn DNA của gene được phiên mã thành RNA thông tin (mRNA). Sau đó, mRNA được dịch mã thành protein. Mặc dù các gene mã hóa trong RNA cần trải qua bước phiên mã, nhưng không phải tất cả đều cần được dịch mã thành protein. Quá trình tổng hợp một phân tử chức năng sinh học, dù là RNA hay protein, được gọi là biểu hiện gen, và phân tử tạo thành được gọi là sản phẩm gene.
Mã di truyền
Trình tự nucleotide trong DNA của một gene quyết định trình tự amino acid của protein thông qua mã di truyền. Các bộ ba nucleotide, hay còn gọi là codon, mã hóa cho từng amino acid. Nguyên lý này, rằng mỗi bộ ba base trong DNA mã hóa cho một amino acid, được chứng minh qua thí nghiệm năm 1961 với đột biến dịch chuyển khung trong gene rIIB của thể thực khuẩn T4 (xem thí nghiệm của Crick, Brenner và cộng sự).
Hơn nữa, một 'codon khởi động' và ba 'codon kết thúc' đánh dấu điểm bắt đầu và kết thúc của vùng mã hóa protein. Có tổng cộng 64 codon khả dĩ (vì mỗi vị trí trong bộ ba có bốn nucleotide, tạo ra 64 tổ hợp) trong khi chỉ có 20 amino acid cơ bản; do đó, nhiều codon mã hóa cho cùng một amino acid. Sự tương ứng giữa các codon và amino acid gần như là phổ biến ở tất cả các sinh vật sống trên Trái Đất.
Phiên mã
Phiên mã tạo ra một phân tử RNA sợi đơn, gọi là mRNA, với các trình tự nucleotide tương ứng bổ sung với DNA làm khuôn. mRNA đóng vai trò làm cầu nối giữa DNA của gene và protein cuối cùng. DNA của gene được sử dụng làm khuôn để tổng hợp mRNA theo nguyên tắc bổ sung. mRNA khớp với trình tự của dải mã hóa (coding strand) trong DNA vì nó được tổng hợp từ dải khuôn mẫu (template strand). Enzyme RNA polymerase thực hiện quá trình phiên mã bằng cách đọc và di chuyển dọc theo dải khuôn mẫu theo chiều 3' đến 5', trong khi tổng hợp RNA theo chiều ngược lại từ 5' đến 3'. Để bắt đầu phiên mã, enzyme polymerase nhận diện và gắn vào vùng khởi động của gene. Do đó, cơ chế chính để điều hòa biểu hiện gen là ngăn cản hoặc hạn chế tiếp cận vùng khởi động, bằng các phân tử ức chế hoặc tổ chức DNA để không thể tiếp cận vùng khởi động.
Ở sinh vật nhân sơ, phiên mã diễn ra trong tế bào chất; với các phân tử RNA dài, dịch mã có thể bắt đầu ở đầu 5' của RNA trong khi phiên mã vẫn tiếp tục ở đầu 3'. Ở sinh vật nhân thực, phiên mã xảy ra trong nhân tế bào, nơi chứa DNA và nhiễm sắc thể. Phân tử RNA được tổng hợp bởi polymerase gọi là bản sao sơ cấp (primary transcript) và cần trải qua sửa đổi hậu phiên mã (post-transcriptional modification) trước khi trở thành mRNA trưởng thành và di chuyển ra tế bào chất để dịch mã. Một trong những sửa đổi là cắt-nối các đoạn intron không mã hóa protein. Cơ chế cắt-nối có chọn lọc (alternative splicing) cho phép từ cùng một gen tạo ra các mRNA khác nhau và mã hóa các protein khác nhau. Đây là cơ chế điều hòa chính ở tế bào nhân thực và cũng thấy ở một số tế bào nhân sơ.
Dịch mã
Dịch mã là quá trình trong đó phân tử mRNA trưởng thành được sử dụng làm khuôn để tổng hợp protein mới. Quá trình này được thực hiện bởi các ribosome, các phức hợp lớn chứa cả RNA và protein, chịu trách nhiệm thực hiện các phản ứng hóa học để kết nối các amino acid mới do tRNA mang đến, tạo thành chuỗi polypeptide dài dần qua liên kết peptide. Mã di truyền được đọc ba nucleotide một lần theo các đơn vị gọi là codon mã hóa, thông qua tương tác với các phân tử RNA đặc biệt gọi là tRNA. Mỗi tRNA mang ba base không ghép cặp gọi là anticodon, tương ứng với codon trên mRNA. tRNA gắn với amino acid cụ thể chỉ khi khớp với codon của nó. Khi tRNA khớp với codon bổ sung trên mRNA, ribosome sẽ thêm amino acid vào chuỗi polypeptide đang tổng hợp, theo chiều từ đầu amin đến đầu carboxyl. Sau khi tổng hợp, protein mới thường cần phải gập lại để có cấu trúc ba chiều hoạt động trước khi thực hiện chức năng trong tế bào hoặc được giải phóng ra ngoài.
Điều hòa
Các gene được điều chỉnh để chỉ hoạt động khi cần thiết, vì quá trình biểu hiện tiêu tốn các nguồn tài nguyên hạn chế. Tế bào điều chỉnh biểu hiện gen dựa trên điều kiện môi trường bên ngoài (như sự thay đổi chất dinh dưỡng, nhiệt độ, và stress), tình trạng nội tại (như chu kỳ phân bào, trao đổi chất, và tình trạng nhiễm trùng), và vai trò của tế bào trong sinh vật đa bào. Biểu hiện gen có thể được điều chỉnh tại bất kỳ giai đoạn nào: từ khởi phát phiên mã, xử lý RNA, đến sửa đổi sau dịch mã đối với protein. Cơ chế điều hòa gen kiểm soát trao đổi chất của lactose ở E. coli (lac operon) là một trong những cơ chế điều hòa đầu tiên được mô tả bởi François Jacob và Jacques Monod vào năm 1961.
Các gene sinh RNA không mã hóa
Một gene mã hóa protein thường được sao chép thành RNA như một phân tử trung gian trong quá trình tổng hợp protein. Tuy nhiên, một số RNA là sản phẩm với chức năng đặc biệt, chẳng hạn như trong việc tạo ribosome và vận chuyển RNA. Một số RNA có khả năng hoạt động như enzyme (ribozyme) hoặc điều hòa biểu hiện gen (microRNA). Các gene sinh RNA không mã hóa là các trình tự DNA từ đó RNA được phiên mã thành các RNA có chức năng chuyên biệt.
Một số virus lưu trữ toàn bộ bộ gene của chúng dưới dạng RNA và không chứa DNA. Vì chúng sử dụng RNA để lưu giữ thông tin di truyền, các tế bào vật chủ có thể ngay lập tức tổng hợp protein cần thiết cho virus ngay khi bị lây nhiễm, mà không cần phải chờ quá trình phiên mã xảy ra. Ngược lại, các retrovirus như HIV yêu cầu phải chuyển đổi RNA thành DNA qua quá trình phiên mã ngược trước khi protein của virus được tổng hợp. Di truyền học ngoài gene (epigenetics) do RNA trung gian cũng đã được phát hiện ở một số thực vật nhưng rất hiếm thấy ở động vật.
Di truyền
Bộ gene của sinh vật được kế thừa từ các gene của thế hệ bố mẹ. Sinh vật sinh sản vô tính thừa hưởng một bản sao đầy đủ của bộ gene bố mẹ. Trong khi đó, sinh vật sinh sản hữu tính có hai bản sao ở mỗi nhiễm sắc thể do nhận một bộ gene từ mỗi bố và mẹ.
Di truyền Mendel
Theo lý thuyết di truyền Mendel, sự khác biệt trong kiểu hình của một sinh vật (các đặc điểm vật lý và hành vi quan sát được) phần lớn phụ thuộc vào sự biến đổi trong kiểu gene (đặc biệt là các gen tương ứng). Mỗi gene quy định một tính trạng cụ thể, với các trình tự khác nhau trên cùng một gen (allele) tạo ra nhiều kiểu hình khác nhau. Hầu hết các sinh vật nhân thực (như cây đậu Hà Lan mà Mendel nghiên cứu) đều có hai allele cho mỗi tính trạng, mỗi allele được thừa hưởng từ một trong hai cha mẹ.
Tại mỗi locus, allele có thể là trội hoặc lặn; allele trội thể hiện kiểu hình tương ứng khi kết hợp với bất kỳ allele khác của tính trạng, trong khi allele lặn chỉ thể hiện kiểu hình khi kết hợp với chính nó. Nếu biết kiểu hình của sinh vật, có thể xác định được allele trội và lặn. Ví dụ, nếu allele xác định chiều cao thân cây đậu Hà Lan là trội so với allele xác định chiều cao thấp, thì cây đậu thừa hưởng một allele cao và một allele thấp từ bố mẹ sẽ có thân cây cao. Nghiên cứu của Mendel chứng minh rằng các allele phân ly độc lập khi hình thành giao tử, đảm bảo sự biến đổi ở thế hệ tiếp theo. Mặc dù lý thuyết Mendel vẫn là mô hình hữu ích cho nhiều tính trạng do các gen riêng lẻ quy định (bao gồm một số bệnh di truyền phổ biến), nó không bao quát các quá trình sinh hóa trong tái bản DNA và phân bào.
Tái bản DNA và phân bào
Sinh vật phát triển, sinh trưởng và sinh sản nhờ vào phân bào, quá trình mà một tế bào phân chia thành hai tế bào con. Để thực hiện điều này, trước tiên trong nhân tế bào cần tiến hành sao chép từng gene qua cơ chế tái bản DNA. Quá trình này được thực hiện nhờ các enzyme chuyên biệt, trong đó có DNA polymerase, phân tử này đọc một sợi của DNA xoắn kép đã được tháo xoắn (sợi khuôn) và tổng hợp một sợi bổ sung mới. Vì chuỗi DNA xoắn kép được liên kết bởi các cặp base bổ sung, từ trình tự của một sợi có thể hoàn toàn xác định trình tự bổ sung; do đó, enzyme chỉ cần đọc một sợi là có thể tạo ra bản sao đầy đủ. Tái bản DNA theo nguyên tắc bán bảo toàn; nghĩa là, bản sao của bộ gene trong mỗi tế bào con chứa một sợi gốc từ bố mẹ và một sợi DNA mới tổng hợp.
Tốc độ tái bản DNA trong tế bào sống lần đầu tiên được đo lường ở thể thực khuẩn T4 trong E. coli nhiễm phage và phát hiện ra rằng tốc độ này rất nhanh. Ở nhiệt độ 37 °C, tốc độ kéo dài DNA đạt 749 nucleotide mỗi giây.
Khi quá trình tái bản DNA hoàn tất, tế bào cần thực hiện việc phân chia hai bản sao bộ gene và chia thành hai tế bào con với màng phân tách. Ở sinh vật nhân sơ (như vi khuẩn và vi khuẩn cổ), quá trình này tương đối đơn giản, diễn ra qua phân chia đôi (binary fission). Trong quá trình này, mỗi bộ gene trên mạch vòng gắn vào màng tế bào và được tách ra thành các tế bào khi màng tế bào lộn vào trong (invagination), phân chia tế bào chất thành hai phần được ngăn cách bởi màng tế bào. Phân chia đôi xảy ra nhanh chóng hơn nhiều so với phân bào ở sinh vật nhân thực. Tế bào nhân thực phân chia phức tạp hơn và diễn ra qua chu kỳ tế bào; trong đó tái bản DNA xảy ra ở pha S, và phân chia nhiễm sắc thể cùng bào tương xảy ra ở pha M.
Di truyền phân tử
Tái bản và truyền tải vật liệu di truyền từ thế hệ này sang thế hệ kế tiếp là nền tảng của di truyền phân tử, kết nối bức tranh phân tử với bức tranh cổ điển của gen. Sinh vật thừa hưởng đặc tính từ bố mẹ vì tế bào con chứa các bản sao của gene từ tế bào của bố mẹ. Ở sinh vật sinh sản vô tính, thế hệ con mang theo bản sao di truyền từ sinh vật bố mẹ. Ở sinh vật sinh sản hữu tính, quá trình phân bào đặc biệt gọi là giảm phân tạo ra tế bào giao tử hoặc tế bào mầm đơn bội, chứa gene trong nhiễm sắc thể đơn bội. Giao tử từ con cái gọi là trứng (ova), và giao tử từ con đực gọi là tinh trùng. Hai giao tử kết hợp tạo thành hợp tử lưỡng bội, chứa hai tập hợp gene, một từ mẹ và một từ cha.
Trong giảm phân, thỉnh thoảng xảy ra sự kiện tái tổ hợp di truyền hay trao đổi chéo ở các đoạn giữa hai nhiễm sắc thể tương đồng, dẫn đến sự trao đổi các gen. Trong sự kiện này, một đoạn DNA trên một chromatid hoán vị với một đoạn DNA có chiều dài tương đương trên chromatid tương đồng khác chị em. Hiện tượng này có thể dẫn đến sự sắp xếp lại các allele đã liên kết với nhau. Quy luật phân ly độc lập của Mendel cho biết mỗi gene từ bố hoặc mẹ cho mỗi tính trạng sẽ phân ly độc lập trong giao tử; tức là các allele của các gen khác nhau phân ly độc lập trong quá trình hình thành giao tử. Điều này chỉ đúng với những gene không nằm trên cùng một nhiễm sắc thể, hoặc nằm rất xa trên cùng một nhiễm sắc thể. Các gene nằm gần nhau trên cùng một nhiễm sắc thể có xu hướng xuất hiện cùng nhau trong giao tử và tính trạng chúng biểu hiện thường xuyên hơn; những gene gần nhau hoặc sát nhau rất hiếm khi bị tách biệt vì điểm trao đổi chéo giữa chúng rất hiếm. Đây là cơ sở của hiện tượng di truyền liên kết gene hoàn toàn (genetic linkage).
Ruồi giấm Drosophila melanogaster đã trở thành đối tượng nghiên cứu chủ yếu của nhà di truyền học Thomas Hunt Morgan (1866-1945) từ đầu thế kỷ XX, khi ông làm việc tại Học viện Công nghệ California. Bằng việc sử dụng ruồi giấm, Morgan và các cộng sự đã phát triển lý thuyết di truyền nhiễm sắc thể. Lý thuyết này đã khẳng định ba vai trò chính của gene: (i) Gene là đơn vị chức năng, tức là một đơn vị toàn vẹn kiểm soát một tính trạng cụ thể. (ii) Gene là đơn vị tái tổ hợp, không bị chia nhỏ bởi trao đổi chéo (trao đổi chéo chỉ xảy ra giữa các gene, không trong một gene). (iii) Gene là đơn vị đột biến, tức là đột biến trong gene sẽ tạo ra một trạng thái cấu trúc mới với kiểu hình đột biến khác biệt. Tuy nhiên, quan điểm này còn thiếu chính xác theo các nghiên cứu hiện đại.
Các biến đổi ở mức phân tử
Đột biến
Quá trình tái bản DNA thường rất chính xác, nhưng cũng có thể xảy ra lỗi (đột biến). Tần suất lỗi ở tế bào sinh vật nhân thực khoảng 10 lỗi trên mỗi nucleotide trong mỗi lần tái bản, trong khi ở một số virus RNA, tần suất có thể cao đến 10. Điều này có nghĩa là mỗi thế hệ người có thêm 1–2 đột biến mới. Những đột biến nhỏ có thể bao gồm đột biến điểm (thay đổi một base) và đột biến dịch chuyển khung (thêm hoặc xóa một base). Các đột biến này có thể làm gene sai nghĩa (missense mutation, thay đổi một codon thành amino acid khác) hoặc vô nghĩa (nonsense mutation, kết thúc quá trình tái bản khi đọc đến codon kết thúc, tạo ra protein không hoạt động). Đột biến lớn có thể gây ra lỗi trong tái tổ hợp, dẫn đến bất thường nhiễm sắc thể như nhân đôi gene, xóa, sắp xếp lại hoặc đảo ngược đoạn dài của NST. Thêm vào đó, cơ chế sửa chữa DNA có thể tạo ra đột biến mới trong quá trình sửa chữa các sai hỏng, mặc dù sự sửa chữa thường quan trọng hơn việc khôi phục bản sao chính xác.
Khi một loài có nhiều allele khác nhau của cùng một gene, hiện tượng này được gọi là đa hình (polymorphism). Mặc dù phần lớn các allele khác nhau hoạt động tương tự nhau, một số allele có thể dẫn đến các tính trạng kiểu hình khác nhau. Allele phổ biến nhất của một gene gọi là kiểu dại (wild type), trong khi những allele hiếm gọi là allele đột biến. Sự biến dị di truyền về tần suất allele trong một quần thể được gây ra bởi cả chọn lọc tự nhiên và biến động di truyền (genetic drift), tức là sự thay đổi ngẫu nhiên về tần suất allele, đặc biệt là ở các quần thể nhỏ.
Hầu hết các đột biến trong gen là đột biến trung tính (neutral mutation), không ảnh hưởng đến kiểu hình của sinh vật (đột biến lặng, silent mutation). Một số đột biến không thay đổi trình tự amino acid vì một số codon mã hóa cho cùng một amino acid (đột biến đồng nghĩa, synonymous mutation). Các đột biến khác có thể trở thành trung tính nếu chúng thay đổi trình tự amino acid nhưng protein vẫn hoạt động bình thường với amino acid mới (đột biến bảo toàn, conservative mutation). Tuy nhiên, nhiều đột biến có thể gây hại (deleterious mutation) hoặc thậm chí gây chết (lethal allele), và thường bị loại bỏ qua quá trình chọn lọc. Rối loạn di truyền (genetic disorders) là kết quả của các đột biến có hại và có thể là do đột biến tự phát hoặc di truyền sang thế hệ sau. Một tỷ lệ nhỏ đột biến là có lợi (beneficial mutation), nâng cao khả năng sinh tồn (fitness) của sinh vật, và đóng vai trò quan trọng trong thuyết tiến hóa tổng hợp hiện đại, vì sự chọn lọc có hướng dẫn đến sự tiến hóa thích nghi.
Trình tự tương đồng
Các gene có nguồn gốc tổ tiên chung gần gũi và do đó chia sẻ lịch sử tiến hóa chung được gọi là gene tương đồng. Những gene này có thể phát sinh từ việc lặp lại gene trong bộ gene của sinh vật (các gen môi sinh) hoặc từ sự phân tán gene sau một sự kiện hình thành loài, và thường thực hiện các chức năng tương tự như ở sinh vật liên quan. Thông thường, người ta giả định rằng các gene tương đồng có sự giống nhau nhiều hơn so với các gene môi sinh, mặc dù sự khác biệt là nhỏ.
Mối liên hệ giữa các gen có thể được đo bằng cách so sánh trình tự DNA của chúng. Độ tương đồng giữa các gen tương đồng được gọi là trình tự bảo tồn (conserved sequence). Theo thuyết tiến hóa phân tử trung tính, phần lớn các thay đổi trong trình tự của một gen không ảnh hưởng đến chức năng của nó và do đó, gene tích lũy các đột biến theo thời gian. Hơn nữa, bất kỳ chọn lọc nào trên một gen sẽ ảnh hưởng đến tốc độ phân tán của trình tự của nó. Các gene bị chọn lọc ổn định có sự ổn định cao và thay đổi chậm, trong khi các gene bị chọn lọc định hướng thay đổi nhanh chóng. Sự khác biệt trong trình tự giữa các gen có thể được sử dụng để phân tích phát sinh chủng loài, giúp nghiên cứu cách các gen tiến hóa và cách các sinh vật liên quan đến nhau.
Nguồn gốc các gen mới
Các gen mới ở sinh vật nhân thực thường có nguồn gốc từ việc lặp đoạn gene, tạo ra các bản sao của gene từ những gene đã tồn tại trong bộ gene. Các gen sao chép này có thể phát triển với các chức năng và trình tự khác nhau. Các gene hình thành theo cách này tạo thành các gia đình gene (gene family). Các nhà tiến hóa cho rằng sự lặp đoạn gene và mất gene trong gia đình gene là phổ biến và là yếu tố chính dẫn đến sự đa dạng sinh học. Đôi khi, lặp đoạn gene có thể dẫn đến việc tạo ra các bản sao không hoạt động hoặc các bản sao bị đột biến gây mất chức năng, được gọi là gene giả (pseudogene).
Các gene 'mồ côi', tức là các gene không có trình tự tương đồng với bất kỳ gene nào đã biết, ít gặp hơn so với các gene lặp lại. Ước tính có từ 18 đến 60 gene mồ côi ngoài con người. Hai nguồn chính của các gene mồ côi mã hóa protein là quá trình lặp đoạn gene tiếp theo là thay đổi trình tự lớn, dẫn đến việc không xác định được mối liên hệ gốc từ so sánh trình tự, và sự chuyển đổi từ một trình tự không mã hóa thành một gen mã hóa protein. Các gene mới thường ngắn hơn và cấu trúc đơn giản hơn so với các gen ở sinh vật nhân thực, với ít intron hơn (nếu có). Các nhà sinh tiến hóa cho rằng các gene mới sinh ra trong quá trình tiến hóa có thể góp phần vào sự hình thành một tỷ lệ lớn các gia đình gene hạn chế về mặt chủng loại.
Chuyển gene ngang đề cập đến việc truyền vật liệu di truyền thông qua các cơ chế ngoài sự sinh sản. Đây là một nguồn phổ biến của việc tạo ra gene mới ở sinh vật nhân sơ và có thể góp phần nhiều hơn vào biến dị di truyền so với lặp đoạn gene. Đây là một cách phổ biến để phát tán kháng thuốc kháng sinh, độc lực và các chức năng trao đổi chất thích nghi. Mặc dù chuyển gene ngang hiếm gặp ở sinh vật nhân thực, một số trường hợp tương tự đã được phát hiện trong bộ gene của sinh vật nguyên sinh và tảo, nơi chứa các gen có nguồn gốc từ vi khuẩn.
Bộ gene
Bộ gene đại diện cho toàn bộ vật liệu di truyền của một sinh vật, bao gồm cả các gen và các trình tự không mã hóa.
Số lượng gene
Kích thước của bộ gene và số lượng gene mã hóa của mỗi loài rất đa dạng. Virus và viroid (những RNA không mã hóa) có bộ gene nhỏ nhất. Trong khi đó, thực vật có những bộ gene rất lớn, chẳng hạn như cây lúa gạo có hơn 46.000 gene mã hóa protein. Tổng số lượng gene mã hóa protein trên Trái Đất ước tính khoảng 5 triệu trình tự.
Dù số lượng cặp base trong DNA của bộ gene người đã được xác định từ những năm 1960, ước lượng về số lượng gene đã thay đổi theo thời gian do định nghĩa về gene và phương pháp phát hiện liên tục được cập nhật. Các dự đoán lý thuyết ban đầu cho rằng số lượng gene ở người lên tới 2.000.000. Tuy nhiên, các nghiên cứu thực nghiệm sơ bộ cho thấy số lượng gene thực sự nằm trong khoảng 50.000–100.000 gene được phiên mã (theo phương pháp đánh dấu trình tự biểu hiện). Dự án Bản đồ gene ở Người sau đó chỉ ra rằng nhiều trình tự phiên mã là biến thể của cùng một gen, làm giảm tổng số lượng gene mã hóa protein xuống còn khoảng 20.000, trong đó có 13 gene mã hóa nằm trong bộ gene ty thể. Nghiên cứu từ dự án GENCODE tiếp tục điều chỉnh ước lượng số gene xuống còn khoảng 19.900. Trong bộ gene người, chỉ khoảng 1–2% trong 3 tỷ cặp base DNA là mã hóa protein, phần còn lại là DNA 'không mã hóa' bao gồm intron, retrotransposon, các trình tự điều hòa DNA và RNA không mã hóa. Mỗi tế bào của sinh vật đa bào chứa toàn bộ gene, nhưng không phải tất cả các gene đều hoạt động trong từng tế bào.
Gene cơ bản
Gene cơ bản là những gene thiết yếu cho sự sống của một sinh vật, giả sử sinh vật đó có đủ chất dinh dưỡng và không chịu áp lực môi trường. Chỉ một phần nhỏ số gene của một sinh vật là gene cơ bản. Ví dụ, ở vi khuẩn như Escherichia coli và Bacillus subtilis, ước tính có khoảng 250–400 gene cơ bản, chiếm dưới 10% tổng số gene của chúng. Một nửa số gene này là ortholog trong cả hai loại vi khuẩn và chủ yếu tham gia vào quá trình tổng hợp protein. Ở nấm men Saccharomyces cerevisiae, số lượng gene cơ bản là khoảng 1000 gene (~20% bộ gene). Mặc dù việc xác định số lượng gene cơ bản ở sinh vật nhân thực bậc cao khó khăn hơn, ước tính ở chuột và người có khoảng 2000 gene cơ bản (~10% bộ gene). Sinh vật tổng hợp Syn 3 chứa 473 gene cơ bản và một số gene gần cơ bản (cần thiết cho sự sinh trưởng nhanh), mặc dù có 149 gene chưa rõ chức năng.
Gene cơ bản bao gồm các gene giữ nhà (housekeeping genes), đặc biệt quan trọng cho các chức năng cơ bản của tế bào, cũng như các gene biểu hiện ở các thời điểm khác nhau trong suốt giai đoạn phát triển hoặc vòng đời sinh học. Gene giữ nhà thường được sử dụng trong các nghiên cứu kiểm soát khoa học để phân tích biểu hiện gen, vì chúng có mức độ biểu hiện tương đối ổn định.
Định danh gene và bộ gene
Việc định danh gene được thực hiện bởi Ủy ban Định danh Gene (HUGO), đảm bảo rằng mỗi gene đã được biết đến ở người đều có tên và ký hiệu theo dạng thức chuẩn. Điều này giúp dữ liệu về các gene này có thể dễ dàng truy cập qua cơ sở dữ liệu do Ủy ban quản lý. Mỗi gene được gán một ký hiệu duy nhất (mặc dù đôi khi ký hiệu có thể thay đổi). Việc lựa chọn ký hiệu ưu tiên nhằm duy trì sự nhất quán với các thành viên khác trong gia đình gene và với các gene tương đồng ở các loài khác, đặc biệt là ở chuột, vì đây là một sinh vật mô hình quan trọng.
Kỹ thuật di truyền
Kỹ thuật di truyền bao gồm các phương pháp để chỉnh sửa bộ gene của sinh vật bằng công nghệ sinh học. Kể từ thập niên 1970, đã có nhiều phương pháp được phát triển để thêm vào, loại bỏ hoặc thay đổi các gen trong sinh vật. Các kỹ thuật chỉnh sửa gene gần đây sử dụng enzyme nuclease để tạo ra các đích sửa chữa DNA trong nhiễm sắc thể, giúp phá vỡ hoặc chỉnh sửa một gen khi vị trí đứt gãy được sửa đổi. Ngành sinh học tổng hợp (synthetic biology) đôi khi áp dụng các kỹ thuật này để mở rộng nghiên cứu di truyền trên sinh vật.
Hiện tại, kỹ thuật di truyền là công cụ quan trọng trong nghiên cứu sinh vật mô hình. Ví dụ, việc thêm gen vào vi khuẩn hoặc tạo ra chuột knockout với chức năng gene bị vô hiệu hóa giúp chúng ta nghiên cứu vai trò của các gen. Nhiều sinh vật đã được chỉnh sửa di truyền để ứng dụng trong nông nghiệp (như thực phẩm biến đổi gen), công nghiệp sinh học và y học.
Đối với sinh vật đa bào, đặc biệt là các phôi được can thiệp trước khi trưởng thành hoặc các sinh vật chỉnh sửa gen (GMO), bộ gene của các tế bào trong sinh vật trưởng thành cũng có thể được chỉnh sửa thông qua các kỹ thuật liệu pháp gen để điều trị các bệnh di truyền.