Mã hóa Hai chiều từ Transformer (tiếng Anh: Bidirectional Encoder Representations from Transformers, viết tắt là BERT) là một phương pháp học máy dựa trên các transformer, dùng để tiền huấn luyện cho xử lý ngôn ngữ tự nhiên (NLP) do Google phát triển. Jacob Devlin cùng nhóm nghiên cứu từ Google đã tạo ra và công bố BERT vào năm 2018. Đến năm 2019, Google đã sử dụng BERT để nâng cao khả năng hiểu các truy vấn tìm kiếm của người dùng.
Mô hình BERT ban đầu có hai phiên bản tiếng Anh đã được tiền huấn luyện: (1) mô hình BERTBASE, mạng thần kinh gồm 12 lớp, 768 lớp ẩn, 12 đầu, 110 triệu tham số và (2) mô hình BERTLARGE, mạng thần kinh gồm 24 lớp, 1024 lớp ẩn, 16 đầu, 340 triệu tham số. Cả hai đều được huấn luyện từ BooksCorpus với 800 triệu từ và phiên bản Wikipedia tiếng Anh với 2,5 tỷ từ.
Hiệu năng
Khi BERT được giới thiệu, nó đạt hiệu năng hàng đầu trên một số tác vụ hiểu ngôn ngữ tự nhiên.
- Bộ tác vụ GLUE (Đánh giá Hiểu Ngôn ngữ Chung) (gồm 9 tác vụ)
- SQuAD (Bộ dữ liệu Trả lời Câu hỏi của Stanford) v1.1 và v2.0
- SWAG (Tình huống với Các Thế hệ Đối lập)
Lịch sử phát triển
BERT được phát triển từ các mô hình biểu diễn ngữ cảnh trước đó như học trình tự bán giám sát, Generative Pre-Training, ELMo, và ULMFit. Không giống như các mô hình trước, BERT là một mô hình biểu diễn ngôn ngữ hai chiều sâu không giám sát, được tiền huấn luyện chỉ bằng cách sử dụng kho ngữ liệu văn bản thuần túy.
Các mô hình không có ngữ cảnh như Word2vec hay GloVe tạo ra một biểu diễn từ nhúng duy nhất cho mỗi từ trong từ vựng, trong khi BERT xét đến ngữ cảnh cụ thể của từ trong từng lần xuất hiện. Ví dụ: vectơ của từ 'running' trong Word2vec sẽ giống nhau dù từ này xuất hiện trong câu 'He is running a company' hay 'He is running a marathon', trong khi BERT sẽ tạo ra nhúng theo ngữ cảnh khác nhau tùy thuộc vào mỗi câu.
Ngày 25 tháng 10 năm 2019, Google Tìm kiếm thông báo đã bắt đầu sử dụng mô hình BERT cho các truy vấn bằng tiếng Anh tại Hoa Kỳ. Đến ngày 09 tháng 12 năm 2019, có báo cáo rằng BERT đã được áp dụng cho hơn 70 ngôn ngữ trong Google Tìm kiếm.
Dựa trên kiến trúc ban đầu, nhiều phiên bản của BERT đã được tiền huấn luyện cho các ngôn ngữ khác nhau, bao gồm cả Tiếng Việt, và đã được công bố rộng rãi trong cộng đồng.
Giải thưởng và danh hiệu
BERT đã đạt giải Bài viết Dài Xuất sắc nhất (Best Long Paper Award) tại Hội nghị Thường niên 2019 của Chi nhánh Bắc Mỹ thuộc Hiệp hội Ngôn ngữ học Tính toán (NAACL).
- Transformer (mô hình học máy)
- Word2vec
- Bộ tự mã hóa
- Ma trận từ-tài liệu
- Trích xuất đặc trưng
- Học đặc trưng
- Mô hình ngôn ngữ
- Mô hình không gian vector
- Vector suy nghĩ
- FastText
- GloVe (học máy)
- TensorFlow
Tham khảo thêm
- Rogers, Anna; Kovaleva, Olga; Rumshisky, Anna (2020). 'Giới thiệu về BERT: Những gì chúng ta biết về cách hoạt động của BERT'. arΧiv:2002.12327 [cs.CL].
Liên kết hữu ích
Xử lý ngôn ngữ tự nhiên |
---|
Điện toán khả vi |
---|