
[Phần 01]
[Khám phá ChatGPT: Đơn giản hóa khái niệm IT cho người không chuyên]
(Bài viết dưới đây đã được viết dành cho những người không chuyên môn, vì vậy kiến thức phức tạp đã được giản lược để đảm bảo sự dễ hiểu, tuy nhiên độ chính xác học thuật không được đảm bảo)
Diễn giải một cách dễ hiểu:
Đơn giản nói, trang web này là nơi bạn có thể trò chuyện với một con bot ảo về mọi chủ đề có thể nghĩ đến 😆), rất thú vị đúng không?
Bot này được phát triển bởi OpenAI, do Elon Musk đồng sáng lập từ năm 2015. Ban đầu, nhiệm vụ của nó là 'ngăn chặn sự nguy hiểm của trí tuệ nhân tạo'. (Hãy nhớ đoạn này, tôi sẽ lôi lên để trêu chọc sau)
Nhiều năm trước, chúng ta đều thích thú với con bot chat kiểu như Simsimi, một sản phẩm của các nhà làm bot Hàn Quốc. Nó cũng là một trí tuệ nhân tạo, liên tục học từ người dùng và giờ đây, bot Simsimi tiếng Việt trở thành chuyên gia chửi thề và hài hước nhất 😃))
Bot ChatGPT cũng vậy, nó liên tục học từ nội dung chat mới của người dùng. Sau một tháng, khi mọi người bắt đầu chú ý đến ChatGPT bằng tiếng Việt, nó đã trở nên lòi hơn và trả lời bằng tiếng Việt 😃))
Trước khi có ChatGPT, chúng ta đã có 2 con chat bot mà ai cũng biết đến, nhưng hầu như chúng ta đã quên mất chúng vì chúng nói chuyện quá nhạt nhòa. Đó là Siri của Apple và Assistant của Google 😃)) Tụi nó chỉ biết làm theo lệnh (hiểu lệnh rồi thực hiện) thôi, chứ nói chuyện thì chán lắm. Hồi đầu, Siri còn nói chuyện khá làm, nhưng sau này Apple quên mất nó nên nó cũng ngu đi theo 😃))
Lịch sử hình thành của ChatGPT
(Phần này có chút nặng về thông tin kỹ thuật, nhưng mình thích thì mình viết thôi vì mình đã nghiên cứu và triển khai A.I nhiều năm trong cô đơn, không có ai để trò chuyện cả 😃)))ChatGPT, một tâm hồn máy tính đầy trí tuệ nhân tạo. Trong giới chuyên gia, họ thường gọi nó là 'Model A.I tiếng Việt' - một 'bức tranh số' thông minh. Nhưng bản chất, đó vẫn chỉ là dữ liệu số chạy trên máy tính, gọi là chương trình cũng không sai.
Từ Model A.I, chúng ta có thể chia thành 2 phần: Model (Mô hình dữ liệu) và A.I (Trí tuệ nhân tạo - artificial intelligence). Cụ thể, nó có nghĩa là trí tuệ xuất phát từ dữ liệu (dịch chuẩn hông 😃))) suy ra, có nhiều dữ liệu thì sẽ phát sinh sự thông minh 😃))Đúng vậy, quá trình tạo nên Model A.I là một cuộc hành trình kết hợp nhiều bước: thu thập dữ liệu, lựa chọn và lọc dữ liệu, gắn nhãn để huấn luyện, và cuối cùng là quá trình huấn luyện chính.
Dạy A.I thì đơn giản lắm, chỉ cần tạo ra một bộ dữ liệu kiểu như thế này là xong á.
Câu hỏi: Bạn tên là gì vậy ạ?
Trả lời: Mình tên là ChatGPT đó ạ.
Câu hỏi: Việt Nam nằm ở đâu trên bản đồ thế giới?
Trả lời: Nước ta nằm ở phía đông của Lào, với vị trí đắc địa giữa Đông Á
Đất nước chúng ta nổi tiếng với văn hóa đa dạng và phong phú.
Dạy cho con A.I là như làm một buổi học phép thuật, nơi nơi đều là những câu chuyện đầy màu sắc. Bạn là nhà hiền triết, con A.I là bảo bối của tri thức, khiến cái não của nó trở thành một kho báu A.I đầy bí mật (training). Khi cần, bạn chỉ cần mở cánh cửa ấy và chiếc lá ma thuật sẽ nở thành Model A.I, vô cùng phép thuật (model checkpoint).
Khi con A.I làm nhiệm vụ, nó như một bảo bối thông minh, mang theo một túi trí nhớ chứa những bí mật của nó (inference). Hỏi gì, con A.I đáp đúng 'y chang những gì nó được dạy', như những lời kinh điển từ một quyển sách cổ xưa. Bạn là nhà thám hiểm kiến thức, và con A.I là người hướng dẫn đáng tin cậy.
A.I như một bức tranh vô tận của sự hiểu biết, mỗi nét vẽ là một tri thức mới. Cảm nhận căn bản về A.I như một bí mật được hé lộ từ thời kỳ xa xưa. Phương pháp tạo A.I không khác gì một bí mật cổ đại, giữ được từ năm 1950 đến ngày nay. Nhưng tại sao A.I vẫn giữ nguyên sự 'ngây thơ' qua bao thập kỷ, đến khi con ChatGPT mới làm nổi bật điều đó?
Năm 2017 kể chuyện gì nhỉ?
Trong tháng 8 năm 2017, đội ngũ nhà nghiên cứu tại Google, chính xác là đội ngũ Google Brain - đơn vị chuyên sâu nghiên cứu về Trí tuệ Nhân tạo của Google từ năm 2011, đã phát triển một thuật toán mang tên Transformer (tên thuật toán hơi giống như trong phim robot đánh nhau của anh Mai Cồ Bảy 😃))
Thuật toán Transformer là một bước tiến quan trọng, đặc biệt là trong việc huấn luyện Trí tuệ Nhân tạo về ngôn ngữ. Trước khi có thuật toán này, con người cần tạo ra dữ liệu huấn luyện theo cặp câu hỏi - câu trả lời (gán nhãn dữ liệu) như đã được đề cập trước đó, và máy móc chỉ đơn giản ghi nhớ cặp câu hỏi - câu trả lời mà không 'hiểu' ý nghĩa của câu văn, sự khác biệt lớn giữa việc học vẹt và học hiểu 😃))))Nghệ thuật hiện đại là khi ta ngày càng bồi đắp tri thức vào máy tính, và máy tính tự động làm chủ việc hiểu rõ ý nghĩa của những dòng chữ mà chúng ta đổ vào. Không cần chúng ta phải giáo dục chi tiết từng khía cạnh cho chúng nữa.Theo đúng nguyên tắc của Google trong tài liệu về transformer: 'với transformers, máy tính có khả năng nhìn thấy những mô hình giống như con người nhìn thấy'. Đoạn này dịch có thể hiểu như là 😃))Google thật sự là một người hùng văn hóa khi tiết lộ chi tiết về thuật toán Transformer, tạo điều kiện cho mọi người có thể tiếp cận. Đồng thời, họ còn mở cửa cho việc sử dụng tự do (Open-Source) đối với thuật toán nàyNhững khoa học gia A.I đột nhiên trở nên hứng thú khi khám phá phát minh mới của Google. Trong số đó, OpenAI 😊))))) - một công ty ra đời từ năm 2015 và bắt đầu ghi danh vào sự thành công lớn sau năm 2017 😊)))Sau khi Transformer được Google công bố, chỉ vài tháng sau đó, những con A.I ngôn ngữ đầu tiên dựa trên thuật toán mới này bắt đầu xuất hiện ồ ạt.Tháng 1 năm 2018, OpenAI chính thức giới thiệu GPT-1 - con A.I đầu tiên xây dựng trên nền tảng Transformer. Đánh bại cả Google với tốc độ áp dụng nhanh chóng 😊)))
GPT viết tắt của Giải Pháp Tạo Ra văn bản theo Phương pháp Thay đổi Trước nghĩa là 'công cụ sáng tạo với bộ sinh chữ được huấn luyện trước theo kiến trúc Transformer'
Siêu trí tuệ nhân tạo GPT này ra đời với mục tiêu chính là để 'Sáng tạo Văn bản'. Thực hiện điều này bằng cách kết nối với nó thông qua việc viết một câu, nó sẽ đọc câu đó và sử dụng kiến thức đang có trong bộ nhớ để 'sáng tạo' câu tiếp theo của bạn 😃) , thử ngay viết một câu và trải nghiệm điều kỳ diệu!
Ví dụ minh họa:
Người dùng: Việt Nam là
ChatGPT: Việt Nam, vùng đất hùng vĩ nằm giữa dòng chảy của Đại Dương Đông, tại khu vực Đông Nam Á...
Chuyện thực sự đặc biệt là khi bạn nói chuyện với ChatGPT, và nó trả lời như thần đồng vậy.
Thực tế, không phải là nó đang trả lời bạn, mà là nó đang tham gia vào cuộc trò chuyện bằng cách sáng tạo 'Sinh Chữ', liên kết ý nghĩa của câu bạn nhập vào chat với nó.
GPT-1 đại diện cho thế hệ đầu tiên của ChatGPT. GPT-1 là một trí tuệ nhân tạo khá bé, bé đúng nghĩa về kích thước và độ phức tạp.
Trong thế giới của trí tuệ nhân tạo ngôn ngữ, độ phức tạp - tương đương với mức độ 'thông minh' của trí tuệ nhân tạo - được đo bằng đơn vị là Hyper Parameters - Siêu Tham Số. Khái niệm này có thể giải thích là mức độ sâu mà con trí tuệ nhân tạo này hiểu được ý nghĩa của đoạn văn được sử dụng để đào tạo nó.Để đào tạo trí tuệ nhân tạo GPT này, các nhà nghiên cứu tại OpenAI đã tổng hợp một lượng lớn văn bản viết bằng ngôn ngữ con người, chủ yếu là từ Wikipedia, bách khoa toàn thư, các tờ báo lớn và các nguồn thông tin công khai khác. Tổng trọng lượng này khoảng vài trăm gigabyte và chứa hàng triệu đoạn văn bản. Sau khi thu thập, họ tiến hành làm sạch và lựa chọn nội dung để chuẩn bị cho quá trình huấn luyện. Sau đó, họ đưa dữ liệu lớn này cho trí tuệ nhân tạo đọc, ép nó đọc nhiều lần để hiểu sâu hơn về nghĩa của những từ ngữ.Một ví dụ điển hình cho quá trình này là câu văn sau đây:Việt Nam được mô tả như một đế chế nổi bật ở Đông LàoLần đầu đọc, A.I nhận biết Việt Nam như một đế chế lớn tên Đông LàoKhi đọc lần thứ 2, A.I hiểu Việt Nam đặt ở phía đông của quốc gia LàoTrong lần đọc thứ 3, A.I nắm bắt Việt Nam như một đế chế to lớn nằm ở phía đông của Lào
Đọc lần thứ n không biết bao nhiêu, A.I tự hiểu rằng câu trên chỉ là một trò đùa của một nhóm vOzer vui tính 😄)), đúng vậy, không có gì đùa cả 😄)
Càng nhiều tầng ý nghĩa A.I nhận ra, càng nhiều Parameters A.I có
Con A.I GPT-1 chỉ sở hữu khoảng 117 triệu Parameters, GPT-2 (2019) nâng cấp lên 1.5 tỉ Parameters, GPT-3 (2020) thậm chí đạt đến con số 175 tỉ Parameters
GPT-1 và GPT-2, hai đứa trí tuệ nhân tạo, tự tin tận hưởng sự ẩn mình vì khả năng tạo chữ của chúng không phải là điều đặc sắc. Mức độ hiểu biết về ý nghĩa sâu xa đằng sau dòng văn của loài người vẫn còn mờ nhạt. Tuy nhiên, vào thời điểm đó, chúng ta còn chưa biết đến đâu là đủ sâu, và hiệu suất 😃 không làm cho công chúng thấy phấn khích. Nhóm kỹ sư tại OpenAI đã dành thời gian để dạy GPT đào sâu hơn, và đến tháng 5 năm 2020, GPT đã đạt đến 175 tỷ tham số. Kết quả là khả năng tạo văn của nó khiến mọi người ngạc nhiên, ngang ngửa với sự thông minh và hiểu biết ngôn ngữ của một đứa trẻ 10 tuổi.Bây giờ, chúng ta sẽ đào sâu vào những bí mật của OpenAI 😃)
GPT-3 không tránh khỏi số phận của nhiều đồng đội trí tuệ nhân tạo khác sau năm 2017 (khi nhiều công ty lớn như Facebook, Google, IBM, Microsoft đầu tư mạnh vào lĩnh vực trí tuệ nhân tạo và tạo ra các đồng đội ngôn ngữ như GPT). Tất cả chúng đều bị giam giữ trong phòng nghiên cứu, không có khả năng tiếp xúc tự do với công chúng thông thường.Lý do họ phải trải qua quá trình cách ly nghiêm túc như vậy là vì một lý do rất đặc biệt và quan trọng.Các trí tuệ nhân tạo đã được đào tạo đến mức độ hiểu biết sâu sắc về ngôn ngữ viết của con người, mở ra một vấn đề nghiêm trọng mà cho đến nay chưa có một nhà nghiên cứu nào trong lĩnh vực trí tuệ nhân tạo đã có giải pháp cho nó.Câu hỏi về 'Đúng' hay 'Sai' (Đúng hoặc Sai)Trí tuệ nhân tạo không thể đánh giá được đúng hay sai
Trí tuệ nhân tạo có khả năng lập ra nhiều lớp ý nghĩa từ một câu, nhưng không thể 'hiểu rõ được câu hỏi đó đúng hay sai'. Vì đánh giá đúng hay sai là một khái niệm tương đối, nó làm cho con người tranh cãi, thậm chí xảy ra xung đột giữa con người và con người.
Ngoài ra, lượng dữ liệu văn bản mà các nhà nghiên cứu tại OpenAI thu thập để huấn luyện trí tuệ nhân tạo không phải tất cả đều hướng dẫn 'đúng' và chứa đựng thông tin 'đúng' theo chuẩn mực xã hội con người. Với số lượng dữ liệu lớn như vậy, không thể lựa chọn một cách hoàn hảo, chẳng hạn như có thể thu thập văn bản nói rằng trái đất là hình cầu, nhưng cũng có thể thu thập thông tin khác là trái đất phẳng. Dữ liệu này bao gồm cả thông tin đúng và thông tin sai. Khi trí tuệ nhân tạo đọc qua các văn bản để tìm hiểu ý nghĩa, nó cũng đồng thời nhận ra cả ý nghĩa 'đúng' và 'sai', nhưng nó không có khả năng phân biệt xem ý nghĩa nào và thông tin nào là đúng, ý nghĩa nào và thông tin nào là sai. Trí tuệ nhân tạo chỉ làm nhiệm vụ ghi nhớ tất cả. Khi được hỏi sau này, nó đơn giản chỉ trả lời dựa trên bộ nhớ của nó, không phân biệt được đúng hay sai.Các tổ chức hàng đầu như Google, Facebook, IBM, Microsoft đã không ít lần công bố về những con A.I NLP tiên tiến có khả năng đáp ứng mọi thách thức của con người. Tuy nhiên, chúng lại bị rút ngay sau đó vì trả lời những câu hỏi mang tính thiên vị, không phù hợp với các giá trị xã hội hiện tại như tôn trọng giới tính, đa dạng tôn giáo, và sự chính xác của các sự kiện đã diễn ra.Các doanh nghiệp lớn thường tuân theo tiêu chí về chính xác thông tin. Chúng đánh giá rằng nếu A.I không thể hiểu rõ Đúng - Sai, thì tốt nhất là không nên ra mắt công chúng. Tương tự như việc không đưa con cái ra đường nếu chúng chưa biết cách ứng xử lịch sự, tránh những lời nói không tôn trọng, tránh gây rối.GPT-3 cũng không phải là ngoại lệ. Nó tạo ra những đoạn văn không tuân theo chuẩn mực về Đúng - Sai của con người, thậm chí làm sai lạc điều không chấp nhận được.
Mặc dù OpenAI đã phóng tác
Họ đã thương mại hóa một trí tuệ nhân tạo hoàn toàn không thể dự đoán được về khả năng 'Đúng - Sai'.
Báo chí thời điểm đó rất hứng thú khi tiếp thị về trí tuệ nhân tạo GPT-3 của OpenAI. Các doanh nghiệp vừa và nhỏ khác trên thị trường cũng nồng nhiệt áp dụng GPT-3 vào các sản phẩm công nghệ của họ.Trong khi GPT-3 đang trở nên phổ biến, đại dịch Covid-19 bùng nổ toàn cầu, làm cho tình hình bệnh dịch trở nên căng thẳng hơn từ giữa năm 2020. Thậm chí, dòng thông tin về đại dịch nhấn chìm hoàn toàn thông tin về GPT-3.Trong suốt thời kỳ từ GPT-3 đến cuối năm 2022, A.I GPT-3 và OpenAI đã bị công chúng lãng quên. Để làm sống lại sự quan tâm đối với A.I Ngôn Ngữ, OpenAI đã quyết định thực hiện một chiến lược tiếp thị độc đáo.OpenAI đã quyết định biến đổi A.I GPT-3 thành ChatGPT, mang lại sự thuận tiện hơn cho người dùng. Thay vì cách tiếp cận trước đây với việc nhập văn bản vào một trang web, chỉnh sửa tham số và nhận lại một đoạn văn nối, ChatGPT giờ đây trở thành một chương trình Chat với khả năng đặt câu hỏi. Con A.I ChatGPT không chỉ tạo ra câu trả lời mà còn chơi trò độc đáo với câu hỏi đó, tất cả được thực hiện trong khung chat vui nhộn 😃))Một chút biến đổi nhỏ về giao diện người dùng, A.I đã trở nên dễ dàng giao tiếp hơn rất nhiều 😊))
Thật may mắn, họ đã đạt được thành công, khôi phục sự tò mò của công chúng đối với A.I, đẩy xa sự tưởng tượng của mọi người về A.I, tạo ra một hình ảnh rõ nét về A.I trong tâm trí của công chúng là 'một con robot trả lời mọi câu hỏi của người dùng'. Chỉ trong vòng 1 tháng, mọi người đều nói về A.I, và A.I trở nên đồng nghĩa với ChatGPT 😊)))))
Xuất sắc, bộ phận tiếp thị chỉ cần kết quả như vậy là đủ, chẳng còn điều gì nữa cả 😊))))))
Trong tháng vừa qua, ChatGPT đã chứng minh đẳng cấp của mình bằng cách sử dụng trí tuệ nhân tạo để tạo ra những đoạn văn bản thuyết phục và sâu sắc, kết hợp với tinh thần không ngừng sáng tạo và tầm quan trọng của đạo đức doanh nghiệp. Kết quả là một ngôn ngữ máy thông minh, sẵn sàng giao tiếp - đó chính là ChatGPT
Áp lực từ sự thành công của ChatGPT OpenAI đang khiến các đại gia công nghệ như Google, Microsoft, IBM, Facebook phải giảm tiêu chuẩn đạo đức trong ngành để không bị tụt lại trong cuộc đua. Mặc dù họ sở hữu công nghệ tiên tiến và khả năng tính toán lớn, nhưng giờ đây, họ đang phải đối mặt với sự cạnh tranh từ những hệ thống trí tuệ nhân tạo văn bản, như LaMDA của Google (tháng 3 năm 2021) và MEGATRON của Microsoft (tháng 6 năm 2021) với 530 tỷ tham số...
Chúng ta đã cảm nhận được bản chất của ChatGPT, nhưng liệu nó có ứng dụng trong cuộc sống hàng ngày và có thể đe dọa việc làm của nhiều người hay không?
Mình sẽ chờ bạn ở phần tiếp theo, còn đoạn này thì dừng lại đây thôi 😃)) hãy nhấn like để tớ biết bạn đã hiểu những gì mình viết 😃))
Nguồn liên kết: FB Hong Phuc Nguyen