Trong thời gian gần đây, chất lượng hình ảnh trên TV đã vượt xa chuẩn 'độ nét cao' (HD) - ngày nay, tiêu chuẩn mới là 'độ nét siêu cao' (UHD).
Dù phần cứng hiện đại đã hỗ trợ cả nội dung 4K và 8K, nhưng mới chỉ gần đây, người ta bắt đầu sản xuất nội dung theo chuẩn chất lượng 8K. Vì vậy, để tận dụng chuẩn độ nét siêu cao này, công nghệ nâng cấp hình ảnh (upscale) trở thành giải pháp hàng đầu cho người tiêu dùng.
Bạn không cần những video quay ở độ phân giải 7680 x 4320 - TV 8K của Samsung sử dụng trí tuệ nhân tạo để nâng cấp mọi loại video (từ SD đến 4K và mọi thứ nằm giữa) lên độ phân giải 8K.
Upscale không phải là điều mới. Trong nhiều năm, các TV 4K và thậm chí cả HD đã sử dụng nhiều phương pháp upscale để tối ưu hóa hiển thị. Nhưng do lượng điểm ảnh trên TV 8K gấp nhiều lần so với TV 4K, nên các phương thức upscale truyền thống không còn hiệu quả.
Vì sao upscale truyền thống làm hình ảnh tệ đi
Trước năm 1998, các đài truyền hình phát sóng ở độ phân giải 720 x 480, điều này khiến nội dung chất lượng cao bị nén lại. Với số lượng điểm ảnh ít trên TV hiện đại, nội dung SD phải được kéo dãn lên hàng triệu điểm ảnh nếu upscale lên HD, 4K, hay 8K.
Nguyên lý cơ bản của việc nâng cấp hình ảnh là duy trì tỉ lệ điểm ảnh phù hợp bằng cách phóng to chúng lên. Để chuyển từ HD lên 4K, TV phải làm 'phồng' một điểm ảnh HD thành bốn điểm ảnh trên màn hình 4K. Hoặc là 16 điểm ảnh nếu chuyển từ HD lên 8K.
Nếu không có quá trình xử lý hình ảnh, kết quả cuối cùng sẽ 'giống như một miếng bơ nhỏ bị trét lên một lát bánh mì lớn'. Mỗi mẩu dữ liệu sẽ biến thành một mẩu hình vuông không tự nhiên, không có sự chuyển tiếp màu sắc tự nhiên giữa các chi tiết. Hình ảnh thu được sẽ có rất nhiều khối vuông hoặc nhiễu xung quanh các vật thể trên màn hình.

Bạn cũng có thể gặp phải hiện tượng 'nhiễu muỗi'. Để nén video sao cho phù hợp với băng thông internet hạn chế, các nhà đài và website thường sử dụng các mảng màu thô, hay 'artifact'. Các điểm ảnh thô được thêm vào một cách cố ý sẽ xuất hiện quanh các vùng màn hình có độ tương phản cao, chẳng hạn như một chiếc cầu màu nâu trước bầu trời xanh trong bức ảnh.
Giải pháp cho việc nâng cấp hình ảnh
Để giải quyết những vấn đề trên, các nhà phát triển TV đã dạy TV của họ phân tích và xử lý hình ảnh số hóa trong thời gian thực nhằm điều chỉnh hoặc thêm vào các điểm ảnh bị thiếu. Và họ đã làm điều này bằng cách áp dụng các hàm toán học - ai dám nói rằng xem TV quá nhiều sẽ khiến não bị nhàm chán?
Cụ thể, các kỹ sư đã dạy vi xử lý của TV phân tích màu sắc của từng điểm ảnh bị thiếu, dựa trên các điểm ảnh xung quanh. Để làm điều này, nó phải xác định một hàm gọi là 'kernel': hàm có nhiệm vụ gán màu cho các điểm ảnh kề cận của điểm ảnh bị thiếu, dựa trên thông tin lân cận của chúng.
Hàm kernel cơ bản nhất được sử dụng trong TV là hàm kernel của điểm ảnh kề cận nhất, trong đó vi xử lý xác định điểm ảnh gần nhất và gán màu của nó vào điểm ảnh trống đó. Phương pháp này khiến hình ảnh trở nên không mượt mà, với phần viền của các vật thể trông rất tồi tệ. Hãy tưởng tượng một ký tự 'A' màu đen trên một màn hình trắng; một điểm ảnh bị thiếu nằm ngay bên ngoài ký tự có thể được gán màu đen vào, trong khi một điểm ảnh ở rìa của ký tự có thể hiển thị màu trắng. Kết quả có thể là một vùng xám xịt xung quanh ký tự, hoặc là một bậc thang hai màu trắng - đen không đồng đều.
Nội suy bilinear đòi hỏi nhiều sức mạnh xử lý hơn, nhưng hiệu quả hơn. Trong phương pháp này, điểm ảnh trống được so sánh với hai điểm ảnh kề cận gần nhất để tạo ra một gradient tuyến tính giữa chúng, làm cho hình ảnh sắc nét hơn. Kết quả là hình ảnh mượt mà hơn, nhưng có thể không nhất quán. Do đó, các TV khác sử dụng nội suy bicubic, trong đó lấy giá trị màu của 16 điểm ảnh gần nhất ở tất cả các hướng. Mặc dù phương pháp này có thể thu được màu sắc gần chính xác nhất có thể, nhưng nó cho ra hình ảnh mờ nhòe hơn, với rìa các vật thể bị hiệu ứng quầng sáng gây mất tập trung.

Biểu đồ cho thấy quy trình tính toán một điểm ảnh trống (P) dựa trên nội suy bilinear
Tới đây bạn có thể hiểu được vấn đề: các TV trước đây lấp đầy các điểm ảnh dựa trên các công thức toán học mà theo thống kê có khả năng cho ra kết quả chính xác nhất, nhưng không có cách nào để biết chúng lẽ ra phải trông như thế nào dựa trên những gì thực sự đang ở trên màn hình.
Tại Samsung, các kỹ sư đã đề xuất một giải pháp cho mọi vấn đề trên: sử dụng trí tuệ nhân tạo (AI), học máy (machine learning), và học sâu (deep learning) để nâng cấp hình ảnh lên 8K.
Bí mật của Samsung: học máy, nhận dạng vật thể, và các bộ lọc
Vũ khí bí mật của Samsung là một kỹ thuật được gọi là học máy siêu phân giải (MLSR). Hệ thống AI này nhận vào một luồng video độ phân giải thấp và nâng cấp nó lên sao cho phù hợp với độ phân giải của màn hình lớn hơn với tỉ lệ PPI cao hơn. Nó giống như một 'mánh khóe' bạn thường thấy trong phim: các nhà khoa học làm to và tăng cường độ chi tiết của một bức ảnh mờ nhòe chỉ bằng một cú nhấn nút - trừ việc kỹ thuật của Samsung được thực hiện một cách tự động và gần như tức thì.
Đại diện của Samsung đã giải thích cách họ có thể phân tích một lượng lớn nội dung video từ nhiều nguồn khác nhau - video YouTube chất lượng thấp và cao, DVD và Bluray, phim và các sự kiện thể thao - và tạo ra hai cơ sở dữ liệu hình ảnh, một dành cho hình ảnh chất lượng thấp và một dành cho chất lượng cao.
Tiếp theo, hãng đã huấn luyện trí tuệ nhân tạo để hoàn thiện một quy trình gọi là 'suy thoái nghịch đảo'. Đầu tiên, họ giảm độ phân giải của các bức ảnh cao xuống độ phân giải thấp, theo dõi dữ liệu hình ảnh bị mất. Sau đó, họ đảo ngược quy trình và huấn luyện trí tuệ nhân tạo để lấp đầy các dữ liệu bị mất từ các bức ảnh độ phân giải thấp để phản ánh chúng trở lại trong các bức ảnh độ phân giải cao. Loại học máy này được gọi là 'tự học có hướng dẫn'.

Nhóm của Samsung gọi quy trình này là một 'công thức'. Các vi xử lý 8K của họ chứa một bộ công thức với một cơ sở dữ liệu các công thức dành cho các vật thể khác nhau, như một quả táo hay ký tự 'A'. Khi vi xử lý nhận dạng một quả táo mờ trong bàn tay của một diễn viên, nó sẽ khôi phục các rìa của quả táo, sửa bất kỳ artifact nén nào xuất hiện, và đảm bảo các điểm ảnh trống có sắc thái đỏ phù hợp dựa trên màu sắc của quả táo thực tế, chứ không phải dựa trên các thuật toán thống kê mơ hồ. Ngoài ra, bên cạnh việc khôi phục vật thể cụ thể, trí tuệ nhân tạo còn điều chỉnh nội dung của bạn dựa trên bất kỳ thứ gì bạn đang xem.
Theo Samsung, họ có hàng chục 'bộ lọc' khác nhau có khả năng thay đổi mức độ chi tiết, giảm nhiễu, và khôi phục vùng rìa sao cho phù hợp với nội dung đưa vào, dựa trên thể loại bạn đang xem như một môn thể thao cụ thể, một dòng phim, hay một loại điện ảnh nào đó.
Khôi phục vùng rìa không phải là nhiệm vụ khó khăn nhất đối với trí tuệ nhân tạo. Nhưng việc tái tạo họa tiết của một vật thể trong thời gian thực mới là một thách thức khó khăn. Các kỹ sư Samsung cần đảm bảo rằng vi xử lý tăng cường được vẻ ngoài của các vật thể mà không khiến chúng trở nên nhân tạo.
Vi xử lý không làm thay đổi loại vật thể. 'Nó sẽ không chuyển đổi một quả táo thành một trái cà chua' – một kỹ sư nói. Rất có thể vi xử lý được huấn luyện để tránh thực hiện bất kỳ sự thay đổi lớn nào nếu nó không nhận dạng được vật thể đó là gì.
Trí tuệ nhân tạo cũng không thay đổi 'ý đồ của đạo diễn' trong một bộ phim. Tức là nếu đạo diễn sử dụng hiệu ứng bokeh, hậu cảnh sẽ vẫn mờ mờ, trong khi độ sắc nét của tiền cảnh được đẩy lên đến 8K.
Họ cũng không phân tích cụ thể các nội dung phổ biến để phục vụ việc danh mục hóa vật thể, mục tiêu là chất lượng tổng thể và sự đa dạng của nội dung. Vì vậy, có vẻ như Samsung không có công thức 'rồng' hoặc 'sói' cho loạt phim 'Game of Thrones' của bạn đâu.
Các TV 8K (và 4K) mới của Samsung đã được tích hợp sẵn với bộ công thức mới nhất, và thông qua các cập nhật firmware, dữ liệu vật thể mới sẽ được thêm vào mà không cần sự can thiệp của người dùng.
Bạn có bao nhiêu công thức vật thể mà Samsung đã tích luỹ được từ quá trình phân tích? Một kỹ sư đã tiết lộ con số ấn tượng, giải thích rằng vi xử lý thường nhận dạng được nhiều vật thể trên màn hình. Tuy nhiên, người dùng có thể không cần biết đến con số đó, mà hãy tập trung vào hiệu suất của MLSR trong quá trình hoạt động!
Nâng cao trải nghiệm với deep learning
Không ngừng đổi mới sau thành công, Samsung tiếp tục đầu tư vào việc phát triển các thuật toán deep learning để màn hình luôn hiển thị video với chất lượng tốt nhất mà không cần sự can thiệp của con người. Deep learning (học sâu) là phương pháp tự học sâu hơn trong machine learning, giúp AI xử lý thông tin chuyên biệt từ khối lượng lớn dữ liệu được cung cấp, từ đó đưa ra những dự đoán phức tạp dựa trên quy trình xử lý nhiều giai đoạn; và điều này đòi hỏi phần cứng mạnh mẽ hơn.
Các kỹ sư của Samsung cho biết: 'Deep learning cho phép thực hiện những cải tiến chính xác và hiệu quả hơn về chất lượng hình ảnh so với trước đây'. Họ đã giới thiệu một công nghệ upscale mới, kết hợp machine learning với deep learning - AI Quantum Processor 8K. 'Công nghệ machine learning trước đây đã cải thiện chất lượng hình ảnh, nhưng công nghệ của chúng tôi có thể tạo ra cấu trúc tinh tế hơn. Hình ảnh với các chi tiết phức tạp, như cảnh núi hay đồng cỏ, bây giờ có thể được upscale lên 8K một cách tự nhiên hơn nhiều'.
Mặc dù deep learning có tiềm năng vô hạn, vẫn có nhiều thách thức phải vượt qua. Samsung đã thử nghiệm nhiều lần để hoàn thiện công nghệ và chuẩn bị ra mắt nó. 'Rất khó để chúng tôi theo dõi và hiểu thuật toán do mạng thần kinh nhân tạo của vi xử lý phát triển ra. Mức tiêu thụ điện năng của chip phần cứng là vấn đề chúng tôi phải giải quyết'.
Samsung dẫn đầu các đối thủ với công nghệ upscale 8K tiên tiến
Samsung không phải là nhà sản xuất TV duy nhất áp dụng AI và kỹ thuật phục hình ảnh trên TV của mình.
Các dòng TV 4K của Sony cũng được trang bị vi xử lý với cơ sở dữ liệu kép gồm hàng chục ngàn hình ảnh tham khảo, có khả năng 'cải thiện điểm ảnh linh hoạt trong thời gian thực'.
LG đã giới thiệu chip TV a9 Gen 2 tại CES 2019, với công nghệ xử lý hình ảnh và machine learning để cải thiện khả năng giảm nhiễu và tăng độ sáng - một phần thông qua phân tích nguồn và loại nội dung, sau đó điều chỉnh thuật toán cho phù hợp.
Tuy nhiên, ngoài yếu tố AI, các vi xử lý nêu trên vẫn chỉ sử dụng machine learning để nâng cao chất lượng hình ảnh. Trong khi các TV QLED 8K mới nhất của Samsung đã bước tiến xa hơn, kết hợp thêm deep learning để mang lại video siêu chân thực, bất kể chất lượng và độ phân giải gốc của chúng là như thế nào.