Trí tuệ Nhân tạo Tạo Nên Phép Màu: Phim Cổ Kích Nhìn Như Mới | MYTOUR

Vào ngày 14 tháng 4, 1906, những người anh em Miles rời khỏi studio của họ trên đường Market ở San Francisco, lên xe cáp và bắt đầu quay phim cho những gì sau này sẽ trở thành một bộ phim ngắn biểu tượng. Mang tên A Trip Down Market Street, đó là một tài liệu thú vị về cuộc sống vào thời điểm đó: Khi xe cáp di chuyển chậm rãi, những người anh em hướng máy quay của họ thẳng về phía trước, ghi lại những người phụ nữ đội mũ Victoriana hoa lá ngoạn mục khi họ vội vã băng qua đường sắt. Một cảnh sát đi dạo qua với cây gậy. Những đứa trẻ bán báo chào bán hàng của họ. Những chiếc ô tô sớm đánh lái qua trước mặt xe cáp, một số trong số đó là xe mở, để chúng ta có thể nhìn thấy lái xe trong xe nhảy lên. Sau gần một chục phút, những người làm phim đến nơi quay trở trước tòa nhà Ferry, chiếc đồng hồ cao chọc trời của nó đã ngừng chạy lúc 5:12 sáng chỉ bốn ngày sau khi một trận động đất lớn và hỏa hoạn kết quả gần như làm mất San Francisco.
Well over a century later, an artificial intelligence geek named Denis Shiryaev has transformed A Trip Down Market Street into something even more magical. Using a variety of publicly available algorithms, Shiryaev colorized and sharpened the film to 4K resolution (that’s 3,840 horizontal pixels by 2,160 vertical pixels) and bumped the choppy frame rate up to 60 frames per second, a process known as frame interpolation. The resulting movie is mesmerizing. We can finally see vibrant colors on those flamboyant Victorian hats. We can see the puckish looks on those newsboys’ faces. And perhaps most importantly, we can see in unprecedented detail the … byproducts that horses had left on the ground along the cable car’s tracks.
Và Shiryaev—giám đốc sản phẩm của công ty Neural.love, cung cấp các cải tiến video được động viên bằng trí tuệ nhân tạo cho các khách hàng—không dừng lại ở San Francisco năm 1906. Anh ta đã sử dụng cây đũa thần kỳ trí tuệ nhân tạo của mình trên một bộ phim lịch sử khác, bộ phim ngắn của anh em Lumière năm 1895 về một chuyến tàu vào ga và làm tràn hành khách ra nền nhà ga. Bạn cũng có thể thực hiện một chuyến du lịch qua New York City năm 1911, hoặc tham gia cùng phi hành gia của Apollo 16 khi họ lái xe di chuyển trên mặt trăng vào năm 1972. Tất cả các bộ phim được trang trí với độ rõ nét đáng kinh ngạc, mang lại cho chúng ta, những người hiện đại, một cái nhìn quyến rũ vào cuộc sống ngày xưa.
Để rõ ràng, bạn không thể gọi những thứ này là phục hồi của các bộ phim, vì các thuật toán không chỉ loại bỏ những khuyết điểm—thực sự chúng đang điền vào xấp xỉ dữ liệu bị thiếu từ những bộ phim cũ, mờ, có tốc độ khung hình thấp. Đơn giản là, các thuật toán đang tạo ra những điều dựa trên việc huấn luyện trước đó. Ví dụ, thuật toán DeOldify, xử lý việc tô màu, đã được huấn luyện trên hơn 14 triệu hình ảnh để xây dựng sự hiểu biết về cách các đối tượng trong thế giới thường được tô màu. Sau đó, nó có thể áp dụng kiến thức đó vào những bộ phim đen trắng cũ, tô điều cũ bằng những gam màu sống động. “Điều này quan trọng,” Shiryaev nói. “Chúng tôi gọi nó là một tăng cường, vì chúng tôi đang huấn luyện mạng nơ-ron. Và khi mạng nơ-ron vẽ lại hình ảnh, đó là việc thêm một lớp dữ liệu mới.”
“Vì vậy, tô màu là tăng cường,” anh thêm. “Nâng cấp độ phân giải là một sự tăng cường. Ghép khung hình là một sự tăng cường.” Shiryaev cũng loại bỏ nhiễu hình ảnh—những chớp nhấp và đường đen thoáng qua màn hình—và có thể điều đó có thể được coi là một phục hồi. Nhưng những người bảo quản phim có thể chế giễu ý tưởng về phần còn lại của phép màu Trí tuệ Nhân tạo của Shiryaev là một loại phục hồi, vì nó đặt thêm vào nhiều dữ liệu phụ, và phần lớn dữ liệu đó là đoán làm máy học, điều không nhất thiết là lịch sử hoàn hảo. “Chúng tôi không muốn tranh cãi với những người từ kho lưu trữ,” Shiryaev nói. “Chúng tôi rất trân trọng công việc của họ.”
Hãy cùng đi sâu vào từng cải tiến một. Thuật toán tô màu DeOldify học cách nhận diện các đối tượng cụ thể—cây cỏ, những người mặc những bộ quần áo khác nhau—từ quá trình đào tạo mạng nơ-ron. Nó học cách màu sắc thường tương ứng với từng đối tượng, vì vậy khi nhận diện chúng trong một bộ phim đen trắng lịch sử, nó có thể đoán được màu chúng có thể đã có. Tuy thuật toán không hoàn hảo: Nó chỉ có thể phân biệt màu của các đối tượng mà nó đã thấy nhiều lần trong quá trình đào tạo. “Chúng tôi đôi khi gặp vấn đề khó khăn với cờ,” nói Shiryaev, "vì nó không được đào tạo để làm điều đó.”
Kế tiếp là quá trình nâng cao độ phân giải. Thuật toán này học từ một mạng nơ-ron được đào tạo trên cặp hình ảnh, một hình ảnh chất lượng cao và một hình ảnh chất lượng thấp. “Mạng nơ-ron đang cố gắng làm cho phiên bản chất lượng thấp của hình ảnh này trông giống hệt như phiên bản lớn hơn của hình ảnh này,” nói Shiryaev. Sau khi học được các mẫu cho phép nó chuyển đổi một phần cụ thể của hình ảnh độ phân giải thấp thành phiên bản rõ ràng hơn, khi thuật toán nhìn vào một bộ phim lịch sử độ phân giải thấp, nó có thể nâng cấp nó lên độ phân giải cao bằng cách phân tích các pixel. Ví dụ, Shiryaev thêm, “Bạn có một pixel sáng ở đây, một pixel sáng ở đây và một pixel tối ở giữa. Điều đó có nghĩa là bạn biết cách vẽ lại nó lớn gấp bốn lần.”
Thuật toán tạo khung hình trung gian được đào tạo trên cơ sở dữ liệu video và học quan hệ giữa một khung hình cụ thể và khung hình tiếp theo. Từ đó, nó thu thập các mẫu về cách các đối tượng như con người và ô tô thường thay đổi vị trí từ một khung hình sang khung hình tiếp theo. “Chúng tôi muốn cung cấp cho mô hình thấy càng nhiều mẫu càng tốt, để khi bạn đã thấy một điều gì đó giống như thế trước đây, bạn có thể sử dụng thông tin tương tự,” nói Ming-Hsuan Yang, một nhà khoa học máy tính tại Đại học California tại Merced. Yang phát triển thuật toán mà Shiryaev sử dụng, có tên là Depth-Aware Video Frame Interpolation, hoặc DAIN. “Bạn có thể nghĩ về đó như là một bộ nhớ ảnh,” ông nói.
Khi bạn trình bày thuật toán DAIN cho một video lịch sử như A Trip Down Market Street, mà Prelinger Archives ở San Francisco quét ở tốc độ 16 khung hình mỗi giây, hệ thống nhìn vào một khung hình và sau đó đoán khung hình tiếp theo nên là gì. Nó sẽ tạo ra các khung hình mới để đi giữa các khung hình gốc, ước lượng vị trí các đối tượng sẽ được đặt ở những khung hình trung gian đó. Thuật toán làm điều này lặp đi lặp lại cho đến khi đạt được 60 khung hình mỗi giây, vì vậy bây giờ khi bạn chạy lại tất cả, nó trông như ai cũng di chuyển xung quanh mượt mà hơn nhiều.
Thuật toán của Yang cũng có thể lấy một bộ phim hiện đại và nâng cấp nó từ 30 khung hình mỗi giây lên đến 480 khung hình mỗi giây. Ông có thể làm chậm nó đi 16 lần và vẫn chạy mượt mà, trong khi nếu ông đã làm điều tương tự với một bộ phim được quay ở 30 khung hình mỗi giây, nó sẽ rất giựt giựt. Chỉ có quá ít khung hình để làm việc.
Càng đáng kinh ngạc hơn nữa, hệ thống của Shiryaev có thể tạo ra các khuôn mặt rõ ràng từ những dáng mặt giống như dáng mặt không rõ ràng. Chất lượng của video gốc dưới đây, được quay vào khoảng những năm 1910 tại Tokyo, thì đặc biệt tệ—đôi khi khuôn mặt quá mờ để nhận biết. Ở đây, một mạng nơ-ron được đào tạo trên cơ sở dữ liệu của các khuôn mặt đoán cách một khuôn mặt mờ nên được vẽ, dựa trên kiến thức của nó về cách các pixel trên một khuôn mặt thường được sắp xếp. “Nhưng chúng ta không thể nói rằng điều này là chính xác và rằng khuôn mặt trông giống như nó đã là 100 năm trước,” Shiryaev nói.
Ở đây, chúng ta bắt đầu bước vào lãnh địa phức tạp. Như việc tô màu và nâng cấp độ phân giải, một thuật toán điền vào chi tiết của khuôn mặt người đang thêm dữ liệu vào bộ phim và một cách nào đó làm giả tưởng về quá khứ. Những thay đổi như vậy đối với bản ghi lịch sử khiến một số nhà lưu trữ không hài lòng, theo Rick Prelinger, người sáng lập Prelinger Archives, nơi tập hợp video của người nghiệp dư và các bộ phim “ngắn hạn” khác như quảng cáo kiểu cũ và phim giáo dục. Người thuần khiết thích giữ nguyên những bộ phim cũ như những hiện vật, bất kể chất lượng, và không muốn chúng phải chịu sự thay đổi của trí tuệ nhân tạo.
Chính Prelinger cũng không gặp vấn đề với điều này. “Nếu ai đó tạo ra một sự kết hợp của bức tranh The Scream của Munch hoặc nếu Duchamp vẽ một nấc ở trên Mona Lisa, đó là trang trí, đó là chú thích, đó là một bản remix,” ông nói. “Và chúng ta nên tự do để làm remix.”
Tuy nhiên, khi nói đến những cập nhật của Shirayaev trên những bộ phim lịch sử của những người anh em Mills và Lumiere, “Tôi không biết họ thêm vào đó nhiều lắm,” Prelinger thêm. “Nhưng đó là hư cấu, đưa hình ảnh lưu trữ vào thung lũng kỳ ảo, nơi chúng ta không còn có một cái nhìn nào về điều gì là thực và điều gì không là thực.” Ông nói, điều này có thể tạo ra ấn tượng sai lệch cho người xem rằng tất cả bộ phim lịch sử nên trông rõ ràng và sặc sỡ như vậy, trong khi thực tế, các nhà làm phim thời kỳ đầu thế kỷ 20 đang làm việc với thiết bị nguyên thủy. Và, tất nhiên, thời gian thường không thân thiện với chính bộ phim, nó suy giảm theo thời gian 100 năm. Đó cũng là lịch sử—chất lượng của bộ phim nói lên cách nó đã được quay—một lịch sử mà người thuần khiết cho rằng nên được bảo tồn, không “cải tiến” với dữ liệu mới.
Nhưng hãy tiến xa và đắm chìm sâu vào cái hang tư duy triết học này. Các cải tiến của Shiryaev làm cho một số khía cạnh của một cảnh quay trở nên hư cấu và không thể biết được sau một thế kỷ kể từ khi bộ phim được quay. Ví dụ, chúng ta không thể chắc chắn rằng trí tuệ nhân tạo đã làm đúng màu cho những chiếc mũ Victoria kia. Kết quả là đẹp, nhưng tất nhiên không hoàn hảo. Nhưng liệu bộ phim đen trắng giựt giựt A Trip Down Market Street không hoàn hảo chính là nó không? Thế giới ngày xưa tồn tại trong màu sắc, và người và xe cộ di chuyển mượt mà qua đó. Vậy, cuối cùng, bộ phim nào là một biểu tượng trung thực hơn về cảnh đó: bản gốc hay phiên bản của Shiryaev?
Và một cách nào đó, những cải tiến của trí tuệ nhân tạo này đang tiếp tục một truyền thống từ thời kỳ của phim câm. Lúc đó, trải nghiệm của mỗi người xem sẽ là duy nhất. Những người quản lý rạp chiếu phim khác nhau thuê các nhạc công riêng của họ để chơi theo bộ phim. Những nhạc công này thường chỉ tự tưởng tượng, cho đến khi ngành công nghiệp phim bắt đầu chuẩn hóa điểm số của nhạc công, bắt đầu từ năm 1908. Âm nhạc thêm vào sự kịch tính và giúp làm giảm tiếng ồn của máy chiếu—và đó có lẽ đã làm tăng cường bộ phim chứ không phải không phải sao? Và mỗi nhạc công tự tưởng tượng có thêm vào trải nghiệm của khán giả rạp phim của họ phải không? Shiryaev đang làm điều tương tự, làm mới lại những bộ phim cũ theo tầm nhìn của mình (hoặc thực sự là tầm nhìn của trí tuệ nhân tạo) về cuộc sống thực sự trong thế kỷ 20 đầu tiên. “Người ta thường nói như thế, ‘Đó là gần nhất mà bạn có thể có được một trải nghiệm du hành thời gian,’” Shiryaev nói.
Và nói về điều đó. Những nhà làm phim thường xuyên sửa đổi góc nhìn của một cảnh để đưa chúng ta đến một thời đại khác. “Nhớ trong Spinal Tap,” Prelinger hỏi, “khi họ quay lại và nói về cách nó trước đây giống như một nhóm skiffle Liverpool, và sau đó là một nhóm siêu thực, và họ làm cho các video trông chính xác như chúng đã trông vào lúc đó? Đó là một phần của niềm vui.”
Không có lý do gì, thêm vào đó, theo Prelinger, mà các bộ phim lịch sử ở dạng nguyên bản không thể chung sống với những phiên bản được cải tiến. “Tôi nghĩ có điều gì đó tuyệt vời khi sao chép hình ảnh chính xác như nó hiện đang tồn tại,” ông nói. “Nhưng tôi không phản đối việc ai đó biến nó thành giải trí. Nó làm cho mọi người nhận thức được việc rằng những thứ này đang tồn tại.”
- TikTok và sự tiến hoá của khuôn mặt số
- Các nhà khoa học Mỹ đã cứu London khỏi máy bay không người lái của Đức Quốc xã
- Mẹo về lên lịch và nấu ăn cho bữa ăn gia đình trong thời gian giãn cách xã hội
- Chế độ ẩn danh có thể không hoạt động như bạn nghĩ
- Thuật toán này không thay thế bác sĩ—nó làm cho họ trở nên xuất sắc hơn
- 🎙️ Nghe Get MYTOUR, podcast mới của chúng tôi về cách tương lai được hiện thực hóa. Theo dõi các tập mới nhất và đăng ký nhận 📩 bản tin để cập nhật với tất cả các chương trình của chúng tôi
- 🏃🏽♀️ Muốn có những công cụ tốt nhất để duy trì sức khỏe? Hãy kiểm tra chọn lựa của đội ngũ Gear chúng tôi cho các tracker sức khỏe tốt nhất, đồ dùng chạy (bao gồm giày và tất), và tai nghe tốt nhất