AI mới của Microsoft tạo ảnh giả từ lời nói của bạn

 Đối với mắt tôi, những con chim trông hoàn toàn giống thật. Một con có phần bụng lông tơ màu vàng nhạt. Một con khác, chiếc đuôi màu xanh lá cây rừng, với chiếc mỏ dài trông rất thích hợp để móc bọ ra khỏi vỏ cây. Nhưng những bức ảnh tôi đang xem này hoàn toàn là hư cấu. Chúng là những hình ảnh đến từ trí tưởng tượng của AI mới nhất của Microsoft, được gọi là AttnGAN . Chúng được tạo ra bằng cách gõ một câu vào hệ thống, chẳng hạn như, “con chim này có màu đỏ và trắng với cái mỏ rất ngắn.” AttnGAN sau đó đã tạo ra những bức ảnh 256 x 256 pixel chân thực cao về các loài chim hư cấu từ hư không.


Xiaodong He, trưởng nhóm nghiên cứu của dự án cho biết: “Bốn năm trước, không ai tin có thể làm được điều như vậy.


[Hình ảnh: Nghiên cứu của Microsoft]

Thật vậy, trong 5 năm qua, He đã nghiên cứu về mối quan hệ của hình ảnh và từ ngữ, đào tạo AI để thực hiện tất cả các nhiệm vụ hấp dẫn. Đầu tiên, anh ấy tạo ra một AI có tên là CaptionBot có thể sử dụng từ ngữ để mô tả một bức ảnh - một chút nghiên cứu hiện là một tính năng trợ năng để giúp người khiếm thị sử dụng sản phẩm của Microsoft. Sau đó, ông đã thúc đẩy nghiên cứu đó đi xa hơn, tạo ra một AI có thể trả lời các câu hỏi cụ thể mà bạn có thể hỏi về ảnh.

Giờ đây, với AttnGAN, anh ấy đã “đóng vòng lặp”. Nói cách khác, AI của Microsoft có thể tạo ra hình ảnh từ những từ đơn thuần, mà một AI khác sau đó có thể chú thích.



"Một người đàn ông đang thả diều trên biển cạnh một bãi biển đầy cát." [Hình ảnh: Nghiên cứu của Microsoft]

Cái tên “AttnGAN” xuất phát từ cách nó được tạo ra – điều này đủ dễ hiểu, ở mức độ chung. Các nhà nghiên cứu của Microsoft đã đọ sức hai AI với nhau (đây là phần “GAN”, hay Mạng đối thủ chung). Cả hai đều được đào tạo về ngôn ngữ và các bộ hình ảnh rộng lớn, nhưng một người cố gắng tạo ra hình ảnh, trong khi người kia chỉ trích chúng. Sự phê bình này xảy ra ở ba giai đoạn khi hình ảnh được tạo ra, từ bản phác thảo ban đầu rất mờ cho đến mô hình cuối cùng có độ trung thực đầy đủ. Cuộc thi đang diễn ra đã cải thiện AttnGAN đủ để tạo ra những hình ảnh bạn thấy ngày nay.

Những bức ảnh này thường thực tế, mặc dù độ phân giải tương đối thấp - và trên cả độ chân thực, chúng cũng rất cụ thể về chi tiết tùy chỉnh của chúng. Đây là phần "chú ý" của "AttnGAN", vì AI tinh chỉnh các vùng rất nhỏ của mỗi hình ảnh theo thông số kỹ thuật bằng lời nói. Điều đó có nghĩa là một loài chim, chẳng hạn, có thể có những đặc điểm cực kỳ cụ thể, như mỏ xanh, mỏ vàng, mỏ dài hoặc mỏ ngắn. Từ độ phân giải, đến sự ứng biến, đến việc bao gồm các chi tiết hữu hạn, tất cả đều phức tạp hơn rất nhiều so với AI phác thảo tổng quát của Google . Ngay cả  các công cụ tạo hình ảnh kỳ lạ của Adobe đều bắt đầu với những bức ảnh thực tế chứ không phải một bức tranh trống.



[Hình ảnh: Nghiên cứu của Microsoft]

AttnGAN là ước mơ của một người chơi chim cảnh, có thể tạo ra vô số loài chim được đặt làm riêng theo một phong cách đáng tin cậy. Nhưng các bức ảnh về chim tương đối dễ đoán: Hầu hết được chụp những con chim đậu trên cành cây - bối cảnh mà AttnGan dễ dàng ứng biến khi bạn yêu cầu nó vẽ một con chim. Nhưng hãy yêu cầu AttnGan lấy những đối tượng này ra khỏi ngữ cảnh của chúng và trộn nó với một số đối tượng khác, và mọi thứ trở nên khó khăn. He nói: “Nếu có các thuộc tính hoặc mối quan hệ phức tạp của các đối tượng trong hệ thống, thì máy sẽ nhầm lẫn và vẽ ra thứ gì đó không tốt như chúng ta hy vọng.


"Một chiếc xe buýt hai tầng màu đỏ đang trôi trên mặt hồ." [Hình ảnh: Nghiên cứu của Microsoft]

Một ví dụ tuyệt vời về những hạn chế của AttnGAN đã được phát hiện khi các nhà nghiên cứu yêu cầu nó vẽ một chiếc “xe buýt hai tầng màu đỏ nổi trên mặt hồ” siêu thực. Ảnh thu được trông giống một chiếc thuyền màu đỏ và trắng mờ hơn. Bối cảnh dường như đã ảnh hưởng đến chủ đề, trộn lẫn cả hai thành một. Xe buýt không chạy trên mặt nước! Vì vậy, AttnGAN đã vẽ một chiếc thuyền.

Trong một trường hợp khác, các nhà nghiên cứu yêu cầu “hình ảnh một cô gái đang ăn một miếng bánh pizza lớn”. Hình thể của cô gái thực sự rất xuất sắc. Nhưng mọi thứ khác đều không có trong bức chân dung được phát minh này. Nó trông có vẻ lập thể đường viền trong kết xuất kỳ lạ của nó.



“Hình ảnh một cô gái đang ăn một miếng bánh pizza lớn.” [Hình ảnh: Nghiên cứu của Microsoft]

Ông kết luận: “Máy móc vẫn cần phải học hỏi nhiều kiến ​​thức thông thường để vẽ một bức tranh tốt về các vật thể phức tạp. Thật vậy, trong cả hai trường hợp thất bại, AttnGAN dường như hiểu những gì được yêu cầu, nhưng nó thiếu các mối quan hệ cơ bản giữa thế giới với đối tượng để thu hút chúng một cách thuyết phục. Logic đó là cần thiết để tạo nền tảng cho trí tưởng tượng của AttnGAN. Dù vậy, Ngài vẫn không nản lòng. Chỉ trong vài năm nữa, ông khẳng định các mô hình AI này sẽ cải thiện rất nhiều và với các máy tính nhanh hơn được tải nhiều bộ nhớ hơn, các nhà nghiên cứu cũng có thể tạo ra những hình ảnh cuối cùng lớn hơn và chi tiết hơn. Với sự tiến bộ trong nửa thập kỷ qua của anh ấy, thật khó để đồng ý.

Cuối cùng, ông tin rằng công nghệ kiểu AttnGAN sẽ thay đổi hoàn toàn các công cụ sáng tạo. Anh ấy tưởng tượng rằng công cụ tìm kiếm hình ảnh Bing sẽ tạo ra những bức ảnh khi cần - giả sử, nếu bạn yêu cầu một biển báo dừng bay qua bầu trời và điều đó không tồn tại trên iStockPhoto. Nhưng tua đi nhanh một chút, và He thấy hệ thống tạo ra hình ảnh cho các nghệ sĩ hoặc bố cục phòng cho các nhà thiết kế, chỉ cần chỉnh sửa một chút là có thể thuyết phục. Ông thậm chí còn tin rằng một ngày nào đó trong tương lai gần, những AI như vậy sẽ có thể dịch kịch bản thành các bộ phim hoạt hình chìa khóa trao tay.


Tuy nhiên, hiện tại, nghiên cứu này nhằm xóa mờ ranh giới giữa tư duy con người và tư duy máy móc. "Nó thật thú vị. Đó là một vấn đề cơ bản của AI, 'Trí thông minh là gì? Điều gì ngăn cách chúng ta với động vật? '”Anh trầm ngâm. “Chúng tôi biết cách thể hiện bản thân, và chúng tôi biết cách đọc một hình ảnh. [Nhân bản] những thứ đó, đối với tôi, là một cách để [tái tạo] trí thông minh chung của con người. "

Nhận xét