Dùng tính năng mới của ChatGPT sửa ảnh đăng mạng xã hội, kết quả là hộp thư nổ tung vì tin nhắn hỏi cách làm?

1年前发布

1600

Vào rạng sáng hôm nay khi OpenAI công bố tính năng tạo ảnh thế hệ mới, mọi người vẫn chưa rõ thực lực của nó, còn tưởng rằng chỉ là đi sau Gemini, mang đến một vài nâng cấp muộn màng.

GPT không nói nhiều, chỉ âm thầm để những trường hợp sử dụng của người dùng gây chấn động.

Trong bản cập nhật mới nhất, OpenAI đã mang đến sự đột phá về khả năng tuân thủ chỉ dẫn và tính nhất quán cho tính năng tạo ảnh từ văn bản. Chỉ cần những lời nhắc (prompt) văn bản đơn giản nhất, bạn có thể thực hiện tinh chỉnh chi tiết hình ảnh với độ chính xác cao – mọi chỉnh sửa chỉ cần thực hiện ngay trong cuộc hội thoại, không cần thêm bất kỳ nút bấm, bút vẽ hay thao tác bổ sung nào.

Phép thuật không cần bút vẽ, chỉ cần “thần chú”

Tương tự Gemini, điểm nhấn trong bản cập nhật lần này của OpenAI không nằm ở việc tạo ra những hình ảnh siêu thực hay phức tạp đến đâu, mà tập trung vào khả năng tuân thủ chỉ dẫn và tính nhất quán, đặc biệt là chỉ cần sử dụng các lệnh bằng ngôn ngữ tự nhiên.

Hãy bắt đầu với một bộ ảnh đồ ăn khá cơ bản, với prompt cũng rất đơn giản: generate an image of coffee and bread (tạo một ảnh cà phê và bánh mì).

Sau đó, dựa trên ảnh gốc, yêu cầu đổi thành cà phê đá và phết thêm mứt.

Ngoại trừ quai cốc, những gì cần thêm đã được thêm vào, những gì cần giữ lại vẫn được giữ nguyên, khả năng tuân thủ chỉ dẫn vô cùng xuất sắc.

Đối với hình ảnh có chân dung người, hiệu suất cũng ổn định.

Nếu quan sát kỹ, vẫn có một vài chi tiết nhỏ thay đổi, nhưng những yếu tố quan trọng nhất như tư thế cơ thể, nếp gấp quần áo, biểu cảm đều không có sai sót.

Trong quá trình tạo bộ ảnh này, đã gặp phải kiểm duyệt nội dung, báo lỗi không phù hợp với chính sách. Tuy nhiên, mô hình đã hiểu được ý định của lệnh gốc và đề xuất phương án sửa đổi.

Đây cũng là bức ảnh cuối cùng, có hiệu ứng tạo ra tốt và tự nhiên nhất.

Các tác vụ có nội dung đơn giản rõ ràng là dễ dàng xử lý, vậy còn những tác vụ phức tạp hơn thì sao?

Trước đây trong bài kiểm tra tạo ảnh của Gemini, chúng tôi đã thử tạo một cảnh đường phố đô thị, hiệu quả rất ấn tượng, hãy xem lại:

Cùng một prompt đó, khi đưa cho ChatGPT thực hiện, hiệu ứng hình ảnh có phần kém hơn một chút, đặc biệt là ở bức ảnh ban đêm, gần như không còn thấy rõ chi tiết đám đông.

Tất nhiên, vấn đề này có thể thiên về sự khác biệt trong thẩm mỹ, nhưng khả năng nhận diện các yếu tố chính vẫn ổn, thậm chí có thể nắm bắt được các chi tiết nhỏ như “茑屋书店” (Tsutaya Books), việc tạo chữ cũng khá ổn định.

Ngoài việc tạo trực tiếp từ văn bản, bạn còn có thể tải ảnh lên để chỉnh sửa – và đây, phần gây sốc nhất đã đến.

Sau khi tải lên logo APPSO định dạng png, bước đầu tiên đơn giản là biến nó thành dạng 3D nổi.

Hiệu quả khá ổn, hướng đổ bóng không nhất quán nhưng phù hợp với bản thân nguồn sáng. Tiếp theo, thực hiện thêm một vài điều chỉnh.

Chấn động! Lời nhắc cho hai lần điều chỉnh này chỉ khoảng hai mươi chữ.

(Thậm chí mặc định các sản phẩm kỹ thuật số đều là của Apple, một số thuộc tính không được nêu rõ thật khó che giấu.)

Những tinh chỉnh góc độ nhỏ sau đó cũng rất chính xác.

▲ Prompt: Điều chỉnh góc độ, để logo màu đỏ trở thành chính diện, phần còn lại giữ nguyên

Tinh chỉnh chi tiết là điểm sáng rất lớn của bản cập nhật lần này, nó có thể liên kết chính xác chỉ dẫn với các chi tiết tương ứng, từ đó hoàn thành việc sửa đổi cục bộ một cách chuẩn xác.

▲ Prompt: Điều chỉnh góc độ, ống kính chụp từ phía trước bên phải, ánh sáng tổng thể tối đi, một chùm sáng mạnh chiếu từ bên phải làm sáng một phần máy, bên cạnh đặt thêm hạt cà phê

Lời nhắc bao gồm các nội dung quan trọng như hiệu ứng ánh sáng, góc máy, bổ sung yếu tố, và mô hình có thể nhận diện chính xác, đồng thời điều chỉnh một cách tổng thể. Cụm từ “chỉ đâu sửa đó” đã trở nên quá quen thuộc.

Trong bản cập nhật này, điều bất ngờ nhất có lẽ là khả năng chuyển đổi nhanh chóng giữa tạo ảnh và tạo văn bản trong cùng một cuộc hội thoại.

Ví dụ, trong hình ảnh dưới đây, lệnh ban đầu là tạo một hướng dẫn gói quà.

Đầu tiên, nó đưa ra một phiên bản gồm cả hình ảnh và văn bản – không hẳn là sai, vì tôi không chỉ rõ là muốn phiên bản hình ảnh + văn bản hay chỉ văn bản, chỉ dẫn khá mơ hồ.

Sau khi tạo phiên bản chỉ văn bản, ChatGPT chủ động hỏi liệu có muốn làm phiên bản hình ảnh + văn bản không, và sau khi nhận được xác nhận, nó đã cung cấp phiên bản có cả hình ảnh minh họa.

Điều này có nghĩa là phản ứng chính xác của mô hình không chỉ thể hiện ở việc hiểu một chỉ dẫn đơn lẻ, mà còn ở việc nắm bắt được ý định tiềm ẩn của người dùng, đi trước người dùng “một bước”.

Thực tế, đây cũng là khả năng đã được thể hiện khi Deep Research ra mắt trước đó. Tính năng tìm kiếm sâu của OpenAI là một trong số ít mô hình chủ động hỏi người dùng để làm rõ chi tiết thực hiện nhiệm vụ.

Khả năng tương tự lần này đã được chuyển sang tính năng tạo ảnh, và xét về trải nghiệm sử dụng, nó trực quan và dễ cảm nhận hơn so với trên Deep Research.

Ví dụ, có thể dùng nó để tạo các thông báo, hướng dẫn hàng ngày, kết hợp cả hình ảnh và văn bản một cách tiện lợi.

Nhìn chung, điều đáng kinh ngạc nhất lần này chắc chắn là sự kết hợp đồng bộ giữa tính nhất quán và khả năng tuân thủ chỉ dẫn.

Theo thông lệ, mỗi bài đánh giá nên có một số “hướng dẫn sử dụng” – nhưng lần này thực sự không tìm thấy lưu ý nào đáng kể, mọi thứ chỉ cần thực hiện theo ý tưởng của bạn, gõ bàn phím, nhập văn bản, thế là xong. Không có “kỹ thuật” hay “mẹo” nào cả.

Tính nhất quán trong việc tạo và sửa ảnh thông qua prompt là một vấn đề cực kỳ quan trọng trong lĩnh vực tạo ảnh từ văn bản, nó liên quan đến cả năng lực của mô hình và năng lực kỹ thuật (engineering). Trước khi có những tiến bộ lớn về tuân thủ chỉ dẫn và tính nhất quán như thế này, vấn đề chủ yếu được giải quyết thông qua prompting (viết lời nhắc), áp lực nằm ở phía người dùng.

Vì vậy, mới có đủ loại mẫu prompt, hướng dẫn, dạy mọi người cách “giao tiếp với mô hình”. Nhưng đó không phải là trạng thái tương tác ngôn ngữ tự nhiên nên có. Mô hình khi đối mặt với con người, nên tiếp nhận những chỉ dẫn trực tiếp nhất từ người dùng – việc bắt người dùng phải học cách viết prompt trước thực sự rất dễ gây nản lòng.

Các bản cập nhật gần đây của Gemini và OpenAI đã làm cho đường đua tạo ảnh, vốn có phần giảm nhiệt, trở nên sôi động trở lại. Chúng cũng thể hiện một điểm chung: thời kỳ mà một số sản phẩm sửa ảnh, chỉnh sửa ảnh cố gắng tăng khả năng kiểm soát việc tạo ảnh bằng cách thêm các nút bấm, cổng vào để đối phó với ảo giác của mô hình, đã qua rồi.

Vấn đề về tính nhất quán không chỉ giải quyết vấn đề tạo ảnh, mà còn giải quyết những phiền toái nhỏ trong quá trình “sử dụng chức năng tạo ảnh”. Ở một khía cạnh nào đó, đây cũng là một sự tối ưu hóa ở cấp độ kỹ thuật.

Việc sửa đổi và tạo ra đều có thể được thực hiện thông qua sự hiểu biết chính xác của mô hình đối với các chỉ dẫn bằng văn bản – ở cấp độ này, khái niệm “mô hình chính là sản phẩm” vẫn còn nguyên giá trị.

评分

欢迎为Ta评分