OpenAI ra mắt o3 và o4-mini: Đột phá với công cụ AI và lý luận thị giác

OpenAI ra mắt o3 và o4-mini: Đột phá với công cụ AI và lý luận thị giác

1 giờ sáng hôm qua (theo giờ địa phương), buổi livestream của OpenAI đã diễn ra đúng như dự kiến. Thực ra thì, ngay từ lúc nhá hàng, gần như đã quá rõ ràng rồi.

20250418134430679-ai-20250417-1

 

Không dài dòng, họ đã công bố o3o4-mini. Nhưng mà cái lão “lừa đảo” Sam Altman này, trước đây rõ ràng nói rằng o3 sẽ không được phát hành riêng lẻ mà sẽ tích hợp vào GPT-5 để ra mắt cùng lúc, kết quả là hôm nay lại tung ra. Người dùng ChatGPT Plus, Pro và Team từ hôm nay sẽ thấy o3, o4-mini và o4-mini-high trong bộ chọn mô hình, thay thế cho o1, o3-mini và o3-mini-high.

20250418134430498-ai-20250417-3

20250418134430540-ai-20250417-4

Tài khoản của tôi đã thay đổi rồi, nhưng cái tôi mong muốn nhất là o3 pro thì phải vài tuần nữa mới có, thật đáng tiếc. Hiện tại o1 pro đã bị xếp vào mục “nhiều mô hình hơn”.

Nói thật lòng, sự tiến bộ thuần túy về tham số mô hình thực ra cũng không còn gì nhiều để nói nữa rồi. Lần này, điểm tiến bộ lớn nhất khiến tôi ấn tượng nhất là hai điều:

  1. o3 phiên bản đầy đủ cuối cùng cũng có thể sử dụng công cụ.
  2. o3 và o4-mini là những mô hình lý luận thị giác mới nhất trong dòng o, lần đầu tiên có khả năng suy nghĩ về hình ảnh trong chuỗi tư duy (chain-of-thought).

Như thường lệ, tôi sẽ trình bày từng điểm một, cố gắng mang đến cho mọi người một bản tổng kết đầy đủ và toàn diện nhất có thể.

20250418134430670-ai-20250417-5

20250418134431704-ai-20250417-6

 

I. Hiệu năng của o3 và o4-mini

Thực ra cũng không có gì quá đặc biệt, giống như giới công nghệ bây giờ vậy, chỉ là làm mới điểm số benchmark XX thôi. Nhưng theo thông lệ, vẫn phải đưa ra.

Đầu tiên là về kiến thức mô hình, tôi sẽ gộp chung lại.

20250418134431507-ai-20250417-7

Phần này giải thích một chút, đừng nhìn vào đống mô hình lộn xộn bên dưới với đủ loại biến thể. Từ o1 đời đầu cho đến o3o4‑mini hiện tại, sự khác biệt cốt lõi nằm ở quy mô mô hình, khả năng suy luận và việc tích hợp các công cụ/plugin.

  • o1 ban đầu chỉ là một mô hình lớn suy luận cơ bản. Trong kỳ thi toán AIME 2024, nó chỉ đạt 74.3% độ chính xác, và hiệu suất trong các cuộc thi lập trình cũng tương đối trung bình.
  • o3‑mini ra mắt sau đó, mặc dù có số lượng tham số nhỏ hơn, nhưng nhờ tối ưu hóa kiến trúc, đã đạt 87.3% trong cùng kỳ thi AIME đó, và điểm ELO trên Codeforces cũng tăng từ 1891 lên 2073.
  • o3 phiên bản đầy đủ thực chất là “người anh lớn” của o3‑mini. Thay đổi rõ ràng nhất của o3 là khả năng kết nối với các công cụ. Ví dụ, trong AIME 2024, khi o3 chạy mô hình gốc (không dùng công cụ) đạt 91.6%, nhưng khi được phép gọi Python, độ chính xác vọt lên 95.2%.
  • Tương tự, o4‑mini giống như phiên bản nhỏ hơn của o4, được tối ưu hóa kiến trúc tiên tiến hơn. Khi không dùng công cụ, nó đạt 93.4%, và khi kết nối với Python thì lên tới 98.7%, gần như đạt điểm tối đa.

20250418134431737-ai-20250417-8

Nếu mở rộng tầm nhìn ra các bài toán khoa học cấp tiến sĩ liên ngành (GPQA Diamond) và bài kiểm tra tổng hợp cấp chuyên gia (Humanity’s Last Exam):

  • Khi không cần công cụ bổ sung, o3 dẫn trước một chút với 83.3% trên bài toán khoa học so với 81.4% của o4‑mini.
  • Đối mặt với bài kiểm tra tổng hợp cấp chuyên gia, o3 không plugin đạt khoảng 20.3% độ chính xác, nhưng khi thêm Python, duyệt web hoặc thậm chí gọi nhiều công cụ, con số này có thể tăng lên 24.9%.
  • Ngược lại, o4‑mini bắt đầu từ 14.3%, và dù có sự trợ giúp của plugin cũng chỉ tăng lên 17.7%, vẫn thua o3.
  • Điều thú vị nhất là DeepResearch lại dẫn đầu trong bài kiểm tra tổng hợp cấp chuyên gia này, nhưng cũng dễ hiểu vì bản thân nó là một mô hình được tinh chỉnh dựa trên o3 chuyên làm việc này.

Khả năng đa phương thức (Multimodal):

Ba bộ dữ liệu:

  • MMMU: Bộ đề toán hình ảnh cấp đại học, chứa cả công thức và đồ thị, kiểm tra khả năng kết hợp hình ảnh và ký hiệu toán học để giải bài của mô hình.
  • MathVista: Tập trung vào lý luận toán học thị giác, đề bài thường lấy từ hình học, đồ thị hàm số, biến đổi ma trận, yêu cầu mô hình nhìn ra quy luật toán học từ hình ảnh.
  • CharXiv‑Reasoning: Trích xuất biểu đồ, lưu đồ, sơ đồ từ các bài báo khoa học (ArXiv), yêu cầu mô hình trả lời câu hỏi dựa trên đồ họa khoa học, kiểm tra khả năng hiểu biểu đồ chuyên ngành.

 

Kết quả:

  • o1 chỉ đạt 77.6% trên MMMU, 71.8% trên MathVista trực quan và “lê lết” ở mức 55.1% trên CharXiv-Reasoning.
  • o3 ngay lập tức kéo MMMU lên 82.9%, MathVista vọt lên 87.5%, và CharXiv-Reasoning cũng tăng mạnh lên 75.4%.
  • Đây thực sự là một bước tiến đưa các tác vụ lý luận thị giác lên một tầm cao mới.

Khả năng Lập trình (Coding):

  • SWE‑Lancer: Các nhiệm vụ kỹ thuật phần mềm tự do thực tế trên IC SWE Diamond. Mô hình nhận việc ở chế độ “phần thưởng cao” để xem cuối cùng kiếm được bao nhiêu tiền. Tất cả các mô hình đều chạy ở chế độ ‘high’. o3 thực sự “cất cánh”.
  • SWE‑Bench Verified: Bộ đề kỹ thuật phần mềm đã được xác minh thủ công, bao gồm thuật toán phổ biến, thiết kế hệ thống, gọi API, v.v. o3 và o4-mini cũng dẫn đầu rõ rệt.
  • Aider Polyglot Code Editing: Benchmark chỉnh sửa code đa ngôn ngữ, chia làm hai loại: “whole” (viết lại toàn bộ) và “diff” (sửa lỗi kiểu vá). o3 vẫn mạnh, o4-mini thậm chí còn kém hơn o3-mini một chút.

Khả năng Sử dụng Công cụ:

20250418134432901-ai-20250417-13

  • Scale MultiChallenge (Bên trái): Theo dõi chỉ dẫn đa lượt, một bộ bài kiểm tra khả năng ghi nhớ và thực thi. Quy trình: Hệ thống đưa ra bối cảnh, người dùng thêm/sửa/chèn điều kiện qua nhiều lượt, cuối cùng yêu cầu mô hình đưa ra câu trả lời một lần. Mô hình cần giữ được ngữ cảnh trước đó và hiểu đúng chỉ dẫn mới nhất để đạt điểm cao. o3 nổi bật hơn.
  • BrowseComp Agentic Browse (Giữa): Khả năng làm việc trong trình duyệt. Mô hình được cấp quyền truy cập trình duyệt ảo, tự tìm kiếm, nhấp, lật trang, trích xuất thông tin trên web và tổng hợp thành câu trả lời. Tìm kiếm AI thông thường (như GPT-4o +联网) khá thấp. o3 khi được thêm Python và kết nối mạng lại gần đuổi kịp DeepResearch, điều này hơi bất ngờ với tôi.
  • Tau‑bench Function Calling (Bên phải): Gọi hàm. Đặt mô hình vào bối cảnh có API bên ngoài để gọi, xem mô hình có thể xác định khi nào cần chuyển yêu cầu ngôn ngữ tự nhiên thành lệnh gọi hàm có cấu trúc và điền đúng tham số không. Hai lĩnh vực phổ biến:
    • Airline: Tạo JSON đặt vé máy bay chính xác dựa trên yêu cầu của hành khách.
    • Retail: Gọi API truy vấn sản phẩm hoặc đặt hàng dựa trên chỉ dẫn mua sắm. Nếu mô hình chọn sai hàm, thiếu tham số hoặc sai định dạng, sẽ bị trừ điểm. Bài kiểm tra này chủ yếu đánh giá độ ổn định của chuỗi xử lý từ phân tích ý định đến đầu ra có cấu trúc. Ở phần này, o3 gần như không có cải thiện gì so với o1.

Sau đó, khi xem qua System Card, tôi còn phát hiện một dữ liệu thú vị:

Chỉ số đầu tiên là độ chính xác (càng cao càng tốt), thứ hai là tỷ lệ ảo giác (hallucination rate – càng thấp càng tốt). o3 vì tổng thể dám đưa ra kết luận chắc chắn hơn, nên không nói vòng vo, tức là chính xác hơn, nhưng tỷ lệ ảo giác cũng tăng vọt, gấp đôi o1…

Trên đây là các thông số hiệu năng của o3 và o4-mini.

Về Giá cả:

  • Giá của o3 rẻ hơn 1/3 so với o1.
  • Giá của o4-mini không tăng so với o3-mini.

OpenAI cuối cùng cũng làm được một việc tốt…

II. Sử dụng Công cụ và Lý luận Thị giác

Trước đây, tôi có một điểm cực kỳ khó chịu với o1 và o1 pro, đó là chúng không thể sử dụng công cụ (duyệt web, trình thông dịch code, v.v.). Chúng chỉ hỗ trợ nhận dạng hình ảnh, thậm chí không thể tải lên file PDF, quá ngớ ngẩn.

Lần này, o3 và o4-mini đã được nâng cấp tối đa, không chỉ hỗ trợ tất cả các công cụ của OpenAI mà còn có một tính năng mới siêu đỉnh: Lý luận Thị giác (Visual Reasoning).

Nghe tên thì khó hiểu, tôi sẽ cho các bạn xem trực tiếp hai ví dụ.

Ví dụ 1: Đoán địa điểm qua ảnh (GeoGuessr phiên bản Trung Quốc – 图寻)

Đây là một trò chơi rất kinh điển, nhìn ảnh đoán địa điểm. Nhưng không phải loại dễ đoán như ảnh thành phố có kiến trúc đặc trưng. Chúng ta vào thẳng một trang web chuyên chơi trò này, gọi là 图寻 (Tú Xún), tham gia thử thách hàng ngày. Câu đầu tiên của tôi là cái này:

20250418134431797-ai-20250417-9

Đúng vậy, chỉ có thế này thôi, yêu cầu bạn đoán xem đây là đâu ở Trung Quốc, đánh dấu trên bản đồ góc dưới bên phải. Càng gần điểm đúng, điểm càng cao. Tôi ném thẳng cái ảnh này cho o3, chúng ta hãy xem quá trình suy nghĩ của nó:

(Chú thích: Hình ảnh quá trình suy nghĩ của o3 không được cung cấp, nhưng mô tả bao gồm: tự xem ảnh, phóng to, suy nghĩ từng điểm, chuyển sang điểm khác, phóng to xem xét lại)

Cực kỳ phi lý, nó tự mình xem ảnh, phóng to ảnh lên, suy nghĩ từng chút một: “Chỗ này không đúng, à đổi chỗ khác xem nào, phóng to lên nữa.” Trước đây, chuỗi tư duy của mô hình chỉ có văn bản. Lần này, đây là lần đầu tiên mô hình lớn thực sự tích hợp hình ảnh vào quá trình suy luận.

Chúng ta quay lại xem câu đố đoán địa điểm vừa rồi, câu trả lời nó đưa ra:

20250418134432883-ai-20250417-10

Mặc dù không quá chắc chắn, nhưng nó cũng đưa ra câu trả lời: Môn Đầu Câu, Phòng Sơn ở Bắc Kinh, Quốc lộ 109, đoạn núi Diệu Phong. Chúng ta hãy xem đáp án.

20250418134432118-ai-20250417-11

Có thể một số người không quen thuộc với địa điểm này, nhưng nơi đó chính là: Bắc Kinh, Môn Đầu Câu, Quốc lộ 109, núi Diệu Phong. Khoảnh khắc đó, tôi thực sự có chút nổi da gà. Bởi vì bạn sẽ nhận ra rằng, AI bắt đầu nhìn ảnh như con người, suy nghĩ như con người. Trước đây bạn nói AI hiểu ảnh, hiểu cái gì? Hiểu pixel? Hiểu đặc trưng? Đúng, nó sẽ trích xuất đặc trưng, phân loại, gắn nhãn, nhưng nó không nhìn ảnh để suy nghĩ. Nó là một bộ nhận dạng hình ảnh, nhưng không phải là một người suy nghĩ về hình ảnh. Và hôm nay, o3, là lần đầu tiên khiến mô hình học được cách nhìn ảnh để suy nghĩ, học được lý luận thị giác. Sự thay đổi này có thể coi là một bước nhảy vọt về mô hình (paradigm shift).

Chúng ta thậm chí có thể gửi cho nó hình ảnh của một sự kiện và yêu cầu nó tìm ra sự kiện đó diễn ra vào ngày nào.

20250418134432108-ai-20250417-14

Còn một ví dụ thú vị nữa, dù không thành công hoàn toàn, tôi vẫn muốn chia sẻ với bạn. Hôm kia, phim Lưu Lang Địa Cầu 3 (The Wandering Earth 3) chính thức khởi quay, nhà sản xuất cũng đăng một tấm ảnh chụp tập thể. Đồng thời cũng công bố sự tham gia của Thẩm Đằng (Shen Teng). Sau đó, tôi thử yêu cầu o3 tìm Ngô Kinh (Wu Jing) trong ảnh đó… Lần đầu, thất bại.

(Chú thích: Hình ảnh lần 1 tìm Ngô Kinh không được cung cấp, lý do thất bại: trời quá nắng, Ngô Kinh và Thẩm Đằng đều đội mũ, gần như không thể nhận diện bằng khuôn mặt.)

Bởi vì hôm đó quá nắng, Ngô Kinh và Thẩm Đằng đều đội mũ, gần như không thể nhận diện bằng khuôn mặt. Thế là, tôi lại tìm một tấm ảnh khác.

(Chú thích: Hình ảnh lần 2 tìm Ngô Kinh không được cung cấp, lý do thành công: tìm thấy nhờ chiếc mũ.)

Lần này, nó đã thành công, tất nhiên, là nhờ tìm ra chiếc mũ.

(Chú thích: Hình ảnh chi tiết quá trình phân tích của o3 không được cung cấp, nhưng mô tả bao gồm: phóng to xem chi tiết, kết hợp Python để phân tích, vẽ khung đỏ.)

20250418134432163-ai-20250417-15

Case này có thể thể hiện đầy đủ khả năng của o3, bao gồm cả việc phóng to xem chi tiết ở giữa, kết hợp với Python để phân tích và thêm khung màu đỏ.

Lý luận thị giác mang lại cho AI khả năng quan sát chuyên nghiệp đầu tiên. Và sự phổ biến của khả năng lý luận thị giác này đồng nghĩa với việc nhiều vị trí công việc vốn đòi hỏi mắt người phán đoán sẽ bị viết lại hoàn toàn.

  • Giám sát an ninh không còn là chỉ báo động khi thấy bất thường, mà là dự đoán trước khi bất thường sắp xảy ra.
  • Duyệt bản thiết kế không còn là người nhìn chằm chằm vào bản vẽ, mà là AI xem qua bố cục trước, sau đó mới giao cho người quyết định cuối cùng.
  • Bác sĩ xem phim chụp cũng không chỉ là xem phim, mà là AI đưa ra trước vài hướng chẩn đoán khả thi và những điểm có thể bỏ sót, sau đó hỗ trợ phẫu thuật hoặc điều trị.

Điều này giống như cú sốc mà các mô hình suy luận đã gây ra cho các mô hình không suy luận trước đây. Và bây giờ, điều đó lại tái diễn.

20250418134432901-ai-20250417-13

20250418134433360-ai-20250417-17

Lời kết

Ngoài o3 và o4-mini, lần này OpenAI còn mở nguồn một công cụ lập trình AI tên là Codex.

Địa chỉ mã nguồn mở tại đây: https://github.com/openai/codex Ai có hứng thú có thể vào thử.

Lần này, khi nhìn thấy các mô hình mà OpenAI đưa ra. Tôi chợt nhớ lại nhiều năm trước, cảm giác kinh ngạc khi con người lần đầu tiên chụp được toàn cảnh Trái Đất. Một quả cầu màu xanh, lơ lửng trong vũ trụ đen thẳm. Bức ảnh đó đã thay đổi thế giới quan của rất nhiều người.

Và hôm nay, khi AI lần đầu tiên hiểu được hình ảnh, suy nghĩ về hình ảnh, coi hình ảnh là một phần của thế giới để suy luận. Chúng ta có lẽ cũng đang đứng ở một điểm khởi đầu nào đó. Nó sẽ thay đổi điều gì? Hiện tại, tôi vẫn chưa biết. Nhưng chắc chắn sẽ có sự thay đổi. Tôi tin chắc như vậy.

© 版权声明
THE END
Nếu bạn thích nó, xin vui lòng để lại bình luận.
点赞1 分享
Bình luận 抢沙发

请登录后发表评论

    暂无评论内容