San Francisco, tháng 4/2025 – Mới đây, OpenAI đã công bố hai phiên bản nâng cấp quan trọng của công nghệ mô hình “lý luận” (reasoning) là OpenAI o3 và OpenAI o4‑mini, cho phép hệ thống không chỉ giải quyết các vấn đề về toán, lập trình và khoa học mà còn xử lý trực tiếp các nhiệm vụ liên quan đến hình ảnh như phác thảo, áp phích, biểu đồ và sơ đồ.
Từ văn bản sang hình ảnh: Mở rộng phạm vi “lý luận”
Vào tháng 9 năm ngoái, OpenAI từng gây tiếng vang khi giới thiệu công nghệ có khả năng “lý luận” trên văn bản để hoàn thành bài toán khó, viết mã code và phân tích dữ liệu khoa học. Tuy nhiên, tất cả vẫn chỉ dừng lại ở ngưỡng xử lý chữ viết và kí hiệu.
Với o3 và o4‑mini, OpenAI đã phá bỏ giới hạn đó. Người dùng giờ đây có thể cung cấp hình ảnh đầu vào, từ bản phác thảo tay cho đến sơ đồ phức tạp, và yêu cầu mô hình: cắt xén, biến đổi, thậm chí tái cấu trúc hình ảnh để phục vụ cho mục đích cụ thể – tất cả đều thông minh và trực quan.
Khả năng “thao túng” hình ảnh linh hoạt
“Các hệ thống mới có thể manipulate, crop và transform hình ảnh để hoàn thành nhiệm vụ bạn mong muốn,” ông Mark Chen, Trưởng nhóm Nghiên cứu tại OpenAI, chia sẻ trong buổi livestream công bố sản phẩm. Ví dụ:
- Cắt xén thông minh: Chỉ định vùng quan tâm trên ảnh, o3/o4‑mini tự động xác định và trích xuất chính xác đối tượng cần phân tích.
- Chuyển đổi cấu trúc: Tái tạo biểu đồ, điều chỉnh tỷ lệ hay thậm chí “lật ngược” sơ đồ để minh họa các kịch bản khác nhau.
- Chèn và sửa đổi chú thích: Ghi chú trực tiếp lên ảnh, tạo áp phích dựa trên mẫu có sẵn hoặc tái thiết kế layout cho phù hợp mục đích trình bày.
Ứng dụng đa dạng trong giáo dục, thiết kế và nghiên cứu
Khả năng kết hợp đồng thời văn bản và hình ảnh mở ra cơ hội rất lớn:
- Giáo dục: Giáo viên có thể đưa hình vẽ, sơ đồ khoa học lên hệ thống, yêu cầu mô hình giải thích bằng ngôn ngữ tự nhiên hoặc chuyển đổi chất lượng ảnh để in ấn.
- Thiết kế đồ họa: Designer chỉ cần mô tả ý tưởng; o3/o4‑mini sẽ tự động tạo bản mock‑up, chỉnh sửa layout và đề xuất màu sắc.
- Phân tích dữ liệu: Nhà nghiên cứu dễ dàng nhập biểu đồ tài chính hay y sinh, hệ thống sẽ giải mã giá trị số, nhận diện xu hướng và xuất báo cáo tóm tắt.
Hướng tới một nền tảng A.I. tổng hợp hình ảnh – văn bản
Sự xuất hiện của o3 và o4‑mini đánh dấu cột mốc quan trọng trên hành trình xây dựng nền tảng A.I. tổng hợp, có thể tương tác linh hoạt với cả văn bản lẫn hình ảnh. Theo ông Chen, đây chỉ mới là khởi đầu, và OpenAI đang tiếp tục hoàn thiện để mô hình ngày càng “thông minh” hơn khi tiếp xúc với dữ liệu đa phương thức.
Với việc tích hợp thành công khả năng “lý luận” đối với hình ảnh, OpenAI o3 và o4‑mini hứa hẹn sẽ giúp cách mạng hóa cách chúng ta dạy học, sáng tạo nội dung và phân tích thông tin trong kỷ nguyên số.
Theo NYTimes