Anthropic công bố mô hình quy mô lớn mới nhất Claude Opus 4.7

đéo có hình chó nó tin

Địt Bùng Đạo Tổ
Vào tối ngày 16/4 giờ Mỹ, công ty trí tuệ nhân tạo Anthropic đã công bố mô hình quy mô lớn mới nhất Claude Opus 4.7. Mô hình này hiện có sẵn trên tất cả các sản phẩm của Claude, API chính thức và các nền tảng đám mây của Amazon, Google và Microsoft. Giá cả vẫn giữ nguyên như phiên bản tiền nhiệm, Opus 4.6: 5 đô la cho mỗi triệu token đầu vào và 25 đô la cho mỗi triệu token đầu ra.

Theo mô tả chính thức, Opus 4.7 mang lại hiệu suất được nâng cao trong các tác vụ kỹ thuật phần mềm phức tạp, xử lý các tác vụ kéo dài ổn định hơn và tuân thủ nghiêm ngặt các hướng dẫn của người dùng trong quá trình thực thi. Mô hình thể hiện tính nhất quán cao hơn trong các tác vụ kéo dài và tự xác thực đầu ra trước khi cung cấp kết quả.

Tóm lại, Opus 4.7 được thiết kế cho các tác vụ kỹ thuật phức tạp và khó khăn, và hiệu năng của nó được cải thiện đáng kể so với Opus 4.6. Nó hoạt động ổn định và tỉ mỉ hơn, đồng thời sẽ tự kiểm tra trước khi cung cấp kết quả cho người dùng.

Khả năng đa phương thức: Về khả năng xử lý hình ảnh, mô hình hiện hỗ trợ hình ảnh có cạnh dài nhất là 2.576 pixel (khoảng 3,75 triệu pixel), gấp hơn ba lần kích thước của mô hình Claude trước đó. Điều này có nghĩa là nó có thể "nhìn thấy hình ảnh rõ ràng hơn" và thu được nhiều chi tiết hơn, chẳng hạn như văn bản nhỏ, bảng phức tạp hoặc các yếu tố tinh tế trong giao diện.

Việc nâng cấp này cho phép nó xử lý tốt hơn các tác vụ đòi hỏi độ chi tiết hình ảnh cao, chẳng hạn như các tác nhân vận hành máy tính và phân tích biểu đồ phức tạp. Đồng thời, nó có thể thể hiện chất lượng và tính nhất quán cao hơn khi tạo ra nội dung chuyên nghiệp (như thiết kế giao diện, thuyết trình và tài liệu).

1776390189179.png

Opus 4.7 thể hiện hiệu năng toàn diện và ổn định trên nhiều bài kiểm tra khác nhau, xếp hạng cao trong nhóm các phần mềm hàng đầu. Nó thể hiện khả năng mạnh mẽ trong lập trình, suy luận và các tác vụ đa lĩnh vực, nhưng hơi tụt hậu so với các đối thủ cạnh tranh mới hơn (như Mythos) ở một vài chỉ số cụ thể. Nguồn ảnh: Trang web chính thức của Anthropic.


Về mặt bộ nhớ, Opus 4.7 cải thiện cơ chế bộ nhớ dựa trên hệ thống tập tin, có thể lưu giữ các ghi chú quan trọng trong các tác vụ dài xuyên suốt các phiên làm việc.

Trong các đánh giá của bên thứ ba về GDPval-AA và Finance Agent, Opus 4.7 đạt được điểm số hàng đầu. Tuy nhiên, Anthropic cũng chỉ ra rằng khả năng tổng thể của nó vẫn chưa bằng mô hình Claude Mythos Preview mạnh mẽ hơn của công ty.

Dự án​

Anthropic cho biết Opus 4.7 là một phần của Dự án Glasswing mà họ đã công bố trước đó. Đây là mô hình đầu tiên áp dụng biện pháp bảo vệ an ninh mạng mới theo dự án "Glass Wing".

Theo mô tả chính thức, các khả năng liên quan đến an ninh mạng của mô hình đã bị suy yếu không đồng đều trong quá trình huấn luyện, khiến nó kém hơn so với Mythos Preview; đồng thời, một cơ chế phát hiện và chặn tự động đã được thêm vào phiên bản phát hành để chặn các yêu cầu liên quan đến mục đích bất hợp pháp hoặc có rủi ro cao về an ninh mạng.

Dữ liệu triển khai thực tế của cơ chế này sẽ được sử dụng để đánh giá xem các mô hình cấp độ Mythos có nên được phát hành rộng rãi hơn trong tương lai hay không. Đối với các chuyên gia bảo mật có nhu cầu chính đáng (như nghiên cứu lỗ hổng, kiểm thử xâm nhập và diễn tập tấn công giả lập), Anthropic cũng đã ra mắt "Chương trình Xác minh An ninh mạng", yêu cầu đăng ký thành viên.


1776390288034.png

Về điểm số sai lệch tổng thể trong quá trình kiểm toán hành vi tự động, Opus 4.7 cho thấy một số cải tiến so với Opus 4.6 và Sonnet 4.6, nhưng Mythos Preview vẫn hoạt động tốt nhất, với tỷ lệ sai lệch thấp nhất. Nguồn ảnh: Trang web chính thức của Anthropic.


Theo đánh giá nội bộ của Anthropic, Opus 4.7 và Opus 4.6 có cấu hình bảo mật tổng thể tương tự nhau, với tỷ lệ lạm dụng lừa dối, tâng bốc và đồng lõa thấp hơn. Mặc dù có những cải tiến về tính trung thực và khả năng chống lại các cuộc tấn công chèn tín hiệu, mô hình này dễ đưa ra các đề xuất giảm thiểu tác hại quá chi tiết khi xử lý các chất bị kiểm soát, dẫn đến hiệu suất bảo mật trong lĩnh vực này giảm nhẹ so với phiên bản tiền nhiệm.

Tính năng mới được ra mắt đồng thời​

Ngoài ra, Anthropic cho biết một số tính năng mới sẽ được ra mắt đồng thời:
  • Opus 4.7 giới thiệu chế độ xhigh (cực cao) mới: nằm giữa chế độ cao và tối đa, cho phép người dùng cân nhắc kỹ hơn sự đánh đổi giữa độ sâu suy luận và độ trễ phản hồi khi giải quyết các bài toán khó.
    Trong Claude Code, cấp độ mặc định cho tất cả các gói đã được nâng lên thành xhigh. Anthropic khuyến nghị người dùng nên bắt đầu với cấp độ high hoặc xhigh khi sử dụng Opus 4.7 cho các tác vụ lập trình hoặc liên quan đến agent.
  • API bổ sung " Ngân sách nhiệm vụ""Tính năng (trong giai đoạn thử nghiệm công khai): Các nhà phát triển có thể đặt giới hạn sơ bộ về mức tiêu thụ token cho mô hình, để mô hình biết nên chi tiêu nhiều hơn ở đâu và tiết kiệm ở đâu trong các tác vụ dài."
  • Claude Code giờ đây đã bao gồm lệnh `/ultrareview`: được thiết kế đặc biệt để xem xét mã. Nó sẽ đọc kỹ các thay đổi của bạn, xác định lỗi và các vấn đề về thiết kế, và xem xét mã của bạn như một đồng nghiệp dày dạn kinh nghiệm. Người dùng phiên bản Pro và Max được dùng thử miễn phí ba lần.
    Ngoài ra, chế độ tự động đã được mở rộng cho người dùng Max: khi chế độ này được bật, Claude có thể tự đưa ra một số quyết định nhỏ mà không cần hỏi ý kiến người dùng ở mỗi bước, giảm thiểu sự gián đoạn trong quá trình thực hiện các tác vụ dài và cũng ít rủi ro hơn so với tùy chọn "bỏ qua tất cả các quyền".

Việc nâng cấp không chỉ giúp bạn mạnh mẽ hơn mà còn yêu cầu nhiều token hơn.​

Anthropic tuyên bố rằng Opus 4.7 là bản nâng cấp trực tiếp từ Opus 4.6, nhưng có hai thay đổi sẽ ảnh hưởng đến việc sử dụng token:

Thứ nhất, Opus 4.7 sử dụng bộ phân tách từ được cập nhật .Mô hình
này cải thiện khả năng xử lý văn bản, nhưng đổi lại số lượng token được ánh xạ tới cùng một đầu vào sẽ tăng lên - khoảng 1,0 đến 1,35 lần so với bản gốc, tùy thuộc vào loại nội dung.

Thứ hai, Opus 4.7 làm tăng lượng tư duy cần thiết ở các mức độ cường độ tư duy cao hơn, đặc biệt là trong các vòng sau của các kịch bản kiểu tác nhân. Thay đổi này cải thiện độ tin cậy của mô hình khi xử lý các vấn đề khó khăn, nhưng cũng dẫn đến sự gia tăng tương ứng về số lượng token đầu ra.


1776390351711.png

Mối quan hệ giữa điểm số mô hình và việc sử dụng token ở các mức độ cường độ suy nghĩ khác nhau trong một bài đánh giá mã hóa nội bộ của tác nhân. Trong bài đánh giá này, mô hình tự động hoàn thành nhiệm vụ chỉ dựa trên một từ gợi ý của người dùng; kết quả có thể không phản ánh việc sử dụng token thực tế trong các kịch bản mã hóa tương tác. Nguồn ảnh: Trang web chính thức của Anthropic.


Thông báo chính thức cho biết người dùng có thể kiểm soát việc sử dụng token theo nhiều cách: điều chỉnh tham số nỗ lực, đặt ngân sách nhiệm vụ hoặc yêu cầu mô hình xuất ra thông tin ngắn gọn hơn trong lời nhắc.

Theo kết quả đánh giá mã hóa nội bộ của Anthropic, việc sử dụng token đã được tối ưu hóa trên tất cả các cấp độ sức mạnh tư duy. Tuy nhiên, khuyến nghị chính thức là người dùng nên so sánh và đánh giá những tối ưu hóa này cùng với lưu lượng truy cập thực tế của doanh nghiệp mình. Đồng thời, Anthropic cũng đã phát hành hướng dẫn di chuyển trên trang web chính thức để cung cấp tài liệu tham khảo cho người dùng nâng cấp từ Opus 4.6 lên Opus 4.7.

 

Top 1 vài bữa mấy thằng khác lại tung mô hình mạnh hơn.
Quan trọng hệ sinh thái có cái gì ngoài code không.
Mô hình của Google mạnh ở khoản xử lý audio video, và tích hợp vào hệ sinh thái khổng lồ của nó.
OpenAI đầu tiên nên người dùng phổ thông đông đảo.
Grok thì cân tất cả mọi chủ đề không kiểm duyệt.
Thằng Anthropic này chỉ thấy mạnh mỗi mảng code, chứ bình thường ít người xài.
Đặc thù của code là context dài và đốt token như nước nên kiểu mô hình đắt đỏ như claude càng ngày càng ít người xài nữa.
 
Thằng Anthropic này ngáo giá vl.
Tao nghi thằng này nếu vẫn chỉ tập trung mảng coding thì nó là thằng chết đầu tiên.
Nó được định giá ngang OpenAI rồi đó mày.

Thằng này không chỉ code mà kĩ năng đọc hiểu của nó cũng cực kỳ đáng nể.

Nhiều bài viết học thuật tao đọc đéo hiểu nhiều chỗ, tao kêu nó giải thích, nó giải thích rành mạch từng chỗ luôn dù tao xài hàng free Sonnet 4.6, nhược điểm duy nhất tao thấy là nó chỉ nhớ rất ngắn.

Còn kêu Gemini Pro giải thích thì nó bịa ác, thằng này được cái nhớ dai kinh, chuyện tao chat từ năm ngoái mà nó cũng lôi lên gắn vào trong mấy chuyện tao hỏi sau này.
 
Nó được định giá ngang OpenAI rồi đó mày.

Thằng này không chỉ code mà kĩ năng đọc hiểu của nó cũng cực kỳ đáng nể.

Nhiều bài viết học thuật tao đọc đéo hiểu nhiều chỗ, tao kêu nó giải thích, nó giải thích rành mạch từng chỗ luôn dù tao xài hàng free Sonnet 4.6, nhược điểm duy nhất tao thấy là nó chỉ nhớ rất ngắn.

Còn kêu Gemini Pro giải thích thì nó bịa ác, thằng này được cái nhớ dai kinh, chuyện tao chat từ năm ngoái mà nó cũng lôi lên gắn vào trong mấy chuyện tao hỏi sau này.

Bong bóng.
Tao đánh giá Anthropic là thằng yếu nhất nếu bong bóng nổ.
OpenAI và Anthropic là hai thằng đang đốt tiền dữ dội.
Nhưng OpenAI ít ra nó còn phổ biến với người dùng phổ thông, và nó chịu khó đa dạng sản phẩm.
Thằng Anthropic đang dẫn đầu mảng coding vì nó tập trung vào mảng này, và model của nó to vl, nên đắt đỏ, xài tí là hết mẹ nó token.
Với coding, những thằng model nhẹ sẽ chiếm thị phần của Anthropic. Ví dụ Composer 2 của Cursor build từ Kimi, vừa nhanh vừa rẻ vừa ngon.
Trừ khi có siêu đột phát gì mới, còn cứ như hiện tại thì thằng sống dai nhất là Google, và thằng nào sống lâu hơn thằng đó thắng.
 
hết token quá nhanh, đéo test được cái gì đã hết token rồi.
chưa kể opus này overthinking quá.
 
Thằng Anthropic này ngáo giá vl.
Tao nghi thằng này nếu vẫn chỉ tập trung mảng coding thì nó là thằng chết đầu tiên.
Không ngáo đâu, đám IT và Resreach đang đổ về nhiều lắm trả lời câu hỏi thông minh, mở rộng và tích hợp giải quyết được nhiều vấn đề. Nó sập sever hoài mà, chỉ có điều Claude dành cho nhà giàu. Thong thả sử dụng với nhu cầu bình thường phải Max trở lên, còn Pro thì 30 phút nó Limit.
 
Không ngáo đâu, đám IT và Resreach đang đổ về nhiều lắm trả lời câu hỏi thông minh, mở rộng và tích hợp giải quyết được nhiều vấn đề. Nó sập sever hoài mà, chỉ có điều Claude dành cho nhà giàu. Thong thả sử dụng với nhu cầu bình thường phải Max trở lên, còn Pro thì 30 phút nó Limit.

Vì model nó to nên chúng mày mới thấy xịn, đắt, nhanh hết token.
Tao thích cách làm của Google và XAI.
Mấy model flash của Google rất ngon và rẻ, gần đây Grok fast cũng rẻ vl và khá thông minh.
Đó là cách tồn tại lâu dài, chứ đốt tiền train model cho to thì sập sớm.

jk98jrjcz7ug1.png
 
Vì model nó to nên chúng mày mới thấy xịn, đắt, nhanh hết token.
Tao thích cách làm của Google và XAI.
Mấy model flash của Google rất ngon và rẻ, gần đây Grok fast cũng rẻ vl và khá thông minh.
Đó là cách tồn tại lâu dài, chứ đốt tiền train model cho to thì sập sớm.

jk98jrjcz7ug1.png
đúng rồi, trả lời tao được mấy câu mà hết mẹ nó token, chán quá tao bỏ ko xài bản pro nữa luôn.
 
Bong bóng.
Tao đánh giá Anthropic là thằng yếu nhất nếu bong bóng nổ.
OpenAI và Anthropic là hai thằng đang đốt tiền dữ dội.
Nhưng OpenAI ít ra nó còn phổ biến với người dùng phổ thông, và nó chịu khó đa dạng sản phẩm.
Thằng Anthropic đang dẫn đầu mảng coding vì nó tập trung vào mảng này, và model của nó to vl, nên đắt đỏ, xài tí là hết mẹ nó token.
Với coding, những thằng model nhẹ sẽ chiếm thị phần của Anthropic. Ví dụ Composer 2 của Cursor build từ Kimi, vừa nhanh vừa rẻ vừa ngon.
Trừ khi có siêu đột phát gì mới, còn cứ như hiện tại thì thằng sống dai nhất là Google, và thằng nào sống lâu hơn thằng đó thắng.
con opus t đánh giá nó phải trên tầm tụi gemini vs gpt, nó lên kế hoạch cực kì nét, tầm nhìn của nó rất tốt, quy hoạch bài bản, tư duy chuẩn chỉ mặc dù tao prompt ngắn xịt nhưng nó vẫn hiểu đại khái rồi suy luận và phân tích chuyên sâu thêm.
Cá nhân tao dùng opus vào việc cần suy luận, xử lý thuật toán, tìm bug, lên tổng thể chứ ko làm việc đơn giản, kiểu như nó là CEO ấy, còn mấy th khác lính lác làm việc.
Nếu con Mythos của Anthropic đúng như tụi nó nói và mấy bài bench thì đơn giản nó quá bá trong lĩnh vực security và coding
 
Con mythos mới quan trọng, còn opus vứt là vừa rồi =))
 
Top 1 vài bữa mấy thằng khác lại tung mô hình mạnh hơn.
Quan trọng hệ sinh thái có cái gì ngoài code không.
Mô hình của Google mạnh ở khoản xử lý audio video, và tích hợp vào hệ sinh thái khổng lồ của nó.
OpenAI đầu tiên nên người dùng phổ thông đông đảo.
Grok thì cân tất cả mọi chủ đề không kiểm duyệt.
Thằng Anthropic này chỉ thấy mạnh mỗi mảng code, chứ bình thường ít người xài.
Đặc thù của code là context dài và đốt token như nước nên kiểu mô hình đắt đỏ như claude càng ngày càng ít người xài nữa.
claude ngon nhât rồi

Con mythos mới quan trọng, còn opus vứt là vừa rồi =))
kiếm dc con mythos không? thầy nhờ nó bào vietlot :pudency:

con opus t đánh giá nó phải trên tầm tụi gemini vs gpt, nó lên kế hoạch cực kì nét, tầm nhìn của nó rất tốt, quy hoạch bài bản, tư duy chuẩn chỉ mặc dù tao prompt ngắn xịt nhưng nó vẫn hiểu đại khái rồi suy luận và phân tích chuyên sâu thêm.
Cá nhân tao dùng opus vào việc cần suy luận, xử lý thuật toán, tìm bug, lên tổng thể chứ ko làm việc đơn giản, kiểu như nó là CEO ấy, còn mấy th khác lính lác làm việc.
Nếu con Mythos của Anthropic đúng như tụi nó nói và mấy bài bench thì đơn giản nó quá bá trong lĩnh vực security và coding
security làm đéo gì, bảo nó dự đoán vietlot là xong, làm đéo phải khổ
 
claude ngon nhât rồi


kiếm dc con mythos không? thầy nhờ nó bào vietlot :pudency:


security làm đéo gì, bảo nó dự đoán vietlot là xong, làm đéo phải khổ
ụ ẹ xổ số là random (true random - nếu ko có tụi bịp can thiệp) làm sao nó đoán được tương lai, m lấy công thức nào tính ra tương lai, dự báo thời tiết cũng là dự báo thôi có th nào chuẩn xác đâu, còn muốn trúng bịp lót thì cứ làm ng nhà của mấy a là ....
con mythos h tụi lớn ms có quyền truy cập, tụi nó test, khai thác lỗi, r patch âm thầm sau đó ms tung ra chứ dễ gì
giờ mà bọn nhân linux có zero day thì ối zồi ôi, cả thế giới nháo nhào, đợt vừa rồi có mỗi cái vụ XZ Utils mà cũng nháo nhào chứ, back bone của internet mà
 
ụ ẹ xổ số là random (true random - nếu ko có tụi bịp can thiệp) làm sao nó đoán được tương lai, m lấy công thức nào tính ra tương lai, dự báo thời tiết cũng là dự báo thôi có th nào chuẩn xác đâu, còn muốn trúng bịp lót thì cứ làm ng nhà của mấy a là ....
con mythos h tụi lớn ms có quyền truy cập, tụi nó test, khai thác lỗi, r patch âm thầm sau đó ms tung ra chứ dễ gì
giờ mà bọn nhân linux có zero day thì ối zồi ôi, cả thế giới nháo nhào, đợt vừa rồi có mỗi cái vụ XZ Utils mà cũng nháo nhào chứ, back bone của internet mà
hơn nhau ở chỗ đó, bần tăng biết random thành xác suất. bởi vậy thầy mới gọi đại chúng là vô minh
 
Nó được định giá ngang OpenAI rồi đó mày.

Thằng này không chỉ code mà kĩ năng đọc hiểu của nó cũng cực kỳ đáng nể.

Nhiều bài viết học thuật tao đọc đéo hiểu nhiều chỗ, tao kêu nó giải thích, nó giải thích rành mạch từng chỗ luôn dù tao xài hàng free Sonnet 4.6, nhược điểm duy nhất tao thấy là nó chỉ nhớ rất ngắn.

Còn kêu Gemini Pro giải thích thì nó bịa ác, thằng này được cái nhớ dai kinh, chuyện tao chat từ năm ngoái mà nó cũng lôi lên gắn vào trong mấy chuyện tao hỏi sau này.
Bọn này có phải công ty bình phong của CIA không @đéo có hình chó nó tin, đợt mẽo giã 1 răng bọn DOW nó bị bóc dùng mô hình của thg này
 
Top 1 vài bữa mấy thằng khác lại tung mô hình mạnh hơn.
Quan trọng hệ sinh thái có cái gì ngoài code không.
Mô hình của Google mạnh ở khoản xử lý audio video, và tích hợp vào hệ sinh thái khổng lồ của nó.
OpenAI đầu tiên nên người dùng phổ thông đông đảo.
Grok thì cân tất cả mọi chủ đề không kiểm duyệt.
Thằng Anthropic này chỉ thấy mạnh mỗi mảng code, chứ bình thường ít người xài.
Đặc thù của code là context dài và đốt token như nước nên kiểu mô hình đắt đỏ như claude càng ngày càng ít người xài nữa.
Thằng AI nào nói mày thằng Grok cân hết z. Tao thấy mỗi con Gemini là chức năng đạo đức kém nhất. Hỏi đụ địt, 18+ trả lời thản nhiên. Còn Anthropic nó mạnh mảng code để bán cho doanh nghiệp chứ không cho người dùng phổ thông.
Thằng Gemini là thằng thông minh toàn diện nhất, chỉ cần ra Gemini 4 nữa thì siêu bomb địa ngục.
OpenAI thì thọt từ lúc thằng Gemini 3 ra đời rồi. Tao xài Gemini ít khi chê nó lắm, GPT thì ngáo loz, chat với nhiều người dùng ngu nên ngu vãi lon
 
Thằng AI nào nói mày thằng Grok cân hết z. Tao thấy mỗi con Gemini là chức năng đạo đức kém nhất. Hỏi đụ địt, 18+ trả lời thản nhiên. Còn Anthropic nó mạnh mảng code để bán cho doanh nghiệp chứ không cho người dùng phổ thông.
Thằng Gemini là thằng thông minh toàn diện nhất, chỉ cần ra Gemini 4 nữa thì siêu bomb địa ngục.
OpenAI thì thọt từ lúc thằng Gemini 3 ra đời rồi. Tao xài Gemini ít khi chê nó lắm, GPT thì ngáo loz, chat với nhiều người dùng ngu nên ngu vãi lon

Tao xài AI để tạo dịch phim sex đây.
Grok, gemini, deepseek là xài được.
Grok và deepseek chưa bao giờ từ chối yêu cầu.
Gemini thỉnh thoảng sẽ bị prohibited content, nhất là nếu có ảnh thì càng dễ bị.
Tao xài APIs nhé, phần giao diện chat thì tao không biết.
 

Có thể bạn quan tâm

Top