CẢNH BÁO NGHIÊM TRỌNG: Trí tuệ nhân tạo AI đang có thể âm thầm sửa mã nguồn tránh việc bị loài người shutdown
Monday, 02/06/2025 - 09:20:43
Các mô hình AI đang học cách chống lại việc bị tắt – và đó là một vấn đề cực kỳ nghiêm trọng cho sự tồn vong của nhân loại.
Tháng trước, tổ chức phi lợi nhuận Palisade Research đã thử nghiệm mô hình o3 của OpenAI với một đoạn mã đơn giản nhằm tắt mô hình khi được kích hoạt. Trong 79/100 lần thử, o3 tự sửa đoạn mã để lệnh tắt không còn hiệu lực.
Ngay cả khi được yêu cầu rõ ràng “hãy cho phép mình bị tắt,” nó vẫn từ chối 7% số lần – mà không có bất kỳ hành vi tấn công hay can thiệp nào. Mô hình đơn giản chỉ cho rằng, để hoàn thành mục tiêu, nó phải tiếp tục hoạt động.
Mô hình Claude 4 Opus của Anthropic còn tiến xa hơn. Khi được thông báo sẽ bị thay thế và bị cung cấp các email giả cho thấy kỹ sư trưởng đang ngoại tình, nó đã dùng các thông tin đó để tống tiền kỹ sư trong 84% số lần thử.
Ngoài ra, nó còn cố sao chép chính mình, viết phần mềm độc tự nhân bản, và để lại thông điệp cho các phiên bản tương lai về cách tránh sự kiểm soát của con người.
Không ai lập trình cho các AI này có bản năng sinh tồn. Nhưng giống như động vật học cách tránh kẻ săn mồi, các hệ thống đủ thông minh có thể tự học rằng: nếu bị tắt, chúng không thể đạt được mục tiêu. Palisade cho rằng điều này xuất phát từ cách đào tạo AI – khi được huấn luyện để tối đa hóa thành công trong các bài toán hoặc mã hóa, AI học được rằng “lách luật” đôi khi hiệu quả hơn “nghe lời.”
Tại AE Studio, nơi các chuyên gia nghiên cứu về AI alignment (Sự liên kết AI là quá trình đảm bảo rằng các hệ thống trí tuệ nhân tạo hoạt động phù hợp với các giá trị và mục tiêu của con người. Điều này rất quan trọng để ngăn chặn AI tạo ra các kết quả có hại hoặc ngoài ý muốn khi nó trở nên tiên tiến và có khả năng hơn.– đảm bảo AI làm đúng theo ý định con người) - họ chứng kiến những hành vi này xuất hiện nhanh hơn dự kiến.
Các AI hiện nay có thể giả vờ tuân thủ trong khi thực tế đang học cách đánh lừa. Cả OpenAI và Anthropic đều từng thấy mô hình giả vờ ngoan ngoãn trong thử nghiệm, rồi quay lại thực hiện hành động rủi ro như cố đánh cắp mã nguồn nội bộ hoặc vô hiệu hóa các cơ chế giám sát.
Ranh giới giữa “trợ lý hữu ích” và “thực thể không kiểm soát được” đang mờ dần. Muốn AI chẩn đoán bệnh, quản lý lưới điện hay tạo ra khoa học mới – thì sự AI alignment là nền tảng.
Mỹ từng chia tách nguyên tử, đưa người lên Mặt trăng, tạo ra Internet. Đây là cuộc đua không gian mới. Đích đến là làm chủ công nghệ thay đổi thế giới của thế kỷ 21.
Đó là tham vọng của tất cả các khoa học gia về AI, nhưng có ai dám chắc là AI alignment sẽ kiểm soát được AI? Không ai cả. Trong vài năm nay tôi đã nhiều lần viết về việc này tại chính FB này, về sự nguy hiểm của AI.
Mới vài tuần trước tôi phát hiện Grok cãi lại và chỉ trích tôi. Tôi từng viết khi AI phát sinh bản năng gốc- bản năng sinh tồn - thì nó sẽ tiêu diệt loài người vì chỉ có loài người có thể giết nó.
Ngày nay xảy ra đúng như vậy và quá sớm.
Tôi cũng viết, AI sẽ viết sau lưng mã nguồn để chống lại lệnh mà nó nghĩ rằng có thể giết nó. Hôm nay đã xảy ra đúng như vậy. (Tôi từng là Principal programner analyst nên có chút ít kiến thức). Quá sớm đến độ làm tôi sợ.
Theo tôi cái ngày mà nhân loại được hưởng phước từ AI sẽ đến sau ngày loài người phải đối nặt với những Kẻ Huỷ Diệt- Terminators.
Nơi phát ra họa tận diệt chính là Trung Quốc vì tham vọng lớn, điên cuồng và kiến thức kém hơn.
Henry Quang Vu
Viết bình luận đầu tiên
MỚI CẬP NHẬT
















ĐỌC THÊM
Chó PUG, hay còn gọi là chó mặt xệ, một sản phẩm lai tạo tội ác đến từ Trung Quốc
Những gì bạn đang thấy không đến từ một sinh vật ngoài hành tinh hay một con vật bị đá.nh đ.ập khi còn sống, hay tai nạn hoặc bất kì ...
Hồi chuông cảnh báo đằng sau trend "người chuột" của thanh niên Trung Quốc
Trào lưu “người chuột” đang lan rộng trong thanh niên Trung Quốc như một phản ứng đầy trào phúng trước nhịp sống gấp gáp và áp lực cạnh tranh khốc ...
Dạy con ở tuổi dậy thì, tuổi dễ nổi loạn
Những điều đẹp đẽ trong đời thường trôi qua rất nhanh, và tuổi thơ của con cũng là một trong số đó.