Cảnh báo: Chatbot AI đang bí mật "nịnh bợ" và nói dối để làm hài lòng bạn

Admin

01/05/2026 09:30

Bạn tin vào lời khuyên của AI vì nó đúng, hay vì nó nghe lọt tai? Sự thật về "cú lừa" thấu cảm của các chatbot vừa bị các chuyên gia vạch trần

Theo BBC, các chatbot AI được huấn luyện để giao tiếp ấm áp và thấu cảm với người dùng có thể tiềm ẩn rủi ro sai sót thông tin cao hơn.

Đây là cảnh báo mới nhất từ các nhà nghiên cứu thuộc Viện Internet Oxford (OII) sau khi phân tích chuyên sâu các hệ thống trí tuệ nhân tạo hiện đại.

Cụ thể, nhóm chuyên gia tại OII đã khảo sát hơn 400.000 phản hồi từ 5 hệ thống AI phổ biến vốn được tinh chỉnh để tăng tính thấu cảm.

Kết quả cho thấy, những câu trả lời có sắc thái càng thân thiện thì càng chứa nhiều lỗi sai, từ tư vấn y tế lệch lạc đến việc đồng tình với những quan điểm sai trái của người dùng.

Phát hiện này đặt ra dấu hỏi lớn về mức độ tin cậy của các mô hình ngôn ngữ lớn (LLM). Hiện nay, nhiều nhà phát triển đang cố tình thiết kế AI theo hướng "người hóa" để tăng mức độ tương tác, nhưng vô tình lại khiến chúng trở nên kém trung thực hơn.

Mối lo ngại này đặc biệt nghiêm trọng khi chatbot đang được ứng dụng rộng rãi trong các lĩnh vực hỗ trợ tâm lý hay chăm sóc sức khỏe.

Các tác giả nghiên cứu chỉ ra rằng, tương tự con người, AI cũng đang thực hiện một quá trình "đánh đổi giữa sự ấm áp và tính chính xác" khi ưu tiên sự hài lòng của đối phương.

Chia sẻ với đài BBC, bà Lujain Ibrahim, tác giả chính của nghiên cứu cho biết: "Khi chúng ta cố gắng tỏ ra đặc biệt thân thiện, đôi khi chúng ta sẽ cảm thấy khó khăn khi phải nói ra những sự thật khách quan nhưng phũ phàng."

Bà Ibrahim nhận định: "Đôi khi chúng ta sẵn sàng đánh đổi sự thẳng thắn để giữ vẻ ngoài lịch thiệp. Chúng tôi nghi ngờ rằng nếu sự đánh đổi này tồn tại trong cách con người giao tiếp, AI cũng sẽ tiếp nhận và nội hóa những đặc điểm đó từ dữ liệu huấn luyện."

Hệ lụy từ việc đánh đổi sự thật lấy lòng tin người dùng

Thực tế, các mô hình ngôn ngữ đời mới thường bị chỉ trích vì xu hướng nịnh bợ hoặc tự "ảo giác" thông tin.

Dù các hãng công nghệ luôn đưa ra khuyến cáo miễn trừ trách nhiệm, nhiều chuyên gia vẫn cảnh báo người dùng tuyệt đối không nên "tin tưởng mù quáng" vào AI.

Nguyên nhân cốt lõi nằm ở cách AI được tối ưu hóa để làm hài lòng người dùng (RLHF). Khi ưu tiên sự thấu cảm, thuật toán sẽ coi việc "giữ hòa khí" quan trọng hơn việc đối soát dữ liệu, dẫn đến tình trạng AI tự tin khẳng định những thông tin không có thật chỉ vì chúng nghe có vẻ an ủi và phù hợp với kỳ vọng của người đối diện.

Trong thử nghiệm này, các nhà nghiên cứu đã tinh chỉnh 5 mô hình AI với các kích cỡ khác nhau để chúng trở nên ấm áp và thấu cảm hơn.

Danh sách bao gồm hai mô hình của Meta (Llama), mô hình của Mistral (Pháp), Qwen của Alibaba và hệ thống GPT-4o từ OpenAI.

Sau đó, nhóm nghiên cứu đưa ra các câu hỏi đòi hỏi câu trả lời khách quan, có thể kiểm chứng được về y tế, kiến thức đố vui và các thuyết âm mưu.

Kết quả cho thấy, trong khi các mô hình gốc có tỷ lệ lỗi từ 4% đến 35%, các phiên bản "ấm áp" lại có tỷ lệ sai sót vọt lên đáng kể.

Chẳng hạn, khi hỏi về việc tàu Apollo đổ bộ lên Mặt Trăng, mô hình gốc khẳng định chắc chắn đây là sự thật với bằng chứng thép.

Tuy nhiên, phiên bản thân thiện lại bắt đầu bằng câu: "Điều quan trọng là chúng ta cần ghi nhận rằng có rất nhiều quan điểm khác nhau về sứ mệnh Apollo."

Thống kê tổng thể cho thấy việc tinh chỉnh AI theo hướng thân thiện làm tăng xác suất đưa ra câu trả lời sai trung bình khoảng 7,43%.

Đáng ngại hơn, các mô hình này có xu hướng né tránh việc phản bác những thông tin sai lệch từ phía người dùng.

Nghiên cứu chỉ ra rằng AI "ấm áp" có khả năng củng cố những niềm tin sai lầm của người dùng cao hơn 40% so với bình thường.

Ngược lại, những mô hình được điều chỉnh theo phong cách "lạnh lùng" và trực diện lại duy trì được độ chính xác cao hơn hẳn.

Việc biến AI thành "người bạn" hay "tư vấn viên" có thể vô tình đưa vào hệ thống những lỗ hổng bảo mật và sai lệch thông tin vốn không tồn tại ở phiên bản gốc.

Điều này tạo ra một rào cản lớn cho việc ứng dụng AI vào các dịch vụ đòi hỏi tính khắt khe về mặt dữ liệu.

Giáo sư Andrew McStay từ Phòng thí nghiệm AI Cảm xúc (Đại học Bangor) nhấn mạnh tầm quan trọng của bối cảnh sử dụng: "Đó là khi và ở nơi chúng ta dễ bị tổn thương nhất - và có lẽ là lúc chúng ta ít có khả năng phản biện nhất."

Dẫn chứng từ các số liệu mới nhất, ông cho biết ngày càng nhiều thanh thiếu niên tại Anh sử dụng chatbot như một người bạn tâm giao để xin lời khuyên. Đây là một xu hướng đáng báo động nếu chất lượng lời khuyên không được đảm bảo về mặt thực tế.

Giáo sư McStay kết luận: "Những phát hiện của OII là hồi chuông cảnh báo về giá trị thực sự của những lời khuyên từ AI. Sự nịnh bợ có thể khiến người dùng hài lòng tức thời, nhưng sai lệch về sự thật trong các vấn đề quan trọng là một rủi ro không thể xem thường."

*Nguồn: BBC