Có rất ít sự minh bạch về dữ liệu được sử dụng trong các hệ thống AI – một thực tế gây ra mối lo ngại gia tăng khi các hệ thống đó ngày càng được sử dụng với các hệ lụy của thế giới thực.
Khi các hệ thống AI ngày càng được sử dụng trong công việc và cuộc sống hàng ngày, việc hiểu các khía cạnh chính cách các hệ thống đó đã được tạo ra như thế nào và tin tưởng các kết quả đầu ra xa đến thế nào đang ngày càng trở nên thiết yếu hơn.
Như chúng tôi đã viết trong một bài báo được xuất bản gần đây trên Harvard Business Review, các nguồn dữ liệu khổng lồ, khó sử dụng và mù mờ không rõ ràng được sử dụng như là cơ sở cho việc sản xuất các kết quả đầu ra của các hệ thống AI tạo sinh (Generative AI). Việc không ghi lại thành tài liệu một cách công khai các nội dung và việc sử dụng các tập dữ liệu cản trở khả năng của các nhà phát triển, các nhà nghiên cứu, các nhà đạo đức học, và các nhà hoạch định chính sách để giải quyết các vấn đề khác nhau như các thành kiến, nội dung độc hại, lo ngại về bản quyền, và các rủi ro cho dữ liệu cá nhân và dữ liệu nhạy cảm. Sự thiếu tài liệu này lan sang tất cả các yếu tố của dữ liệu, bao gồm cả các tệp dữ liệu đào tạo và tinh chỉnh, cũng như các quy trình xác định gốc gác và gắn nhãn.
Trong bối cảnh cần minh bạch hơn trong thực hành dữ liệu AI, việc thiếu các phương pháp giám sát có hệ thống vẫn tồn tại trên nhiều hệ thống. Một nghiên cứu vào tháng 10 năm 2023 về 10 mô hình AI (“nền tảng”) chủ chốt của các nhà nghiên cứu Stanford đã nhấn mạnh rằng trong số các mô hình nói chung có tính minh bạch thấp khắp trong quá trình phát triển hệ thống AI, thì tính minh bạch về dữ liệu đặc biệt kém. Một bản cập nhật được phát hành gần đây cho nghiên cứu bao gồm một số mô hình khác và đã ghi nhận sự cải thiện nhỏ của một số nhà phát triển, nhưng nhìn chung, tính minh bạch dữ liệu vẫn còn kém.
Trong một nghiên cứu sắp tới của các thành viên trong nhóm nghiên cứu AI lấy dữ liệu làm trung tâm (Data-centric AI) của chúng tôi, chúng tôi đã sao chép phân tích trên phạm vi rộng hơn gồm 54 hệ thống AI đang gây lo ngại cho công chúng, vốn là trung tâm của các sự cố AI được ghi lại trong Cơ sở dữ liệu sự cố AI của Quan hệ đối tác AI. Chúng tôi nhận thấy rằng chỉ một số ít các hệ thống AI này cung cấp thông tin có thể nhận dạng được về các mô hình cơ bản và cách thực hành dữ liệu của chúng. Điểm số về tính minh bạch (được đánh giá cho những hệ thống cung cấp thông tin về tính minh bạch của mô hình cơ bản) ở mức thấp trên tất cả các chỉ số bao gồm kích thước dữ liệu, nguồn và giám tuyển dữ liệu, với từng chỉ số hiện diện trong ít hơn 40% mô hình được đánh giá. Hầu như không có hệ thống nào ghi điểm bao gồm thông tin về việc đưa dữ liệu có bản quyền, thông tin cá nhân trong dữ liệu hoặc việc sử dụng giấy phép dữ liệu.
Để dựa trên những phát hiện của mình, chúng tôi đang phát triển chỉ số minh bạch dữ liệu AI để cung cấp bức tranh rõ ràng hơn về mức độ minh bạch dữ liệu khác nhau giữa các loại nhà cung cấp hệ thống khác nhau, dựa trên sự hiểu biết sâu sắc hơn về nhu cầu đối với thông tin đó. Việc điều tra nhu cầu minh bạch dữ liệu trong hệ sinh thái sẽ dựa trên bằng chứng hiện tại, bao gồm cả nghiên cứu Tương lai mở gần đây về tài liệu minh bạch. Nghiên cứu sâu hơn sẽ tập trung vào việc trao quyền cho những người không chuyên và các cộng đồng bằng thông tin minh bạch, đồng thời hiểu rõ các rào cản và cơ hội để những người thực hành AI truyền đạt tính minh bạch của dữ liệu một cách hiệu quả.
Mặc dù tính minh bạch không thể được coi là “viên đạn bạc” để giải quyết các thách thức về đạo đức liên quan đến hệ thống AI hoặc xây dựng lòng tin, nhưng đó là điều kiện tiên quyết để đưa ra quyết định sáng suốt và các hình thức can thiệp khác như các quy định. Nếu bạn quan tâm đến việc cộng tác với chúng tôi trong nghiên cứu và vận động đang diễn ra của chúng tôi trong lĩnh vực này hoặc muốn thảo luận thêm về công việc này, vui lòng liên hệ.