Інструмент з відкритим вихідним кодом для боротьби з ненадійним AI

29 июль, 2024 - 13:26

Уряд США замовив інструмент з відкритим вихідним кодом для оцінки безпеки AI-фреймворків. Інструмент Dioptra тестує вплив атак противника на моделі машинного навчання, щоб допомогти розробникам і замовникам боротися з ненадійним AI та визначити, наскільки добре фреймворк протистоїть різним атакам.

Одним із вразливих місць системи AI є модель, що лежить в її основі. Піддаючи модель впливу великої кількості навчальних даних, вона вчиться приймати рішення. Але якщо противники отруять навчальні дані неточностями - наприклад, введуть дані, які змусять модель невірно визначати знаки зупинки як знаки обмеження швидкості, - модель зможе ухвалювати неправильні, потенційно катастрофічні рішення.

Програмне забезпечення Dioptra з відкритим вихідним кодом доступне для безоплатного завантаження з Github, щоб допомогти компаніям проводити експертизи для оцінки заяв розробників AI про продуктивність системи та таким чином боротися з неперевіреним AI.

Dioptra надає REST API, яким можна керувати за допомогою інтуїтивно зрозумілого вебінтерфейсу, клієнта на Python або будь-якої іншої бібліотеки REST-клієнта на вибір користувача для розроблення, управління, виконання та відстеження експериментів.

Національний інститут стандартів і технологій США (NIST) звернувся до компанії Dioptra з проханням дати користувачеві можливість визначити, які види атак призведуть до зниження ефективності роботи моделі, і кількісно оцінити зниження продуктивності, щоб користувач міг дізнатися, як часто та за яких обставин система даватиме збій. Це має ключове значення для використання AI в критично важливих системах безпеки.

NIST також розробив профіль для визначення унікальних ризиків, пов'язаних із генеративним AI як ще одним типом ненадійного AI. У ньому пропонуються дії з управління ризиками генеративного AI, які найкращим чином узгоджуються з їхніми цілями та пріоритетами. В основі цього лежить список із 12 ризиків і трохи більш як 200 дій, які розробники можуть зробити для управління ними.

Ці 12 ризиків включають зниження бар'єра для атак кібербезпеки, створення дезінформації, мови ворожнечі та іншого шкідливого контенту, а також конфабуляцію або «галюцинацію» результатів роботи систем генеративного AI. Після опису кожного ризику в документі наводиться матриця дій, які розробники можуть вжити для їх зниження, з прив'язкою до AI RMF.

Додаткові рекомендації з практики безпечного розроблення ПЗ для генеративного AI та базових моделей подвійного призначення призначені для використання разом із Рамками безпечного розроблення ПЗ (SSDF, Secure Software Development Framework). SSDF загалом стосується практики кодування програмного забезпечення, а цей супутній ресурс розширює SSDF, щоб частково розв'язати головну проблему, пов'язану із системами генеративного AI: ненадійні системи AI можуть бути скомпрометовані шкідливими навчальними даними, які негативно впливають на роботу системи AI.

У цьому посібнику не тільки розглядаються аспекти навчання і використання систем AI, а й визначаються потенційні фактори ризику і стратегії їх усунення. Серед інших рекомендацій - аналіз навчальних даних на наявність ознак отруєння, упередженості, однорідності та фальсифікації.