Google работает над уменьшением предвзятости в машинном обучении
Одной актуальных проблем для исследователей в области машинного обучения является уменьшение предвзятости, которая зачастую представлена в исходных данных и может усиливаться такими системами.
Например, если разработчик хочет создать алгоритм, помогающий определять наиболее подходящих кандидатов на вакансию, то он может использовать существующих сотрудников компании в качестве источника данных. В результате ML-система будет иметь соответствующие искажения. Так, если в компании работает больше мужчин, то им может присваиваться больший вес в выборке. При этом люди с определенным опытом или характеристиками могут отсеиваться.
В Google намерены решить эту проблему с помощью нового инструмента для анализа наборов данных Know Your Data (KYD). С его помощью разработчики смогут идентифицировать существующие предубеждения в своих данных, чтобы свести их к минимуму.
Ниже – пример использования KYD для анализа подписей к изображениям на предмет распространенности женских и мужских изображений в рамках определенной категории.
На данный момент новая система довольно ограничена в том, как она может извлекать и анализировать примеры данных. Однако отмечается, что она указывает на лучшее будущее для такого анализа и открывает больше возможностей для уменьшения предвзятости в системах машинного обучения.