MIT удалил коллекцию Tiny Images из-за выявления расистских и женоненавистнических терминов в метках

Примеры картинок из датасета Tiny Images

Массачусетский технологический институт, сообщает портал OpenNET, удалил набор данных Tiny Images, включающий аннотированную коллекцию из 80 миллионов небольших изображений с разрешением 32×32. Набор поддерживался группой, развивающей технологии компьютерного зрения, и использовался c 2008 года различными исследователями для тренировки и проверки распознавания объектов в системах машинного обучения.

Причиной удаления стало выявление расистских и женоненавистнических терминов в метках, характеризующих изображённые на картинках объекты, а также наличия образов, которые воспринимались как оскорбительные. Например, присутствовали изображения половых органов, описанные жаргонными обозначениями, изображения некоторых женщин характеризовались как «шлюхи», применялись недопустимые в современном обществе термины для чернокожих и азиатов.

Причиной появления недопустимых слов было использование автоматизированного процесса, использующего при классификации семантические связи из лексической базы данных английского языка WordNet, созданной в 1980-е годы в Принстонском университете. Так как вручную проверить наличие оскорбительной лексики в 80 млн мелких картинок не представляется возможным, было принято решение полностью закрыть доступ к БД. MIT также призвал других исследователей прекратить использование данной коллекции и удалить её копии. Аналогичные проблемы наблюдаются и в крупнейшей аннотированной базе изображений ImageNet, в которой также используются привязки из WordNet.

Источник: 22century.ru

Читайте также  В Китае научились эффективно бороться против опасного комара — с помощью бактерий и радиации
Понравилась статья? Поделиться с друзьями:
Бизнес-идеи и бизнес-планы
Добавить комментарий