Алгоритмы Facebook помогут интернет-компаниям искать дубликаты видео и изображений для борьбы с недопустимым контентом

04.08.2019 17:19

Facebook объявила об открытии исходного кода двух алгоритмов, способных определять степень идентичности для фотографий и видео, даже если в них внесены небольшие изменения. Эти алгоритмы социальная сеть активно использует для борьбы с контентом, содержащим материалы, связанные с эксплуатацией детей, террористической пропагандой и различными формами насилия. Facebook отмечает, что она впервые поделилась подобной технологией, и в компании надеются, что с её помощью другие крупные порталы и сервисы, небольшие студии по разработке ПО и некоммерческие организации смогут эффективнее бороться с распространением недопустимого медиа-контента в мировой Сети.
«Когда мы находим фрагмент недопустимого контента, технологии могут помочь нам найти все его дубликаты и предотвратить их распространение», — пишут глава службы безопасности Facebook Антигона Дэвис (Antigone Davis) и вице-президент по честности Ги Розен (Guy Rosen) в своём посте, приуроченном к четвёртому ежегодному хакатону «Безопасность детей в Facebook». «Для тех, кто уже использует свою собственную или другую технологию сопоставления контента, наши технологии могут стать ещё одним уровнем защиты, делая системы безопасности намного более мощными».
Facebook утверждает, что два опубликованных алгоритма — PDQ и TMK+PDQ — были разработаны для работы с огромными массивами данных и основаны на уже существующих моделях и реализациях, включая pHash, PhotoDNA от Microsoft, aHash и dHash. Например, алгоритм PDQ для сравнения фотографий был вдохновлён pHash, но при этом разработан полностью с нуля разработчиками из Facebook, в то время как сопоставляющий видео TMK+PDQF создан совместными усилиями исследовательской группой Facebook по искусственному интеллекту и учёными из Университета Модены и Реджо-Эмилии в Италии.
Оба алгоритма анализируют искомые файлы, благодаря коротким цифровых хешам, уникальным идентификаторам, которые помогают определить, являются ли два файла одинаковыми или похожими, даже без исходного изображения или видео. Facebook отмечает, что данные хеши могут быть легко переданы другим компаниям и некоммерческим организациям, а также отраслевым партнёрам через Глобальный интернет-форум по борьбе с терроризмом (GIFCT), поэтому все заинтересованные в сетевой безопасности компании также смогут удалять контент, помеченный Facebook как небезопасный, если он загружен в их сервисы.
Разработка PDQ и TMK+PDQ последовала вслед за релизом вышеупомянутой PhotoDNA 10 лет назад в попытке борьбы с детской порнографией в сети со стороны Microsoft. Также совсем недавно Google запустила Content Safety API, платформу искусственного интеллекта, предназначенную для выявления онлайн-материалов о сексуальных надругательствах над детьми, чтобы сделать работу людей-модераторов более эффективной.
В свою очередь глава Facebook Марк Цукерберг уже давно утверждает, что ИИ в ближайшем будущем существенно сократит количество злоупотреблений, совершаемых миллионами недобросовестных пользователей Facebook. И действительно, в опубликованном в мае отчёте о соблюдении стандартов сообщества Facebook компания сообщила, что ИИ и машинное обучение помогли значительно сократить количество опубликованных запрещенных материалов в шести из девяти категорий подобного контента.

Источник