Объяснение мультимодальных алгоритмов

Мы все слышали о силе и ценности алгоритмов, но что именно делает мультимодальные алгоритмы такими особенными?

Алгоритмы всегда были неотъемлемой частью эволюции ИТ, но по мере увеличения объема и сложности данных возрастает и сложность их интерпретации и управления ими. Это особенно актуально в эпоху операций с большими данными, которые основаны на извлечении полезных сведений из неструктурированных наборов данных.

Традиционные алгоритмы больше не способны справляться с контекстной природой приложений данных — и это не более очевидно, чем в области безопасности бренда и платформы. Здесь могут помочь мультимодальные алгоритмы.

Что такое модальности?

Рассмотрим среднюю веб-страницу — она содержит основной текст с изображениями, которые помогают упростить или усилить общее сообщение страницы. Вполне вероятно, что у изображения есть подпись, объясняющая его назначение. И за кулисами описательные теги, прикрепленные к изображению, обеспечивают дополнительный контекст для программ чтения с экрана и специальных возможностей.

Каждый из этих элементов — текст, изображения, подписи и метаописания — является «модальностью». Традиционные одномодовые алгоритмы чрезвычайно способны анализировать и обрабатывать определенный элемент, но они не могут предоставить какой-либо контекст по отношению к другим модальностям.

Как это выглядит на практике? Модальный алгоритм, предназначенный для анализа и категоризации текста, не может применяться, например, для оценки содержимого изображения. Он может успешно идентифицировать вредоносную формулировку на веб-странице, но не может сделать то же самое с вредоносным изображением. Он также не может обращаться к контексту изображения по отношению к сопроводительному тексту.

Мультимодальный алгоритм использует более тонкий подход, принимая несколько модальностей для анализа. Таким образом, каждый режим можно рассматривать отдельно и в контексте одновременно.

‍Не все мультимодальные алгоритмы одинаковы

Как и сам анализ данных, мультимодальные алгоритмы постоянно развиваются и совершенствуются. В результате не все мультимодальные алгоритмы одинаково эффективны или результативны.

Действительно, некоторые мультимодальные алгоритмы на самом деле работают как набор модальных алгоритмов. Снова возьмем в качестве примера простую веб-страницу: в этих системах есть алгоритм для текста и еще один для изображений. Текст на странице анализируется, и ему присваивается взвешенная оценка, указывающая на вероятность того, что контент будет считаться приемлемым. Второй алгоритм выполняет тот же тест для каждого изображения на странице, снова генерируя взвешенную оценку. Наконец, третий алгоритм оценивает оба взвешенных показателя, чтобы обеспечить общую оценку «годен/не годен» для всей страницы.

Хотя эти алгоритмы работают, разрозненный характер подхода означает, что нюансы контекста не могут быть должным образом оценены. Взвешенные оценки можно настраивать и улучшать, но риск неправильной классификации контента остается немного выше. Также вероятно, что этот тип алгоритма будет более медленным, более ресурсоемким и, следовательно, более дорогостоящим в эксплуатации с течением времени.

Более эффективным подходом является применение действительно мультимодального алгоритма, который принимает любые входные данные и оценивает их по отношению ко всем другим модальностям. При этом весь текст, изображения и закодированные комментарии будут анализироваться вместе, чтобы обеспечить более точное общее понимание каждого элемента и того, как они существуют в контексте. Понимая контекст, мультимодальный алгоритм может принимать решения по категоризации с большей точностью, снижая риск «просачивания» вредоносного или нежелательного контента.

Мультимодальные алгоритмы будут продолжать приобретать все большее значение в связи с необходимостью обработки огромных объемов данных. Но поскольку не все мультимодальные алгоритмы одинаковы, компаниям необходимо будет серьезно рассмотреть базовую архитектуру и ее потенциальные последствия для своих стратегий защиты бренда.

‍‍Подпишитесь на нас в Twitter, LinkedIn и Medium. Оставайтесь с нами, чтобы не пропустить новые интервью и обсуждения с людьми, работающими в сфере доверия и безопасности и безопасности бренда.

В Unitary мы создаем технологии, которые обеспечивают безопасное и позитивное взаимодействие в Интернете. Мы стремимся создать более безопасный онлайн-мир, в котором мощь искусственного интеллекта можно будет использовать во благо.

Для получения дополнительной информации о том, чем мы занимаемся, посетите наш веб-сайт или напишите нам по адресу [email protected].

Объяснение мультимодальных алгоритмов

Что такое модальности?

‍Не все мультимодальные алгоритмы одинаковы

Вопросы по теме