Обсуждение статьи "Нейросети в трейдинге: Управляемая сегментация"

 

Опубликована статья Нейросети в трейдинге: Управляемая сегментация:

Предлагаем познакомиться с методом комплексного мультимодального анализа взаимодействия и понимания признаков.

Задача управляемой сегментации предполагает выделение из облака точек области на основании представленного описания целевого объекта средствами естественного языка. В ходе её решения модель проводит детальный анализ сложных мелкозернистых семантических зависимостей и строит точечную маску целевого объекта. Для решения данной задачи в работе "RefMask3D: Language-Guided Transformer for 3D Referring Segmentation" был представлен эффективный комплексный фреймворк, который всесторонне использует языковую информацию. Предложенный метод RefMask3D улучшает алгоритмы мультимодального взаимодействия и понимания.

Авторы метода предлагают использовать ранние уровни кодирования функций для извлечения богатого мультимодального контекста. С этой целью они вводят модуль Geometry-Enhanced Group-Word Attention, в котором осуществляется кросс-модальное внимание между описанием объекта на естественном языке и локальными группами точек (субоблаками) на каждом этапе кодирования их признаков. Эта интеграция не только уменьшает шум, присущий прямой корреляции между точками и словами, который часто возникают из-за разреженной и нерегулярной природы облаков точек, но также использует внутренние геометрические отношения и тонкую структуру облака точек. Что значительно улучшает способность модели взаимодействовать с лингвистическими и геометрическими данными.

Автор: Dmitriy Gizlyk