Методы бикластеризации для анализа интернет-данных

       

В работе дан обзор методов


В работе дан обзор методов бикластеризации, построена их решеточная таксономия. Показана связь ассоциативных правил и бикластеризации. Проведена серия экспериментов на реальных массивах Интернет-данных.
Предложена математическая модель ассоциативных метаправил для формирования рекомендаций в системах контекстной Интернет-рекламы. Для их построения использован ФАП, алгоритмы поиска ассоциаций, а также элементы компьютерной лингвистики, такие как стемминг. Во втором важном типе метаправил используется понятие онтологии.
Основное преимущество этих методов состоит в том, что без предварительного анализа самих данных можно сгенерировать высоко достоверные рекомендации. Это позволяет выдавать рекомендации уже на ранних этапах деятельности, когда клиентская база не велика. Результаты подтверждены экспериментально. Помимо этого показана состоятельность методов ФАП для выявления относительно крупных рынков рекламодателей и слов.
Предложена модель, в которой для поиска документов-дубликатов используются частые (замкнутые) множества признаков и ФАП. Экспериментально подтверждена обоснованность данной вычислительной модели на массиве РОМИП.
Для выявления сообществ посетителей сайтов и построения их таксономий предложено использовать аппарат ФАП. Применение индекса устойчивости позволяет проводить визуализацию относительно больших массивов данных о посещаемости, что является полезным средством для веб-аналитика.
В качестве возможных направлений дальнейших исследований отметим следующее:
  • изучение свойств бикластеров:

  • определение степени перекрытия бикластеров, густоты внутри бикластера и густоты вне;

  • оценка возможности определения порядка на бикластерах, анализ их алгебраической структуры;

  • изучение связи некоторых параметров бикластеризации с индексами типа устойчивости;
  • уточнение и расширение оснований для классификации бикластеров для построения более полной и точной таксономии алгоритмов и методов;

  • исследование связи методов: шумоустойчивые понятия и бокс-кластеризация, ФАП и спектральная кластеризация.


  • Содержание раздела