Коллаборативная фильтрация

Коллаборативная фильтрация

Коллаборативная фильтрация, совместная фильтрация (англ. collaborative filtering) — это метод, дающий автоматические прогнозы (фильтрацию) относительно интересов пользователя по собранной информации о вкусах множества пользователей (сотрудничающих между собой). Его основное допущение состоит в следующем: те, кто одинаково оценивали предметы в прошлом, склонны давать похожие оценки другим предметам и в будущем. [1] Например, коллаборативная фильтрация или рекомендательная система по музыкальным вкусам способна прогнозировать, какая музыка понравится пользователю [⇨], имея неполный список его предпочтений (симпатий и антипатий).[2] Отметим, что эти прогнозы индивидуальны, хотя используемая информация собрана от многих участников. Тем самым они отличаются от более простого подхода, дающего усреднённую оценку для каждого объекта интереса, к примеру, базирующуюся на количестве поданных за него голосов.

Коллаборативная фильтрация является одним из основных методов используемых в рекомендательных системах[⇨]. [3].

Содержание

Описание

В век информационного взрыва такие технологии чрезвычайно полезны, поскольку количество объектов даже в одной категории (такой, как фильмы, музыка, книги, новости, веб-сайты) стало настолько большим, что отдельный человек не способен просмотреть их все, чтобы выбрать подходящие.

Системы коллаборативной фильтрации обычно применяют двухступенчатую схему:

  1. Находят тех, кто разделяет оценочные суждения активного (прогнозируемого) пользователя.
  2. Используют оценки сходно мыслящих людей, найденных на первом шаге, для вычисления прогноза.

Так же существует другая форма коллаборативной фильтрации, которая основывается на скрытом наблюдении обычного поведения пользователя (в противоположность искусственному, порождённому необходимостью оценивать). В этих системах вы наблюдаете, как поступил данный пользователь, и как — другие (какую музыку они слушали, какие композиции приобрели), и используете полученные данные, чтобы предсказать поведение пользователя в будущем, или предсказать, как пользователь желал бы поступить при наличии определённой возможности. Эти предсказания должны быть отфильтрованы согласно логике бизнеса. Например, бесполезно предлагать кому-либо купить музыкальный файл, который у него уже имеется.

Виды

Виды коллаборативной фильтрации

Коллаборативная фильтрация является одним из основных методов используемых при создании рекомендательных систем. Существуют 3 основных подхода при использовании коллаборативной фильтрации: [4]

Подход основанный на соседстве

Этот подход является самым первым и используется во многих рекомендательных системах. В данном подходе для активного пользователя подбирается подгруппа пользователей схожих с ним. Комбинация весов и оценок подгруппы используется для прогноза оценок активного пользователя.[5] Большинство подходов данного типа можно разбить на следующие шаги:

  1. Присвоить вес каждому пользователю с учётом его схожести на активного пользователя.
  2. Выбрать k пользователей, которые имеют максимальный вес, то есть максимально похожи на активного пользователя. Данная группа пользователей и называется соседями. [6]
  3. Высчитать предсказание с учётом весов и оценок соседей.

Подход основанный на модели

Данный подход предоставляет рекомендации измеряя параметры статистических моделей для оценок пользователей. Модели разработаны с использованием интеллектуального анализа данных, алгоритмов машинного обучения, чтобы найти закономерности на основе обучающих данных. Они используются для прогнозирования реальных данных. Данный подход включает в себя много методов. Они включают в себя метод байесовских сетей, кластеризации, латентной семантической модели, такие как сингулярное разложение, вероятностный латентный семантический анализ, латентное распределение Дирихле и марковской процесс принятия решений на основе моделей. [5]

Этот подход вялятся более целостным, что помогает раскрыть латентные факторы, объясняющие наблюдаемые оценки. [7]Большинство моделей основана на технике создания классификации и кластеризации для идентификации пользователя на основе тестового набора. Число параметров может быть уменьшено на основе видов анализа главных компонент.

Данная парадигма имеет ряд преимуществ. Он обрабатывает разреженные матрицы лучше, чем подход основанный на соседстве. Это помогает с масштабируемостью больших наборов данных. Это делает прогнозы более точными. Это дает интуитивное обоснование рекомендаций. Недостатки этого подхода в дорогом создании модели. Нужно иметь компромисс между точностью и масштабируемостью прогноза, так как можно потерять полезную информацию в связи с сокращением моделей.

Гибридный подход

Одним из самых популярных подходов в реальных проектах является и гибридный подход, который объединяет подход основанный на соседстве с подходом основанным на модели. Это помогает преодолеть ограничения изначального оригинального подхода (основанного на соседстве) и улучшить качество предсказаний. Этот подход также позволяет преодолеть проблему разряженности и потери информации. Однако данный подохд сложен и дорог в реализации и применении. [8]

Применение в социальных сетях

Коллаборативная фильтрация широко используется в коммерческих сервисах и социальных сетях. Первый сценарий использования это создание рекомендации относительно интересной и популярной информации на основе голосов сообщества. Такие сервисы как Reddit и Digg типичные примеры использования алгоритмов коллаборативной фильтрации.

Другая сфера использования заключается в создании персонализированных рекомендации для пользователя, относительно его предыдущей активности и других схожих с ним пользователей. Данный способ реализации можно найти на таких сайтах как YouTube, Last.fm и Amazon [9].

Проблемы

Данное исследовательское направление всё ещё активно и имеет не решённые проблемы.

Разреженность данных

Как правило, большинство коммерческих рекомендательных систем основаны на большом количестве данных (товаров), в то время как большинство пользователей не ставит оценки товарам. В результаты этого матрица «предмет-пользователь» получается очень большой и разреженной, что представляет проблемы при вычислении рекомендаций. Эта проблема особенно остра для новых, только что появившихся систем. [4] Также разреженность данных усиливает проблему холодного старта.[10]

Проблема холодного старта

Новый предмет или пользователь представляют большую проблему для рекомендательных систем. Частично проблему помогает решить контекстно-основанный подход так как он полагается не на оценки, а на атрибуты, что помогает включать новые предметы в рекомендации для пользователей. Однако проблему с предоставлением рекомендации для нового пользователя решить сложнее. [4]

Синонимика

Синонимикой называется тенденция похожих и одинаковых предметов иметь разные имена. Большинство рекомендательных систем не способны обнаружить эти скрытые связи и поэтому относятся к этим предметам как к разным. Например, «фильмы для детей» и «детский фильм» относятся к одному жанру, но система воспринимает их как разные. [5]

Мошенничество

В рекомендательных системах, где каждый может ставить оценки, люди могут давать позитивные оценки своим предметам и плохие их конкурентам. Также, с тех пор как рекомендательные системы получили широкое распространение в коммерческих сайтах, они стали сильно влиять на на продажи и прибыль. Это приводит к тому, что недобросовестные поставщики пытаются мошенническим образом поднимать рейтинг своих продуктов и понижать рейтинг свои конкурентов.[4]

Разнообразие

Коллаборативная фильтрация изначально признана увеличить разнообразие, чтобы позволять открывать пользователям новые продукты из бесчисленного множества. Однако некоторые алгоритмы делают противоположное. Так как алгоритмы коллаборативной фильтрации основаны на продажах и рейтингах, они не могут рекомендовать новые продукты. Это в свою очередь только увеличивает эффект «богатые становятся ещё богаче» и приводит в меньшему разнообразию. [11]

Белые вороны

К белым воронам относятся пользователи, чьё мнение постоянно не совпадает с большинством остальных. Из за их уникального вкуса, для них практически невозможно создавать рекомендации. Однако, такие люди имеют проблемы с получением рекомендаций и в реальной жизни, поэтому поиски решения данной проблемы в настоящее время не ведутся. [5]

См. также

Примечания

Литература

  • Linden G., Smith B., and York J. Item-to-Item Collaborative Filtering (англ.) // IEEE Internet Computing, Los Alamitos, CA USA : журнал. — 2003. — С. 76 - 80.

Ссылки



Wikimedia Foundation. 2010.

Игры ⚽ Нужна курсовая?

Полезное


Смотреть что такое "Коллаборативная фильтрация" в других словарях:

  • Фильтрация — Микрофильтрация Анизотропная фильтрация Коллаборативная фильтрация Фильтрация сенсорной информации Фильтрация (гидротехника) Теория трехфазной неизотермической фильтрации Фильтрация (радиоэлектроника) Согласованная фильтрация Доплеровская… …   Википедия

  • Slope One — Slope One  семейство алгоритмов для коллаборативной фильтрации (используемой в рекомендательных системах) для анализа различных мнений и пожеланий пользователей и выработки персональных рекомендаций. Существует как минимум 2 класса… …   Википедия

  • Социальный граф — На данной анимации показаны в каких отношениях состоят разные социальные объекты. Пользователь Ева находится в дружеских отношениях с пользователями Адам и Кейт, при этом Адам и Кейт не являются друзьями друг другу, но у них есть общий друг Ева.… …   Википедия

  • Рекомендательная система — Рекомендательные системы  программы, которые пытаются предсказать, какие объекты (фильмы, музыка, книги, новости, веб сайты) будут интересны пользователю, имея определенную информацию о его профиле  (англ.). Зачастую реализуются на… …   Википедия

  • Социальные сетевые сервисы — Социальный сетевой сервис  виртуальная площадка, связывающая людей в сетевые сообщества с помощью программного обеспечения, компьютеров, объединенных в сеть (Интернет) и сети документов (Всемирной паутины). Сетевые социальные сервисы в… …   Википедия

  • Geochamp — Geochamps сервис (стартап), который дает людям возможность быстро найти себе компанию для общения в off line на определенный промежуток времени. Особенность сервиса размещать можно только реальные фотографии, сделанные в текущий момент времени… …   Википедия

  • Gvidi — на iPhone Тип образ жизни, еда и напитки, навигация, рестораны Автор AlterGeo …   Википедия


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»