ReCoder (recoder) wrote,
ReCoder
recoder

  • Mood:
  • Music:

Вопросы классификации

Меня на днях спросили про классификацию, теги и всё такое прочее. Подумав, я выделил несколько видов классификации:

Categories

Категории, как правило призваны поделить множество классифицируемых объектов на более-менее близкие по размеру группы. При этом обычно эти группы не пересекаются и образуют из себя дерево. Поскольку техника классификации зависит от предметной области (чтобы дерево под-категорий было сбалансированным), то при построении таксономической структуры категорий её надо очень хорошо себе представлять. На крайняк - взять стандартную от Open Directory или Yahoo.

Keywords

Ключевые слова - это обычно слова/фразы, выбраные из описания объекта, по которым потом можно легко находить нужные объекты, делая срезы по выбранному ключевому слову. Впрочем, иногда ключевые слова используются наоборот - чтобы проассоциировать с текстом слова, не встречающиеся в нём, но семантически связаные с ним. Но в любом случае, ключевые слова затачиваются под последующий поиск по ним.

Facets

Фасеты - это разбиения объектов на группы по определённому признаку. При просмотре множеств объектов эти разбиения могут применяться в произвольном порядке (причём некоторые могут и не применяться). Пример: деление продуктов во Froogle (см.внизу).

Tags

Теги, вообще говоря, это просто некое слово или словосочетание, ассоциированное с классифицируемым объектом. В результате в общем множестве объектов выделяются пересекающиеся кластеры, над которыми в принципе можно работать методами теории множеств (хотя практических применений этого я не видел).

Громкий успех тегов на волне Web 2.0 объясняется довольно просто. Признаемся себе: создать хорошую схему классификации - сложно. Заставить (даже себя) заняться организацией тысяч объектов в полезных группы - практически невозможно. А вот попросить всех пользователей приписать каждому объекту несколько слов-тегов - несложно, особенно если у пользователей есть своя мотивация. Потом эти теги статистически обработали (вот пример моего облака ссылок) - и получили ad hoc классификацию, которая и работает за счёт статистики. Фолксономия во всей её красе. Яркий пример: del.icio.us.


А основная мораль всего этого - прежде чем заниматься классификацией чего-либо, надо задуматься и понять как будет работать эта классификация и какие цели она преследует.

Tags: computer science
Subscribe
  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 20 comments