Обсуждение:Кластерный анализ

Dorian Gray 03:34, 19 февраля 2012 (UTC) Горшков Михаил.Ответить

Требования к данным уж очень спорны. Причём тут нормальное распределение вообще? Насчёт выбросов также спорно. Насчёт того, что данные должны быть безрамерными это вообще глупость (я её удалил). Ссылки на источник никакой нет.

Формальная постановка задачи кластеризации править

А если нет обучающей выборки? Всё? Нельзя кластеры выделить? Предлагаю переписать всё заново с учётом кластеризации, а не дискриминации. — Эта реплика добавлена участником Горшков Михаил (ов)

Ну... да. Если нет выборки - в чем вы собираетесь кластеры выделять? В вакууме? "Обучающая" не значит, что "с метками". Это слово лишь обозначает выборку, подаваемую на вход алгоритму обучения. -- X7q 05:28, 19 февраля 2012 (UTC)Ответить
Я писал не о выборке вообще, а об обучающей выборке. У этого термина есть устоявшийся смысл - это кластер, с заранее определёнными границами. Обучающая выборка должна быть определена заранее, а иначе кого она сможет "обучить". Допустим мы имеем обычную выборку данных, в которых группы не определены. Кого или что она обучает? Дискримнация это частный случай классификации при заранее определённых группах. Не будет же никто спорить, что отличаются методы обучения "с учителем" и "без учителя"? — Эта реплика добавлена участником Горшков Михаил (ов)
В первые слышу про какие-то "кластеры с заранее определёнными границами". "Допустим мы имеем обычную выборку данных, в которых группы не определены." - да, в задаче кластеризации как раз её и имеем. "Кого или что она обучает?" - алгоритмы кластеризации по ней строят модель данных, подбирают её параметры, это и есть обучением. EM-алгоритм например "выучивает" центры k гауссиан по этой самой обычной выборке. А вы что называете обучением? -- X7q 02:11, 21 февраля 2012 (UTC)Ответить
Странно, что впервые слышите. Например, весьма популярно это изложено в "Эконометрике" Орлова А.И. (глава 5, раздел 5.3). Цитата: "В дискриминантном анализе классы предполагаются заданными - плотностями вероятностей или обучающими выборками. Задача состоит в том, чтобы вновь поступающий объект отнести в один из этих классов. У понятия «дискриминация» имеется много синонимов: диагностика, распознавание образов с учителем, автоматическая классификация с учителем, статистическая классификация и т.д. При кластеризации и группировке целью является выявление и выделение классов. Синонимы: построение классификации, распознавание образов без учителя, автоматическая классификация без учителя, таксономия и др. Задача кластер-анализа состоит в выяснении по эмпирическим данным, насколько элементы "группируются" или распадаются на изолированные "скопления", "кластеры"(от cluster (англ.) - гроздь, скопление). Иными словами, задача - выявление естественного разбиения на классы, свободного от субъективизма исследователя, а цель - выделение групп однородных объектов, сходных между собой, при резком отличии этих групп друг от друга". Книгу достаточно легко найти в Сети, т.к. автор активный поборник свободы информации. Далее... Я вас правильно понимаю - вы говорите, что выборка обучает алгоритмы? Я в принципе не возражаю против любых мнений, но хотелось бы увидеть ссылку на АИ. Я свою ссылку предоставил только что. — Эта реплика добавлена участником Горшков Михаил (ов)
Ну написано все правильно. Но где же вы тут усмотрели опредение, что обучающая выборка это "кластер, с заранее определёнными границами"? Откуда эта туманная фраза? Мое мнение: "обучающая" значит выборка, подаваемая на вход алгоритму для обучения модели данных. Вот как алгоритм построит по ней модель, так и задутся классы в пространстве. Помимо нее еще говорят о проверочной или тестовой выборке, по которой проверяют насколько хорошо легли классы в итоге как хотелось. -- X7q 19:49, 21 февраля 2012 (UTC)Ответить
Написано же: "классы предполагаются заданными"... "отнести в один из этих классов" и т.д. Как можно отнести объект к тому или иному "классу" если о нём ничего не известно (в частности, не определены границы класса)? То есть задачи выделения кластеров здесь нет, их выделили ДО классификации. И никакого "тумана". А в случае кластеризации ничего заранее не выделено и количество классов (кластеров) определяются в процессе классификации, а не "как хотелось". Всё что вы тут говорите относится исключительно к первому варианту - к дискриминации. Это у вас из области машинного обучения, распознавания образов и т.п. Очевидно же, что этими областями кластерный анализ не исчерпывается. — Эта реплика добавлена участником Горшков Михаил (ов)
И вдогонку цитата от К.В. Воронцова (http://www.machinelearning.ru): "Задача классификации объектов на основе их сходства друг с другом, когда принадлежность обучающих объектов каким-либо классам не задаётся, называется задачей кластеризации". — Эта реплика добавлена участником Горшков Михаил (ов)

"Сжатие данных" править

Я думаю, в статье на самом деле речь идет не о сжатии данных, а о задаче снижения размерности ([1])