Logo bg.boatexistence.com

Може ли k-средните да се използват за категоризиране на текстови данни?

Съдържание:

Може ли k-средните да се използват за категоризиране на текстови данни?
Може ли k-средните да се използват за категоризиране на текстови данни?

Видео: Може ли k-средните да се използват за категоризиране на текстови данни?

Видео: Може ли k-средните да се използват за категоризиране на текстови данни?
Видео: Полное руководство по Google Forms - универсальный инструмент для опросов и сбора данных онлайн! 2024, Може
Anonim

K-means е класически алгоритъм за клъстериране на данни при извличане на текст, но рядко се използва за избор на функции. … Ние използваме метода k-means, за да уловим няколко центроида на клъстера за всеки клас и след това избираме високочестотните думи в центроиди като текстови характеристики за категоризиране.

Работи ли k-средните с категорични данни?

Алгоритъмът k-Means не е приложим за категорични данни, тъй като категоричните променливи са дискретни и нямат естествен произход. Така че изчисляването на евклидово разстояние за такова пространство няма смисъл.

Може ли k-средства да се използват за групиране на текст?

K-средства групирането е тип неконтролиран метод на обучение, който се използва, когато нямаме етикетирани данни, както в нашия случай, имаме немаркирани данни (означава, без определени категории или групи). Целта на този алгоритъм е да намери групи в данните, докато не. от групите се представя от променливата K.

Можем ли да използваме k-средни за класификация?

KMeans е алгоритъм за клъстериране, който разделя наблюденията на k клъстери. Тъй като можем да диктуваме количеството клъстери, то може лесно да се използва в класификацията, където разделяме данните на клъстери, които могат да бъдат равни или повече от броя на класовете.

Кой алгоритъм за групиране е най-добър за текстови данни?

за групиране на текстови вектори можете да използвате йерархични алгоритми за клъстериране като HDBSCAN, които също отчитат плътността. в HDBSCAN не е необходимо да задавате броя на клъстерите, както в k-средните и е по-стабилен най-вече при шумни данни.

Препоръчано: