Hierarkisk kontra partiell gruppering

Clustering är en maskininlärningsteknik för att analysera data och dela in i grupper av liknande data. Dessa grupper eller uppsättningar av liknande data kallas kluster. Klusteranalys tittar på klusteralgoritmer som kan identifiera kluster automatiskt. Hierarkiska och partiella är två sådana klasser av klusteralgoritmer. Hierarkiska klusteralgoritmer delar upp data till en hierarki av kluster. Paritionalalgoritmer delar upp datauppsättningen i partier som inte är gemensamma.

Vad är hierarkisk kluster?

Hierarkiska klusteralgoritmer upprepar cykeln för att antingen slå samman mindre kluster till större eller dela större kluster till mindre. Hursomhelst ger det en hierarki av kluster som kallas ett dendogram. Agglomerativ klusterstrategi använder bottom-up-strategin för att slå samman kluster till större, medan delande klusterstrategi använder top-down-metoden för att dela in sig till mindre. Vanligtvis används den giriga metoden för att bestämma vilka större / mindre kluster som används för sammanslagning / uppdelning. Euklidiskt avstånd, Manhattanavstånd och kosinuslikhet är några av de mest använda metricsna av likhet för numeriska data. För icke-numerisk data används mätvärden som Hamming-avståndet. Det är viktigt att notera att de faktiska observationerna (instanserna) inte behövs för hierarkisk kluster, eftersom endast avståndsmatrisen är tillräcklig. Dendogram är en visuell representation av klustren, som visar hierarkin mycket tydligt. Användaren kan erhålla olika kluster beroende på nivån på vilken dendogrammet skärs.

Vad är partiellt kluster?

Partitionella klusteralgoritmer genererar olika partitioner och utvärderar dem sedan med vissa kriterier. De kallas också nonhierarchical eftersom varje instans placeras i exakt en av k ömsesidigt exklusiva kluster. Eftersom endast en uppsättning kluster är utsignalen från en typisk partitionell klusteralgoritm krävs att användaren matar in det önskade antalet kluster (vanligtvis kallat k). En av de vanligaste partiella klusteralgoritmerna är k-medelklusteralgoritmen. Användaren måste ange antalet kluster (k) innan start och algoritmen initierar först k-partitionernas centra (eller centroids). I ett nötskal tilldelar sedan k-medel klusteralgoritm medlemmar baserat på de aktuella centra och omvärderar centra baserat på de aktuella medlemmarna. Dessa två steg upprepas tills en viss objektivfunktion med likheter mellan kluster och objektiv funktion mellan olika kluster är optimerad. Därför är en förnuftig initialisering av centra en mycket viktig faktor för att erhålla kvalitetsresultat från partiella klusteralgoritmer.

Vad är skillnaden mellan hierarkisk och partiell gruppering?

Hierarkisk och partiell gruppering har viktiga skillnader i körtid, antaganden, inputparametrar och resulterande kluster. Vanligtvis är partiell gruppering snabbare än hierarkisk klustering. Hierarkisk klustering kräver endast en likhetsmätning, medan partiell gruppering kräver starkare antaganden såsom antal kluster och de inledande centra. Hierarkisk klustering kräver inga ingångsparametrar, medan partiella klusteralgoritmer kräver att antalet kluster börjar köras. Hierarkisk klustering ger en mycket mer meningsfull och subjektiv uppdelning av kluster men delvis gruppering resulterar i exakt k kluster. Hierarkiska klusteralgoritmer är mer lämpade för kategoriska data så länge en likhetsmått kan definieras i enlighet därmed.