იერარქიული და ნაწილობრივი კლასტერიზაცია

კლასტერირება წარმოადგენს მანქანათა სწავლების ტექნიკას მონაცემთა ანალიზისა და ანალოგიური მონაცემების ჯგუფებად დაყოფისათვის. მსგავსი ჯგუფები ან მსგავსი მონაცემების ნაკრები ცნობილია როგორც მტევანი. კასეტური ანალიზი ათვალიერებს კლასტერიზაციის ალგორითმებს, რომლებსაც შეუძლიათ ავტომატურად ამოიცნონ მტევანი. იერარქიული და ნაწილობრივი არის კლასტერული ალგორითმების ორი ასეთი კლასი. იერარქიული კლასტერული ალგორითმები მონაცემებს იშლება მტევნების იერარქიაში. პარალელური ალგორითმები დაყოფილი მონაცემები იყოფა ურთიერთგანაწილებად დანაყოფებად.

რა არის იერარქიული კასეტური?

იერარქიული კლასტერული ალგორითმები იმეორებენ ციკლს ან მცირე მტევნების გაერთიანებას უფრო დიდებამდე ან უფრო დიდი მტევანი მცირე ზომისად. ნებისმიერ შემთხვევაში, იგი წარმოქმნის მტევნების იერარქიას, რომელსაც დენდოგრამა ეწოდება. აგლომერაციული კლასტერების სტრატეგია იყენებს ქვემოდან ზემო მიდგომას უფრო მცირე ზომის მტევნების გაერთიანებისკენ, ხოლო გამყოფი კლასტერიზაციის სტრატეგია იყენებს გაყოფა ზედა – ქვემო მიდგომას მცირე ზომისკენ. როგორც წესი, ხარბ მიდგომა გამოიყენება იმის გადაწყვეტაში, თუ რომელი უფრო დიდი / პატარა მტევანი გამოიყენება გაერთიანების / დაყოფისათვის. ევკლიდური მანძილი, მანჰეტენის მანძილი და კოსინური მსგავსება რიცხვითი მონაცემების მსგავსების ყველაზე ხშირად გამოყენებული მეტრია. არა-რიცხვითი მონაცემებისთვის გამოიყენება ისეთი მეტრიკა, როგორიცაა Hamming მანძილი. მნიშვნელოვანია აღინიშნოს, რომ ფაქტობრივი დაკვირვებები (ინსტანციები) არ არის საჭირო იერარქიული კლასტერაციისთვის, რადგან მხოლოდ დისტანციური მატრიქსებია საკმარისი. დენდროგრამა არის მტევნების ვიზუალური წარმოდგენა, რომელიც იერარქიას ძალიან ნათლად აჩვენებს. მომხმარებელს შეუძლია მოიპოვოს განსხვავებული კლასტერირება იმისდა მიხედვით, თუ რა დონეზე დენოგრამი ჭრის.

რა არის ნაწილობრივი კლასტერიზაცია?

კლასტერიზაციის ნაწილობრივი ალგორითმები წარმოქმნიან სხვადასხვა დანაყოფებს და შემდეგ აფასებენ მათ გარკვეული კრიტერიუმით. მათ ასევე მოიხსენიებენ, როგორც არაჰიარქიულ, როგორც ყოველი შემთხვევა მოთავსებულია ზუსტად ერთ – ერთ ურთიერთგამომრიცხავ მტევანში. იმის გამო, რომ მტევნების მხოლოდ ერთი ნაკრები არის ტიპიური ნაწილობრივი კლასტერული ალგორითმის გამომუშავება, მომხმარებელს მოეთხოვება შეავსოს მტევნების სასურველი რაოდენობა (ჩვეულებრივ, k). ერთ-ერთი ყველაზე ხშირად გამოყენებული ნაწილობრივი კლასტერული ალგორითმია k- საშუალებების კლასტერული ალგორითმი. მომხმარებელი ვალდებულია უზრუნველყოს მტევნების რაოდენობა (კ) დაწყებამდე და ალგორითმი პირველ რიგში იწყებს k ტიხრების ცენტრებს (ან ცენტროიდებს). მოკლედ, k- ნიშნავს კლასტერიზაციის ალგორითმი შემდეგ წევრებს ანიჭებს მიმდინარე ცენტრებისა და ხელახალი შეფასების ცენტრებს, არსებული წევრების საფუძველზე. ეს ორი ნაბიჯი მეორდება მანამ, სანამ არ მოხდება გარკვეული კლასგარეშე მსგავსების ობიექტური ფუნქცია და ინტერს კლასტერული განსხვავებულობის ობიექტური ფუნქცია. ამრიგად, ცენტრების გონივრული ინიციალიზაცია ძალზე მნიშვნელოვანი ფაქტორია ნაწილობრივი კლასტერული ალგორითმების ხარისხის შედეგების მისაღებად.

რა განსხვავებაა იერარქიულ და ნაწილობრივ კლასტერიზაციას შორის?

იერარქიულ და ნაწილობრივ კლასტერიზაციას აქვს ძირითადი განსხვავებები გაშვების დროს, ვარაუდებში, შეყვანის პარამეტრებში და შედეგად მიღებული მტევანი. როგორც წესი, ნაწილობრივი მტევანი უფრო სწრაფია, ვიდრე იერარქიული მტევანი. იერარქიული კლასტერიზაცია მოითხოვს მხოლოდ მსგავსების ზომას, ხოლო ნაწილობრივი კლასტერირება მოითხოვს უფრო ძლიერ ვარაუდებს, როგორიცაა მტევნების რაოდენობა და საწყისი ცენტრები. იერარქიული კლასტერიზაცია არ საჭიროებს შეყვანის პარამეტრებს, ხოლო ნაწილობრივი კლასტერული ალგორითმები მოითხოვს მტევნების რაოდენობას, რომ დაიწყონ გაშვება. იერარქიული კასეტური უბრუნდება მტევნების გაცილებით უფრო მნიშვნელოვანი და სუბიექტური დაყოფა, მაგრამ ნაწილობრივი მტევანი ხდება ზუსტად k მტევნებში. იერარქიული კლასტერული ალგორითმები უფრო შესაფერისია კატეგორიული მონაცემებისთვის, რადგან შეიძლება მსგავსების ზომების განსაზღვრა შესაბამისად.