soz6 wiki engine

2. Texniki:
maraq xatirinə əldəki data ilə naive bayes alqoritmini işə salaraq model training etdim. Naive Bayes mətn təsnifatı (baxma: text classification) üçün istifadə edilən məşhur machine learning alqoritmlərindən biridir. Alqoritm Bayes qaydası prinsipi ilə işləyir. Əsas üstünlüyü kiçik dataset ilə sürətli training edib, yüksək dəqiqlikli (baxma: accuracy) model yaratmaqdır. Lakin naive bayes mətndəki sözlər arasında bağlantının olmadığın varsayır. Yəni, əsasən, müxtəlif mətnlərdə müəyyən sözlərin təkrarlanma sayını nəzərə alır. Wiki entrylərdə isə belə bir varsayım aparmaq, güman ki, gözlənilən nəticəni verməyəcəkdir, çünki entrylərdəki sözlər arasında bağlantılar hökmən ki var. Bu deməkdir ki, mətndəki bir sözün iştirak etməsinin ehtimalı digər sözün mövcudluğundan təsirlənə bilir. Yenə də, bağlantılar güclü olmadıqda naive bayes qənaətbəxş nəticələr verir.

Dataset 364 wiki entry və 349 wiki olmayan randomly seçilmiş entry-dən ibarətdir. Toplamda 713 nümunə mövcuddur. Testing set üçün datasetin 10%-i ayrılmışdır: 72 test nümunəsi və 641 training nümunəsi.

Nəticələr:

Diaqramdan göründüyü kimi test zamanı 37 wiki entry-dən 34-nün həqiqətən wiki potensialı olduğu təyin edilib. Yəni model wiki entry-ləri tapmaqda yaxşıdır demək olar. Lakin digər tərəfdən wiki olmayan entry-lərin hardasa yarısı wiki kimi qeyd olunub. Yəni model wiki entryləri tapsa da, müqabilində wiki potensialı olmayan entry-ləri də qatır.

accuracy: ~0.72
F1 score: ~0.70

Classification Report:

Problemlər:

- dataset kiçik olduğu üçün overfitting baş vermiş və nəticədə model dəqiqliyi az olmuş ola bilər.

- Wiki olmayan entry-lər tamamilə random seçildiyi üçün aralarında wiki potensialı olub wikiləşdirilməmiş entry-lər olmuş ola bilər. Bu mərhələdə data emala verilməzdən öncə yazar tərəfindən gözdən keçirilməlidir.

- entry mətnlərindəki sözlər arasında bağlantı düşünüləndən güclü olmuş ola bilər.

- boş, mətn ehtiva etməyən random seçilmiş entry-lər (adətən yalnızca şəkildən ibarət olanlar) training-ə mənfi təsir göstərmiş ola bilər. Bu halda laplace smoothing tətbiq etmək məsləhət edilir.

- Random nonwiki entrylər seti wiki entrylər setinin feature cəhətdən ekvivalenti olmaya bilər. Bunun üçün nonwiki setə struktur aspektdən wiki entry-ə oxşayan lakin wiki potensialı olmayan entry-lər əlavə etmək lazımdır. Ümumiyyətlə, Random nonwiki entry-lərin önemalı mühüm əhəmiyyət daşıyır kimi görünür.

Update-lər gələcəkdir. Naive Bayes-lə bir qədər işlədikdən və dataset problemləri həll edildikdən sonra BERT alqoritmini sınamağı da düşünürəm.

şərhlər: