bugün məsləhət təsadüfi
sözaltı sözlük
postlar Yoxlama mesaj

15 yazar | 14 başlıq | 25 entry
yenilə | gündəm

son entrylər 25 yeni entry
#zirzəmi 2 yeni entry
#sözaltı wiki (3238)


sosial fobiya yazarların anlamadığı şeylər zöhrab pekaka om 651 mator github gecəyə bir mahnı paylaş tesla köhnə sevgilinin unudulmayan sözləri sözaltı günlük qənaətbəxş nikotinsiz ilk gün the accursed share ai alətləri və materialları söz6 application soz6 app test başlığı bugünkü xoşbəxtlik səbəbi diogo jota ad günündə yalnız qalmaq plagiat mahnılar kurtlar vadisi | kino demis roussos american party sözaltı fotoqrafiya mülki müdafiə | elm xroniki stress introvertlik gecə terroru çiqan maskalanmış depresssiya








...

soz6 wiki engine

əjdahalar   googlla

    2. Texniki:
    maraq xatirinə əldəki data ilə naive bayes alqoritmini işə salaraq model training etdim. Naive Bayes mətn təsnifatı (baxma: text classification) üçün istifadə edilən məşhur machine learning alqoritmlərindən biridir. Alqoritm Bayes qaydası prinsipi ilə işləyir. Əsas üstünlüyü kiçik dataset ilə sürətli training edib, yüksək dəqiqlikli (baxma: accuracy) model yaratmaqdır. Lakin naive bayes mətndəki sözlər arasında bağlantının olmadığın varsayır. Yəni, əsasən, müxtəlif mətnlərdə müəyyən sözlərin təkrarlanma sayını nəzərə alır. Wiki entrylərdə isə belə bir varsayım aparmaq, güman ki, gözlənilən nəticəni verməyəcəkdir, çünki entrylərdəki sözlər arasında bağlantılar hökmən ki var. Bu deməkdir ki, mətndəki bir sözün iştirak etməsinin ehtimalı digər sözün mövcudluğundan təsirlənə bilir. Yenə də, bağlantılar güclü olmadıqda naive bayes qənaətbəxş nəticələr verir.

    Dataset 364 wiki entry və 349 wiki olmayan randomly seçilmiş entry-dən ibarətdir. Toplamda 713 nümunə mövcuddur. Testing set üçün datasetin 10%-i ayrılmışdır: 72 test nümunəsi və 641 training nümunəsi.

    Nəticələr:

    Diaqramdan göründüyü kimi test zamanı 37 wiki entry-dən 34-nün həqiqətən wiki potensialı olduğu təyin edilib. Yəni model wiki entry-ləri tapmaqda yaxşıdır demək olar. Lakin digər tərəfdən wiki olmayan entry-lərin hardasa yarısı wiki kimi qeyd olunub. Yəni model wiki entryləri tapsa da, müqabilində wiki potensialı olmayan entry-ləri də qatır.

    accuracy: ~0.72
    F1 score: ~0.70

    Classification Report:


    Problemlər:

    - dataset kiçik olduğu üçün overfitting baş vermiş və nəticədə model dəqiqliyi az olmuş ola bilər.

    - Wiki olmayan entry-lər tamamilə random seçildiyi üçün aralarında wiki potensialı olub wikiləşdirilməmiş entry-lər olmuş ola bilər. Bu mərhələdə data emala verilməzdən öncə yazar tərəfindən gözdən keçirilməlidir.

    - entry mətnlərindəki sözlər arasında bağlantı düşünüləndən güclü olmuş ola bilər.

    - boş, mətn ehtiva etməyən random seçilmiş entry-lər (adətən yalnızca şəkildən ibarət olanlar) training-ə mənfi təsir göstərmiş ola bilər. Bu halda laplace smoothing tətbiq etmək məsləhət edilir.

    - Random nonwiki entrylər seti wiki entrylər setinin feature cəhətdən ekvivalenti olmaya bilər. Bunun üçün nonwiki setə struktur aspektdən wiki entry-ə oxşayan lakin wiki potensialı olmayan entry-lər əlavə etmək lazımdır. Ümumiyyətlə, Random nonwiki entry-lərin önemalı mühüm əhəmiyyət daşıyır kimi görünür.

    Update-lər gələcəkdir. Naive Bayes-lə bir qədər işlədikdən və dataset problemləri həll edildikdən sonra BERT alqoritmini sınamağı da düşünürəm.

10 əjdaha

phaedrus
#365800


14.01.2023 - 04:00
+5698 oxunma

şərhlər:

hələ şərh yoxdur.


hamısını göstər

üzv ol

...