soz6 wiki engine
| sözaltı15,042 | 3 | 33
əjdahalar googlla
phaedrus
phaedrus
phaedrus
phaedrus
Yalnız deyilsən!
Bu duyğuların müvəqqəti olduğunu və kömək mövcud olduğunu bilmək vacibdir. Dostlarınıza, ailənizə, profesionallara müraciət etməyiniz vacibdir. Sizi dinləmək və lazım olan dəstəyi təmin etmək istəyən insanlar var. Sözlük yazarları olaraq səni hər zaman dinləyə bilərik.
Əgər yalnız hiss edirsənsə, 860 qaynar xəttinə müraciət etməyini tövsiyə edirik.
Natural Language Processing (bax: NLP) prinsipləri ilə işləyəcəkdir. Potensial wiki entry-ləri təyin etmək üçün indiyə qədər yığılmış wiki entrylərin və bərabər sayda seçilmiş wiki potensialı olmayan entrylərin müqayisəsi əsasında öyrədilmiş model tətbiq ediləcəkdir. Hazırda yetərli datanın yığılması və önemal prosesləri gedir.
Proyekt tamamlandıqda wiki engine-nin beta versiyası istifadəyə veriləcəkdir. ilk sürüm olduğundan, yetərli dəqiqlikdə işləməməsi gözləniləndir. Feedback alınaraq, wiki və non-wiki entry-lərin əmələ gətirdiyi sample-lardakı dəyişiklik də hesaba qatılaraq təkmilləşdirilmələr baş tutacaqdır.
Yalnız deyilsən!
Bu duyğuların müvəqqəti olduğunu və kömək mövcud olduğunu bilmək vacibdir. Dostlarınıza, ailənizə, profesionallara müraciət etməyiniz vacibdir. Sizi dinləmək və lazım olan dəstəyi təmin etmək istəyən insanlar var. Sözlük yazarları olaraq səni hər zaman dinləyə bilərik.
Əgər yalnız hiss edirsənsə, 860 qaynar xəttinə müraciət etməyini tövsiyə edirik.
maraq xatirinə əldəki data ilə naive bayes alqoritmini işə salaraq model training etdim. Naive Bayes mətn təsnifatı (baxma: text classification) üçün istifadə edilən məşhur machine learning alqoritmlərindən biridir. Alqoritm Bayes qaydası prinsipi ilə işləyir. Əsas üstünlüyü kiçik dataset ilə sürətli training edib, yüksək dəqiqlikli (baxma: accuracy) model yaratmaqdır. Lakin naive bayes mətndəki sözlər arasında bağlantının olmadığın varsayır. Yəni, əsasən, müxtəlif mətnlərdə müəyyən sözlərin təkrarlanma sayını nəzərə alır. Wiki entrylərdə isə belə bir varsayım aparmaq, güman ki, gözlənilən nəticəni verməyəcəkdir, çünki entrylərdəki sözlər arasında bağlantılar hökmən ki var. Bu deməkdir ki, mətndəki bir sözün iştirak etməsinin ehtimalı digər sözün mövcudluğundan təsirlənə bilir. Yenə də, bağlantılar güclü olmadıqda naive bayes qənaətbəxş nəticələr verir.
Dataset 364 wiki entry və 349 wiki olmayan randomly seçilmiş entry-dən ibarətdir. Toplamda 713 nümunə mövcuddur. Testing set üçün datasetin 10%-i ayrılmışdır: 72 test nümunəsi və 641 training nümunəsi.
Nəticələr:

Diaqramdan göründüyü kimi test zamanı 37 wiki entry-dən 34-nün həqiqətən wiki potensialı olduğu təyin edilib. Yəni model wiki entry-ləri tapmaqda yaxşıdır demək olar. Lakin digər tərəfdən wiki olmayan entry-lərin hardasa yarısı wiki kimi qeyd olunub. Yəni model wiki entryləri tapsa da, müqabilində wiki potensialı olmayan entry-ləri də qatır.
accuracy: ~0.72
F1 score: ~0.70
Classification Report:

Problemlər:
- dataset kiçik olduğu üçün overfitting baş vermiş və nəticədə model dəqiqliyi az olmuş ola bilər.
- Wiki olmayan entry-lər tamamilə random seçildiyi üçün aralarında wiki potensialı olub wikiləşdirilməmiş entry-lər olmuş ola bilər. Bu mərhələdə data emala verilməzdən öncə yazar tərəfindən gözdən keçirilməlidir.
- entry mətnlərindəki sözlər arasında bağlantı düşünüləndən güclü olmuş ola bilər.
- boş, mətn ehtiva etməyən random seçilmiş entry-lər (adətən yalnızca şəkildən ibarət olanlar) training-ə mənfi təsir göstərmiş ola bilər. Bu halda laplace smoothing tətbiq etmək məsləhət edilir.
- Random nonwiki entrylər seti wiki entrylər setinin feature cəhətdən ekvivalenti olmaya bilər. Bunun üçün nonwiki setə struktur aspektdən wiki entry-ə oxşayan lakin wiki potensialı olmayan entry-lər əlavə etmək lazımdır. Ümumiyyətlə, Random nonwiki entry-lərin önemalı mühüm əhəmiyyət daşıyır kimi görünür.
Update-lər gələcəkdir. Naive Bayes-lə bir qədər işlədikdən və dataset problemləri həll edildikdən sonra BERT alqoritmini sınamağı da düşünürəm.
Yalnız deyilsən!
Bu duyğuların müvəqqəti olduğunu və kömək mövcud olduğunu bilmək vacibdir. Dostlarınıza, ailənizə, profesionallara müraciət etməyiniz vacibdir. Sizi dinləmək və lazım olan dəstəyi təmin etmək istəyən insanlar var. Sözlük yazarları olaraq səni hər zaman dinləyə bilərik.
Əgər yalnız hiss edirsənsə, 860 qaynar xəttinə müraciət etməyini tövsiyə edirik.
Edilən dəyişikliklər:
- dataset ölçüsü 713 nümunədən 1207 nümunəyə qaldırıldı. Bunlardan 588-i wiki entry, 619-u isə təsadüfi seçilmiş wiki potensialı olmayan entry-dir. train-test data split müvafiq olaraq 80% : 20% nisbətində götürülmüşdür.
- Naive Bayes alqoritmi SVM (baxma: Support Vector Machine) texnologiyası ilə əvəz edildi.
- Feature extraction üçün tf-idf metodu istifadə olundu.
Accuracy: ~0.95
F1 score: ~0.95


Model nisbətən dolğun entry-ləri seçməyi bacarır. Buna baxmayaraq, təsadüfi seçilən wiki potensialı olmayan entry-lər seti inkişaf edilərək daha dəqiq nəticələr əldə oluna bilər. Buna kimi soz6 wiki engine beta versiyası müəyyən wiki potensialı olan entry-ləri siyahılaşdırmaq və dataset ölçüsünü artırmaq üçün istifade edilə bilər.
üzv ol