bugün məsləhət təsadüfi
sözaltı sözlük
postlar Yoxlama mesaj

8 yazar | 9 başlıq | 13 entry
yenilə | gündəm

son entrylər 13 yeni entry
#zirzəmi 1 yeni entry
#sözaltı wiki (3211)


chatgpt 8 sözaltı günlük 5 altı gün müharibəsi oğlanları cazibədar edən xüsusiyyətlər azərbaycan ateisti chatgpt gülümsədən mesajlar elgün ibrahimov üçün keçirilən 1 iyun 2025 etiraz aksiyası vazol,puff və.s vapelər sinonimlər m/platonik sevdiyin birinə hər şeyi etiraf etmək 1 m/kimya ya informatika 2 m/universitet ve fakulte secimi 3 aue türkiyə i̇nsan beyninin süni intellektlə müqayisəsi qoxu hafizəsi | elm əsgərlik vincentcatgogh 30-u keçmək və hələ də evli olmamaq american gods | kino veo 3 güldürən qarğışlar səs azərbaycan love | kino the last of us yazarların paylaşmaq istədikləri musiqilər sevgili xanım milenaya lolita-psixoz uncle tom's cabin reed hastings larry ellison oracle chicken run | kino emrah safa gürkan crumb theory | kino qadağan olunmuş filmlər sözaltı günlük street spirit recaptcha ilə insan olduğunu sübut etmək kod yazanda filosof olan adam muğamın fəlsəfi əsasları sözaltı tarixçə - yeniliklər wlingua busuu yazarların spotify listi no1 mahnılarında keçən mükəmməl cümlələr stabil miokard infarktı ay işığı xəstəliyi | elm miqren dimethyltryptamine(dmt) | elm experte span checker takotsubo cardiomyopathy reytinq lsd – lysergic acid diethylamide ilan adası welwitschia mirabilis welcome to me əfsanəvi albom qapaqları pair programming i will sözlük sözaltı sözlük alqoritm eratosfen xəlbiri | elm məhəmməd əmin rəsulzadə məsləhətli filmlər | kino umbay digital minimalism the sexual politics of meat forex terminləri high-frequency trading hft əli ömərov yaş artdıqca daha yaxşı dərk edilən şeylər yazarların paylaşmaq istədikləri mahnılar sumqayıt fallout new vegas vladimir demikhov baxılası türk serialları türkiyə universitetlərinə qəbul sinonimlər qoxu hafizəsi çəki atmaq istəyənlərə tövsiyələr türklərin sevilməyən cəhətləri








soz6 wiki engine



facebook twitter əjdaha lazımdı izlə dostlar   mən   googlla

başlıqdakı ən bəyənilən yazılar:

+14 əjdaha

3. Yaxşı xəbərlər var. Klassifikasiya dəqiqliyinin (baxma: accuracy) 72 faizdən 95 faizə qaldırılmasına nail olunmuşdur. Yəni əvvəlki qiymətdən 32%-lik artım müşahidə olunur. Bu deməkdir ki, artıq model wiki potensialı olan entry-ləri olmayanlardan daha dəqiq surətdə ayıra bilir. Məncə, wiki engine-nin beta versiyası istifadəyə verilməyə hazırdır.

Edilən dəyişikliklər:
- dataset ölçüsü 713 nümunədən 1207 nümunəyə qaldırıldı. Bunlardan 588-i wiki entry, 619-u isə təsadüfi seçilmiş wiki potensialı olmayan entry-dir. train-test data split müvafiq olaraq 80% : 20% nisbətində götürülmüşdür.
- Naive Bayes alqoritmi SVM (baxma: Support Vector Machine) texnologiyası ilə əvəz edildi.
- Feature extraction üçün tf-idf metodu istifadə olundu.

Accuracy: ~0.95
F1 score: ~0.95




Model nisbətən dolğun entry-ləri seçməyi bacarır. Buna baxmayaraq, təsadüfi seçilən wiki potensialı olmayan entry-lər seti inkişaf edilərək daha dəqiq nəticələr əldə oluna bilər. Buna kimi soz6 wiki engine beta versiyası müəyyən wiki potensialı olan entry-ləri siyahılaşdırmaq və dataset ölçüsünü artırmaq üçün istifade edilə bilər.

+11 əjdaha

2. Texniki:
maraq xatirinə əldəki data ilə naive bayes alqoritmini işə salaraq model training etdim. Naive Bayes mətn təsnifatı (baxma: text classification) üçün istifadə edilən məşhur machine learning alqoritmlərindən biridir. Alqoritm Bayes qaydası prinsipi ilə işləyir. Əsas üstünlüyü kiçik dataset ilə sürətli training edib, yüksək dəqiqlikli (baxma: accuracy) model yaratmaqdır. Lakin naive bayes mətndəki sözlər arasında bağlantının olmadığın varsayır. Yəni, əsasən, müxtəlif mətnlərdə müəyyən sözlərin təkrarlanma sayını nəzərə alır. Wiki entrylərdə isə belə bir varsayım aparmaq, güman ki, gözlənilən nəticəni verməyəcəkdir, çünki entrylərdəki sözlər arasında bağlantılar hökmən ki var. Bu deməkdir ki, mətndəki bir sözün iştirak etməsinin ehtimalı digər sözün mövcudluğundan təsirlənə bilir. Yenə də, bağlantılar güclü olmadıqda naive bayes qənaətbəxş nəticələr verir.

Dataset 364 wiki entry və 349 wiki olmayan randomly seçilmiş entry-dən ibarətdir. Toplamda 713 nümunə mövcuddur. Testing set üçün datasetin 10%-i ayrılmışdır: 72 test nümunəsi və 641 training nümunəsi.

Nəticələr:

Diaqramdan göründüyü kimi test zamanı 37 wiki entry-dən 34-nün həqiqətən wiki potensialı olduğu təyin edilib. Yəni model wiki entry-ləri tapmaqda yaxşıdır demək olar. Lakin digər tərəfdən wiki olmayan entry-lərin hardasa yarısı wiki kimi qeyd olunub. Yəni model wiki entryləri tapsa da, müqabilində wiki potensialı olmayan entry-ləri də qatır.

accuracy: ~0.72
F1 score: ~0.70

Classification Report:


Problemlər:

- dataset kiçik olduğu üçün overfitting baş vermiş və nəticədə model dəqiqliyi az olmuş ola bilər.

- Wiki olmayan entry-lər tamamilə random seçildiyi üçün aralarında wiki potensialı olub wikiləşdirilməmiş entry-lər olmuş ola bilər. Bu mərhələdə data emala verilməzdən öncə yazar tərəfindən gözdən keçirilməlidir.

- entry mətnlərindəki sözlər arasında bağlantı düşünüləndən güclü olmuş ola bilər.

- boş, mətn ehtiva etməyən random seçilmiş entry-lər (adətən yalnızca şəkildən ibarət olanlar) training-ə mənfi təsir göstərmiş ola bilər. Bu halda laplace smoothing tətbiq etmək məsləhət edilir.

- Random nonwiki entrylər seti wiki entrylər setinin feature cəhətdən ekvivalenti olmaya bilər. Bunun üçün nonwiki setə struktur aspektdən wiki entry-ə oxşayan lakin wiki potensialı olmayan entry-lər əlavə etmək lazımdır. Ümumiyyətlə, Random nonwiki entry-lərin önemalı mühüm əhəmiyyət daşıyır kimi görünür.

Update-lər gələcəkdir. Naive Bayes-lə bir qədər işlədikdən və dataset problemləri həll edildikdən sonra BERT alqoritmini sınamağı da düşünürəm.

+8 əjdaha

1. Sözlükdəki potensial wiki entry-ləri tapmaqda moder və partizanlara kömək edəcək artificial intelligence əsasında hazırlanması planlanan servis. Həmçinin wikilənmiş entry-nin hansı həssaslıqda wiki kriteriyasına uyğun gəldiyini təyin etmə özəlliyi də nəzərə alınmışdır.

Natural Language Processing (bax: NLP) prinsipləri ilə işləyəcəkdir. Potensial wiki entry-ləri təyin etmək üçün indiyə qədər yığılmış wiki entrylərin və bərabər sayda seçilmiş wiki potensialı olmayan entrylərin müqayisəsi əsasında öyrədilmiş model tətbiq ediləcəkdir. Hazırda yetərli datanın yığılması və önemal prosesləri gedir.

Proyekt tamamlandıqda wiki engine-nin beta versiyası istifadəyə veriləcəkdir. ilk sürüm olduğundan, yetərli dəqiqlikdə işləməməsi gözləniləndir. Feedback alınaraq, wiki və non-wiki entry-lərin əmələ gətirdiyi sample-lardakı dəyişiklik də hesaba qatılaraq təkmilləşdirilmələr baş tutacaqdır.



hamısını göstər

soz6 wiki engine