Stojantiesiems

Matematinės statistikos katedra

Rengia I ir II pakopos duomenų analizės, duomenų mokslo ir statistikos specialistus, gebančius taikyti statistinius metodus įvairiose mokslo ir praktikos srityse. Vykdo teorinius tyrimus, orientuotus į tikimybių teorijos ribinių teoremų problematiką, tiek statistikos taikomuosius tyrimus – nuo technologinių procesų iki ekonomikos ir genetikos.
Telefonas: (0 5) 274 4849 El. paštas: fmsa@vilniustech.lt
Grafikas

Apie katedrą

Katedros partneriai

Matematinės statistikos katedra aktyviai bendradarbiauja su socialiniais ir verslo partneriais.

Rodyti daugiau

Katedros darbuotojai

Matematinės statistikos katedros darbuotojai yra aukštos kvalifikacijos matematikos, statistikos ir duomenų analizės specialistai, kurie vykdo mokslinius tyrimus, rengia ir veda užsiėmimus studentams.

Administracija
  • Administracija
  • Mokslo darbuotojai
Rodyti daugiau

Baigiamųjų darbų anotacijos

Metai
Kvalifikacija
Išvalyti pasirinkimus
Dominykas Jasas — Dr. Tadas Žvirblis
Oro valymo sistemų efektyvumo nustatymas statistiniais metodais
Baigiamajame darbe nagrinėjamas oro valymo sistemos efektyvumas taikant statistinius metodus. Tyrimo tikslas – nustatyti oro valymo sistemos efektyvumą remiantis statistiniais metodais. Tyrime analizuoti 57 eksperimentiniai bandymai, kuriuose dalelių...
2026 Bakalauras ir vientisosios studijos
  • 2026
  • Bakalauras ir vientisosios studijos
Oro valymo sistemų efektyvumo nustatymas statistiniais metodais
Studentas: Dominykas Jasas
Vadovas: Dr. Tadas Žvirblis
Katedra: Matematinės statistikos katedra
Anotacija (LT)
Baigiamajame darbe nagrinėjamas oro valymo sistemos efektyvumas taikant statistinius metodus. Tyrimo tikslas – nustatyti oro valymo sistemos efektyvumą remiantis statistiniais metodais. Tyrime analizuoti 57 eksperimentiniai bandymai, kuriuose dalelių koncentracija buvo matuojama prieš oro valymo sistemos akustinės aglomeracijos etapą ir po jo. Dalelės suskirstytos į smulkiųjų ir stambiųjų dalelių grupes, o efektyvumui įvertinti apskaičiuotas procentinis koncentracijos pokytis. Darbe taikyti aprašomosios statistikos metodai, Wilcoxon ranginis testas, dvifaktorė ANOVA su Tukey post-hoc palyginimais, daugialypė tiesinė regresija, atsitiktinių miškų regresija ir atraminių vektorių regresija. Prognozavimo modeliai buvo lyginami pagal kokybės rodiklius: MAE, RMSE ir determinacijos koeficientą. Gauti rezultatai parodė reikšmingą smulkiųjų dalelių koncentracijos sumažėjimą, tačiau efektyvus akustinės aglomeracijos procesas nebuvo vienareikšmiškai statistiškai patvirtintas. Daugialypės tiesinės regresijos modeliuose oro srauto greitis ir tiekiama dalelių koncentracija buvo statistiškai reikšmingi parametrai, tačiau dėl netenkinamų liekanų prielaidų rezultatai nebuvo priimti kaip vienareikšmiškai patikimi. Prognozavimo modelių palyginimas parodė, kad geriausius rezultatus pasiekė atsitiktinių miškų regresijos modelis, kuris testavimo imtyje paaiškino apie 70 % duomenų variacijos. Vis dėlto dėl nedidelės eksperimentinių bandymų imties rezultatai taip pat nebuvo vienareikšmiškai patvirtinti.
oro valymo sistema akustinė aglomeracija dalelių koncentracija statistinė analizė regresija mašininis mokymasis.
Annotation (EN)
The final thesis examines the efficiency of an air purification system using statistical methods. The aim of the thesis is to determine the efficiency of the air purification system based on statistical methods. The study analysed 57 experimental trials in which particle concentration was measured before and after the acoustic agglomeration stage of the air purification system. The particles were divided into fine and coarse particle groups, and the percentage change in concentration was calculated to evaluate the system’s efficiency. The study applied descriptive statistics, the Wilcoxon signed-rank test, two-way ANOVA with Tukey post-hoc comparisons, multivariate linear regression, random forest regression and support vector regression. The prediction models were compared using performance metrics: MAE, RMSE and the coefficient of determination. The results showed a significant decrease in fine particle concentration; however, the efficiency of the acoustic agglomeration process was not unambiguously statistically confirmed. In the multivariate linear regression models, air flow velocity and supplied particle concentration were statistically significant parameters; however, due to unmet residual assumptions, the results were not accepted as unambiguously reliable. The comparison of prediction models showed that the random forest regression model achieved the best results, explaining approximately 70% of the data variation in the test sample. Nevertheless, due to the small sample of experimental trials, the results were also not unambiguously confirmed.
air purification system acoustic agglomeration particle concentration statistical analysis regression machine learning.
Edvinas Kurmis — Dr. Mindaugas Jasas
Sutelktinio finansavimo paskolų rizikos vertinimo modelių paaiškinamumas ir interpretavimas
Baigiamajame darbe nagrinėjamas paskolų negrąžinimo rizikos vertinimas tarpusavio skolinimo platformoje, taikant logistinės regresijos ir neuroninių tinklų modelius. Darbo tikslas – palyginti šių modelių prognozavimo kokybę bei interpretuoti jų...
2026 Bakalauras ir vientisosios studijos
  • 2026
  • Bakalauras ir vientisosios studijos
Sutelktinio finansavimo paskolų rizikos vertinimo modelių paaiškinamumas ir interpretavimas
Studentas: Edvinas Kurmis
Vadovas: Dr. Mindaugas Jasas
Katedra: Matematinės statistikos katedra
Anotacija (LT)
Baigiamajame darbe nagrinėjamas paskolų negrąžinimo rizikos vertinimas tarpusavio skolinimo platformoje, taikant logistinės regresijos ir neuroninių tinklų modelius. Darbo tikslas – palyginti šių modelių prognozavimo kokybę bei interpretuoti jų sprendimus naudojant paaiškinamojo dirbtinio intelekto metodus. Tyrime naudoti sutelktinio finansavimo platformos paskolų duomenys, apimantys skolininkų demografines, socialines ir finansines charakteristikas. Sukurti keturi prognozavimo modeliai, kurių kokybė vertinta taikant klasifikavimo rodiklius. Modelių sprendimams aiškinti naudotas SHAP metodas, leidęs atlikti tiek globalią, tiek lokalią prognozių interpretaciją. Tyrimo rezultatai parodė, kad logistinė regresija nagrinėjamoje užduotyje pasiekė geresnius rezultatus nei neuroniniai tinklai. Taip pat nustatyta, kad SHAP metodas suteikia galimybę nustatyti svarbiausius prognozes lemiančius veiksnius ir paaiškinti individualias kredito rizikos prognozes, tačiau jo rezultatai priklauso nuo pasirinkto foninio duomenų rinkinio. Gauti rezultatai rodo, kad paaiškinamojo dirbtinio intelekto metodai gali prisidėti prie skaidresnio ir geriau interpretuojamo kredito rizikos vertinimo proceso. Darbo apimtis – 44 p. teksto be priedų, 14 iliustr., 7 lent., 12 bibliografinių šaltinių. Atskirai pridedami darbo priedai.
kredito rizika paskolos negrąžinimo prognozavimas tarpusavio skolinimas logistinė regresija neuroniniai tinklai SHAP metodas paaiškinamasis dirbtinis intelektas klasifikavimo modeliai.
Annotation (EN)
This bachelor's thesis examines the assessment of loan default risk in a peer-to-peer (P2P) lending platform using logistic regression and artificial neural network models. The aim of the study is to compare the predictive performance of these models and to interpret their decisions using explainable artificial intelligence methods. The research is based on P2P lending data containing borrowers’ demographic, social, and financial characteristics. Four predictive models were developed, and their performance was evaluated using classification metrics. The SHAP method was applied to explain model decisions, enabling both global and local interpretation of predictions. The results showed that logistic regression outperformed neural networks in the analyzed task. The findings also demonstrated that the SHAP method can identify the most important factors influencing predictions and explain individual credit risk assessments; however, its results depend on the selected background dataset. Overall, the study indicates that explainable artificial intelligence methods can contribute to a more transparent and interpretable credit risk assessment process. Thesis volume: 44 pages of text excluding appendices, 14 figures, 7 tables, and 12 references. Appendices are provided separately.
credit risk loan default prediction peer-to-peer lending logistic regression neural networks SHAP explainable artificial intelligence classification models.
Elzė Viltrakytė — Doc. Dr. Tomas Rekašius
Atotrūkio tarp vyrų ir moterų atlyginimų Lietuvoje statistinė analizė
Baigiamajame bakalauro darbe atliekama atlyginimų atotrūkio tarp vyrų ir moterų Lietuvoje statistinė analizė. Remiantis teorine dalimi bei aprašomąja analize, darbe kuriami tiesinės regresijos bei dispersinės analizės modeliai, kurie...
2026 Bakalauras ir vientisosios studijos
  • 2026
  • Bakalauras ir vientisosios studijos
Atotrūkio tarp vyrų ir moterų atlyginimų Lietuvoje statistinė analizė
Studentas: Elzė Viltrakytė
Vadovas: Doc. Dr. Tomas Rekašius
Katedra: Matematinės statistikos katedra
Anotacija (LT)
Baigiamajame bakalauro darbe atliekama atlyginimų atotrūkio tarp vyrų ir moterų Lietuvoje statistinė analizė. Remiantis teorine dalimi bei aprašomąja analize, darbe kuriami tiesinės regresijos bei dispersinės analizės modeliai, kurie naudojami įvertinti skirtingų kintamųjų įtaką vidutiniam atlyginimui bei nustatyti lyties reikšmingumą atlyginimų skirtumui. Siekiant paaiškinti atlyginimų atotrūkį, atlikta Blinder – Oaxaca dekompozicija ir išskirta statistiškai paaiškinama ir nepaaiškinama šio reiškinio komponentės. Darbe taip pat sudaryta santykinio atlyginimų atotrūkio laiko eilutė, atlikta jos analizė bei prognozė. Pabaigoje pateikti baigiamojo darbo rezultatai bei išvados. Darbą sudaro 7 dalys: įvadas, literatūros apžvalga, metodinė dalis, praktinė dalis, rezultatai ir išvados, literatūros sąrašas, priedai. Darbo apimtis – 40 p. teksto be priedų, 15 iliustr., 6 lent., 12 bibliografinių šaltinių. Atskirai pridedami darbo priedai.
lyčių lygybė atlyginimų skirtumas darbo užmokestis regresinė analizė dispersinė analizė Blinder – Oaxaca dekompozicija laiko eilutės
Annotation (EN)
The final bachelor’s thesis performs a statistical analysis of the gender pay gap in Lithuania. Based on the theoretical framework and descriptive analysis, linear regression and analysis of variance (ANOVA) models are developed and used to asses the impact of various variables on average wages and to determine the significance of gender in explaining wage differences. To explain the gender pay gap, a Blinder – Oaxaca decomposition is performed, distinguishing between the statistically explained and unexplained components of this phenomenon. The thesis also constructs a time series of the relative gender wage gap, followed by its analysis and forecasting. Finally, the results and conclusions of the thesis are presented. The thesis consists of the following parts: introduction, literature review, theoretical-methodological part, practical part, conclusions, list of references, and appendices. Thesis length: 40 pages without appendices, 15 figures, 6 tables, 12 bibliographic sources.
gender equality the gender pay gap wages regression analysis dispersion analysis Blinder - Oaxaca decomposition time series analysis
Liana Radeckaja — Dr. Vilma Nekrašaitė-Liegė
Skaitmeninių mokomųjų užduočių kūrimas mažų sričių vertinimo temai imčių metodų kursuose
Bakalauro baigiamasis darbas skirtas skaitmeninių mokomųjų uždavinių kūrimui mažų sričių vertinimo temai imčių metodų kursuose. Darbas yra tarptautinio „Nordplus Horizontal" projekto „Innovative Sampling Methods: A Baltic-Nordic Collaboration" dalis,...
2026 Bakalauras ir vientisosios studijos
  • 2026
  • Bakalauras ir vientisosios studijos
Skaitmeninių mokomųjų užduočių kūrimas mažų sričių vertinimo temai imčių metodų kursuose
Studentas: Liana Radeckaja
Vadovas: Dr. Vilma Nekrašaitė-Liegė
Katedra: Matematinės statistikos katedra
Anotacija (LT)
Bakalauro baigiamasis darbas skirtas skaitmeninių mokomųjų uždavinių kūrimui mažų sričių vertinimo temai imčių metodų kursuose. Darbas yra tarptautinio „Nordplus Horizontal" projekto „Innovative Sampling Methods: A Baltic-Nordic Collaboration" dalis, kurio tikslas — sukurti visapusišką imčių metodų kursą Baltijos ir Šiaurės šalių aukštojo mokslo poreikiams. Teorinėje dalyje atliekama literatūros analizė, aprašomos pagrindinės imčių teorijos sąvokos ir nagrinėjami du klasikiniai mažų sričių vertinimo modeliai: Fay–Herriot srities lygio modelis ir Battese–Harter–Fuller elemento lygio modelis. Praktinėje dalyje sukurta trijų sudėtingumo lygių uždavinių struktūra — aiškinamasis taikomasis pavyzdys, iš dalies struktūruota praktinė užduotis ir kompleksinė taikomoji užduotis su realiais duomenimis. Uždaviniai realizuoti R programavimo aplinkoje pasitelkiant sae paketą. Empiriniai rezultatai gauti pritaikius Fay–Herriot ir Battese–Harter–Fuller modelius Lietuvos paslaugų sektoriaus įmonių 2024 metų apyvartos duomenims, suskirstytiems pagal NACE veiklos klasifikatorių. Išvadose aptariami pasiekti modelių tikslumo pagerinimai ir užduočių pritaikymas mokymo procesui. Darbą sudaro 6 dalys: įvadas, teorinė dalis, tiriamoji dalis, išvados, literatūros sąrašas, priedai. Naudojama R programavimo kalba.
Mažų sričių vertinimas Fay–Herriot modelis Battese–Harter–Fuller modelis EBLUP sae paketas imčių metodai skaitmeniniai mokomieji uždaviniai.
Annotation (EN)
This bachelor's thesis focuses on the development of digital educational exercises for the topic of small area estimation in sampling methods courses. The work is part of the international "Nordplus Horizontal" project "Innovative Sampling Methods: A Baltic-Nordic Collaboration", whose goal is to create a comprehensive sampling methods course tailored to the higher education needs of the Baltic and Nordic countries. The theoretical part presents a literature review, describes the main concepts of sampling theory, and examines two classical small area estimation models: the Fay–Herriot area-level model and the Battese–Harter–Fuller unit-level model. The practical part introduces a three-level exercise structure — an explanatory illustrative example, a semi-structured practical exercise, and a complex applied exercise using real data. The exercises are implemented in the R programming environment using the sae package. Empirical results are obtained by applying the Fay–Herriot and Battese–Harter–Fuller models to the 2024 turnover data of Lithuanian service sector enterprises, classified according to the NACE economic activity classifier. The conclusions discuss the achieved accuracy improvements of the models and the applicability of the exercises to the teaching process. The thesis consists of 6 parts: introduction, theoretical part, applied part, conclusions, list of references, and appendices. The R programming language is used.
Small area estimation Fay–Herriot model Battese–Harter–Fuller model EBLUP sae package sampling methods digital educational exercises.
Rytis Mažeika — Dr. Mindaugas Jasas
Automobilio kainos priklausomybės nuo komplektacijos ir kitų charakteristikų tyrimas, taikant regresinius modelius
Baigiamajame darbe nagrinėjama naudoto automobilio kainos priklausomybė nuo komplektacijos ir kitų charakteristikų. Darbo tikslas - įvertinti, kurie automobilių požymiai yra statistiškai reikšmingai susiję su kainą, ir nustatyti, ar...
2026 Bakalauras ir vientisosios studijos
  • 2026
  • Bakalauras ir vientisosios studijos
Automobilio kainos priklausomybės nuo komplektacijos ir kitų charakteristikų tyrimas, taikant regresinius modelius
Studentas: Rytis Mažeika
Vadovas: Dr. Mindaugas Jasas
Katedra: Matematinės statistikos katedra
Anotacija (LT)
Baigiamajame darbe nagrinėjama naudoto automobilio kainos priklausomybė nuo komplektacijos ir kitų charakteristikų. Darbo tikslas - įvertinti, kurie automobilių požymiai yra statistiškai reikšmingai susiję su kainą, ir nustatyti, ar papildomos įrangos kintamųjų įtraukimas pagerina regresinio modelio kokybę. Tyrime naudoti Vokietijos automobilių skelbimų portalo duomenys, kuriuos sudarė 24 tūkst. stebėjimų ir 106 kintamieji. Analizei taikyti du daugialypės tiesinės regresijos modeliai: bazinis modelis, sudarytas tik iš pagrindinių automobilio charakteristikų, ir išplėstinis modelis, papildytas papildomos įrangos požymiais. Modelių kokybė vertinama pagal determinacijos koeficientą, MAE, RMSE, MAPE, AIC ir BIC rodiklius, taip pat atlikta modelių diagnostika. Tyrimo rezultatai parodė, kad didžiausią automobilio kainos sklaidos dalį paaiškina variklio galia, rida ir automobilio amžius. Nustatyta, kad papildomos įrangos požymių įtraukimas pagerino prognozavimo tikslumą: MAE sumažėjo nuo 4095,23 Eur iki 3641,26 Eur, o MAPE sumažėjo nuo 14,34 % iki 12,93 %. Gauti rezultatai rodo, kad papildoma įranga nėra pagrindinis kainos veiksnys, tačiau ji suteikia modeliui papildomos informacijos apie automobilio komplektacijos lygį ir pagerina naudoto automobilio kainos prognozavimo tikslumą. Darbo apimtis – 65 p. teksto be priedų, 14 iliustr., ir 15 lent., 16 bibliografinių šaltinių. Atskirai pridedami darbo priedai.
naudoti automobiliai automobilio kaina papildoma įranga daugialypė tiesinė regresija hedoninis regresijos modelis regresinė analizė automobilio kainos prognozavimas.
Annotation (EN)
This bachelor’s thesis examines the relationship between used car prices, vehicle equipment and other technical characteristics. The aim of the thesis is to evaluate which vehicle features are statistically significantly related to price and to determine whether the inclusion of additional equipment variables improves the quality of the regression model. The study uses data collected from a German car advertisement portal, consisting of approximately 24 thousand observations and 106 variables. Two multiple linear regression models were applied: a baseline model based on the main vehicle characteristics and an extended model including additional equipment features. Model quality was evaluated using the coefficient of determination, MAE, RMSE, MAPE, AIC and BIC indicators, and model diagnostics were also performed. The results showed that engine power, mileage and vehicle age explain the largest part of car price variation. It was found that including additional equipment features improved the model’s predictive accuracy: MAE decreased from 4095,23 Eur to 3641,26 Eur, while MAPE decreased from 14.34% to 12.93%. The results indicate that although additional equipment is not the main price-determining factor, its inclusion provides additional information about the vehicle’s equipment level and improves the accuracy of used car price prediction. Thesis length: 65 pages of text excluding appendices, 14 illustrations, 15 tables, and 16 bibliographic sources. Appendices are attached separately.
used cars car price additional equipment multiple linear regression hedonic regression model regression analysis car price prediction.
Rūta Jurkevičiūtė — Doc. Dr. Rūta Simanavičienė
Muitinio tikrinimo užduočių atlikimo laiko analizė ir jų optimalaus skirstymo matematinio modelio sudarymas
Pagrindinis šio baigiamojo darbo tikslas - parengti matematinį modelį skirtą optimizuoti muitinio tikrinimo užduočių vykdymo procesą. Darbe analizuojami tikrinimų valdymo sistemos duomenys, juos sudaro 241 929 įrašai. Taikant...
2026 Bakalauras ir vientisosios studijos
  • 2026
  • Bakalauras ir vientisosios studijos
Muitinio tikrinimo užduočių atlikimo laiko analizė ir jų optimalaus skirstymo matematinio modelio sudarymas
Studentas: Rūta Jurkevičiūtė
Vadovas: Doc. Dr. Rūta Simanavičienė
Katedra: Matematinės statistikos katedra
Anotacija (LT)
Pagrindinis šio baigiamojo darbo tikslas - parengti matematinį modelį skirtą optimizuoti muitinio tikrinimo užduočių vykdymo procesą. Darbe analizuojami tikrinimų valdymo sistemos duomenys, juos sudaro 241 929 įrašai. Taikant iteracinį algoritmą nustatomos individualių užduočių trukmės, grafų analizės metodais vizualizuojami ryšiai tarp šių užduočių. Pagrindinių komponenčių analizė parodė, kad duomenys yra reti. Klasterinė analizė, k-means metodu išskyrė tris deklaracijų grupes pagal užduočių trukmę ir sudėtingumą. Kiekvienam klasteriui sudaryti po du tiesinės regresijos modeliai - su fiktyviais kintamaisiais (savaitės diena ir sezonu) ir be fiktyvių kintamųjų. Atlikta šių modelių diagnostika ir pateikiamos rekomendacijos muitinio tikrinimo proceso optimizavimui. Darbo pabaigoje pateikiamos išvados. Darbą sudaro: įvadas, teorinė ir metodologinė dalis, empirinė tyrimo dalis, išvados, literatūros sąrašas. Darbo apimtis: 64 p. teksto be priedų, 43 iliustracijos, 18 lentelių, 37 šaltiniai. Atskirai pridedami darbo priedai.
muitinis tikrinimas iteracinis algoritmas grafų analizė klasterinė analizė tiesinė regresija.
Annotation (EN)
The primary objective of this thesis is to develop a mathematical model, that would be used for optimising the execution of customs inspection tasks. The study analyses data obtained from a customs inspection management system comprising 241 929 records. An iterative algorithm is created to determine the individual duration of inspection tasks and graph analysis methods are used to visualize the relation between these tasks. Principal component analysis revealed that the data is very sparse. Using k-means clustering method there were identified three groups based on task duration and complexity. Two linear regression models were created for each of the clusters - one including dummy variables (weekdays and seasons) and the other without them. Model diagnostics were applied and recommendations for optimising the customs inspection process provided. The thesis concludes with a summary of findings. The thesis consists of the following sections: introduction, theoretical and methodological framework, empirical analysis, conclusions, and references. Scope: 64 pages of main text (excluding appendices), 43 figures, 18 tables, 37 references. The appendices are attached separately.
customs inspection iterative algorithm graph analysis cluster analysis linear regression.
Simona Sakalauskaitė — Doc. Dr. Viktoras Chadyšas
Duomenų analizės metodų taikymas įtartinų vartotojų žymėjimui telekomunikacijų sektoriuje
Bakalaurinio darbo tikslas – ištirti ir praktiškai pritaikyti duomenų analizės metodus įtartinų vartotojų elgsenos identifikavimui telekomunikacijų CDR duomenyse. Tyrimas aktualus dėl mažėjančio taisyklėmis grįstų metodų efektyvumo prieš nuolat...
2026 Bakalauras ir vientisosios studijos
  • 2026
  • Bakalauras ir vientisosios studijos
Duomenų analizės metodų taikymas įtartinų vartotojų žymėjimui telekomunikacijų sektoriuje
Studentas: Simona Sakalauskaitė
Vadovas: Doc. Dr. Viktoras Chadyšas
Katedra: Matematinės statistikos katedra
Anotacija (LT)
Bakalaurinio darbo tikslas – ištirti ir praktiškai pritaikyti duomenų analizės metodus įtartinų vartotojų elgsenos identifikavimui telekomunikacijų CDR duomenyse. Tyrimas aktualus dėl mažėjančio taisyklėmis grįstų metodų efektyvumo prieš nuolat kintančias sukčiavimo schemas ir istorinių duomenų žymų trūkumo, todėl pasirinktas neprižiūrimo mašininio mokymosi metodologinis kelias, leidžiantis aptikti statistiškai išskirtinę elgseną be iš anksto žinomų sukčiavimo pavyzdžių. Tyrimui naudoti 1 778 973 skambučių duomenų įrašai iš 9 603 unikalių vartotojų, papildyti mokėjimų duomenimis. Teorinėje dalyje aptariama telekomunikacijų sukčiavimo problematika, anomalijų aptikimo raida ir pagrindiniai algoritmų principai. Praktinėje dalyje iš CDR įrašų suformuotas 28 elgsenos požymių rinkinys, apimantis aktyvumo intensyvumo, ryšio struktūros, laiko aktyvumo, paros laiko struktūros, kontaktų koncentracijos, skambučių baigties ir ryšio technologijos rodiklius. Toliau pritaikyti du neprižiūrimo mokymosi algoritmai – izoliacijos miškas (iForest) ir lokalaus išskirtinumo faktorius (LOF), kurie identifikavo po 97 įtartinus vartotojus (1,01 % populiacijos). Jaccard sutapimo koeficientas tarp metodų rezultatų siekė J = 0,054, patvirtindamas, kad metodai aptinka skirtingų tipų anomalijas ir vienas kitą papildo: iForest identifikuoja globaliai išskirtinę elgseną, o LOF – lokalaus konteksto anomalijas. Ypač išsiskyrė 10 vartotojų, identifikuotų abiem metodais, kurių skambučių skaičius ženkliai viršijo populiacijos vidurkį, o iki 96 % skambučių buvo nesėkmingi. Gauti rezultatai sudaro statistiniais nukrypimais grįstą prioritetizuotą rizikos sąrašą, skirtą tolimesnei ekspertinei analizei telekomunikacijų operatorių rizikų valdyme. Darbą sudaro įvadas, 2 skyriai, išvados, literatūros sąrašas ir 7 priedai. Darbo apimtis be priedų – 74 puslapiai, 15 paveikslų, 17 lentelių ir 20 šaltinių.
anomalijų aptikimas neprižiūrimas mašininis mokymasis izoliacijos miškas lokalaus išskirtinumo faktorius CDR duomenys sukčiavimo aptikimas telekomunikacijų srityje įtartinų vartotojų žymėjimas.
Annotation (EN)
The aim of this Bachelor's thesis is to investigate and practically apply data analysis methods for identifying and flagging suspicious user behavior in telecommunications Call Detail Record (CDR) data. The study is motivated by the declining effectiveness of rule-based detection methods against constantly evolving fraud schemes and the lack of labeled historical data, which limits the application of supervised learning approaches. Therefore, an unsupervised machine learning methodology was adopted to identify statistically anomalous user behavior without relying on known fraud examples. The research is based on 1,778,973 call records from 9,603 unique users, supplemented with payment data. The theoretical part reviews telecommunications fraud, the evolution of anomaly detection, and the fundamental principles of anomaly detection algorithms. In the practical part, a set of 28 behavioral features was constructed from the CDR data, covering activity intensity, communication structure, temporal activity, time-of-day patterns, contact concentration, call outcome, and communication technology indicators. Two unsupervised learning algorithms were then applied: Isolation Forest (iForest) and Local Outlier Factor (LOF), each identifying 97 suspicious users (1.01% of the population). The Jaccard similarity coefficient between the methods was J = 0.054, confirming that the algorithms detect different types of anomalies and complement each other: iForest identifies globally unusual behavior, while LOF detects anomalies within a local context. Notably, 10 users were identified by both methods; these users exhibited exceptionally high call volumes, with up to 96% of their calls being unsuccessful. The results provide a statistically driven, prioritized risk list for further expert analysis in telecommunications fraud and risk management. The thesis consists of an introduction, two chapters, conclusions, a list of references, and seven appendices. The thesis comprises 74 pages (excluding appendices), 15 figures, 17 tables, and 20 references.
anomaly detection unsupervised machine learning Isolation Forest Local Outlier Factor CDR data fraud detection in telecommunications sector suspicious user labeling.
Toma Griniūtė — Doc. Dr. Jolita Norkūnienė
Urbanizacijos ir nutukimo tyrimas taikant laiko eilučių analizę, 1990–2020 m.
Šiame baigiamajame darbe tiriamas urbanizacijos ir nutukimo rodiklių kitimas 1990–2020 m. laikotarpiu, taikant laiko eilučių analizės metodus. Naudojami Pasaulio banko (World Development Indicators) duomenys: urbanizacija apibrėžiama kaip miesto...
2026 Bakalauras ir vientisosios studijos
  • 2026
  • Bakalauras ir vientisosios studijos
Urbanizacijos ir nutukimo tyrimas taikant laiko eilučių analizę, 1990–2020 m.
Studentas: Toma Griniūtė
Vadovas: Doc. Dr. Jolita Norkūnienė
Katedra: Matematinės statistikos katedra
Anotacija (LT)
Šiame baigiamajame darbe tiriamas urbanizacijos ir nutukimo rodiklių kitimas 1990–2020 m. laikotarpiu, taikant laiko eilučių analizės metodus. Naudojami Pasaulio banko (World Development Indicators) duomenys: urbanizacija apibrėžiama kaip miesto gyventojų dalis bendroje populiacijoje (%), o nutukimas – kaip suaugusiųjų nutukimo paplitimas (%). Analizė atlikta keturiuose regionuose: Afrikoje, Azijoje, Europoje ir Šiaurės Amerikoje. Regioniniai rodikliai sudaryti kaip pasirinktų šalių svertiniai vidurkiai, taikant populiacijos dydį kaip svorį. Pirmiausia atlikta aprašomoji dinamika ir trendo įvertinimas, vėliau – stacionarumo vertinimas ir transformacijų parinkimas. Prognozėms sudaryti parinkti ARIMA modeliai, o jų adekvatumas vertintas liekanų diagnostika (ACF grafikai, Ljung–Box testas). Galiausiai urbanizacijos ir nutukimo tarpusavio ryšys įvertintas Pearsono koreliacijos koeficientu, papildomai analizuojant metinius pokyčius, siekiant sumažinti bendro trendo įtaką. Gauti rezultatai rodo, kad abu rodikliai tiriamu laikotarpiu didėjo visuose regionuose, tačiau augimo tempai ir ryšio tarp rodiklių pobūdis skiriasi tarp regionų.
urbanizacija; nutukimas; laiko eilutės; ARIMA; prognozavimas; stacionarumas; diferencijavimas; ADF testas; liekanų diagnostika; Ljung–Box testas; Pearsono koreliacija; svertinis vidurkis.
Annotation (EN)
This bachelor’s thesis examines the dynamics of urbanization and obesity indicators over the period 1990–2020 using time series analysis. The study relies on World Bank World Development Indicators: urbanization is measured as the share of the urban population in total population (%), while obesity is measured as the prevalence of obesity among adults (%). The analysis focuses on four regions: Africa, Asia, Europe, and North America. Regional series are constructed as population-weighted averages of selected countries. First, descriptive analysis and trend assessment are performed, followed by stationarity evaluation and the selection of appropriate transformations. ARIMA models are fitted to generate forecasts, and model adequacy is assessed through residual diagnostics (ACF plots and the Ljung–Box test). Finally, the relationship between urbanization and obesity is evaluated using the Pearson correlation coefficient, with additional analysis of year-to-year changes to reduce the influence of common trends. The results indicate that both indicators increased across all regions, while growth intensity and the strength/direction of the relationship differ by region.
urbanization; obesity; time series; ARIMA; forecasting; stationarity; differencing; ADF test; residual diagnostics; Ljung–Box test; Pearson correlation; population-weighted average.
Dominyka Gruodytė — Doc. Dr. Nomeda Bratčikovienė
Sveikatos duomenų tyryba
Baigiamojo bakalauro darbo tikslas – sukurti ir palyginti konvoliucinį neuroninį tinklą bei sprendimų medžio modelius, skirtus odos ligų vaizdų klasifikavimui. Darbe analizuojami duomenys, gauti iš ISIC duomenų rinkinio,...
2025 Bakalauras ir vientisosios studijos
  • 2025
  • Bakalauras ir vientisosios studijos
Sveikatos duomenų tyryba
Studentas: Dominyka Gruodytė
Vadovas: Doc. Dr. Nomeda Bratčikovienė
Katedra: Matematinės statistikos katedra
Anotacija (LT)
Baigiamojo bakalauro darbo tikslas – sukurti ir palyginti konvoliucinį neuroninį tinklą bei sprendimų medžio modelius, skirtus odos ligų vaizdų klasifikavimui. Darbe analizuojami duomenys, gauti iš ISIC duomenų rinkinio, apimančio 2357 įvairių odos darinių nuotraukas. Modeliams kurti naudoti konvoliuciniai neuroniniai tinklai (CNN), taikant EfficientNetB0 architektūrą, bei sprendimų medžio metodai. Modelių efektyvumas įvertintas pagal klasifikavimo tikslumą ir klaidų matricas. Eksperimento metu taip pat buvo naudota klasės svorio kompensacija bei taikytas „early stopping“. Rezultatai parodė, kad CNN modelis pasiekė aukštesnį tikslumą nei sprendimų medis, ypač dirbant su sudėtingesniais atvejais. Pabaigoje pateiktos rekomendacijos modelių tobulinimui bei jų taikymo galimybės praktikoje. Darbą sudaro šios dalys: įvadas, literatūros apžvalga, teorinė-metodinė dalis, praktinė dalis, išvados, literatūros sąrašas, priedai. Darbo apimtis: 34 p. be priedų, 11 iliustracijų, 2 lentelės, 20 šaltinių.
konvoliuciniai neuroniniai tinklai sprendimų medis odos ligų klasifikacija giluminis mokymasis vaizdų atpažinimas medicininiai vaizdai
Annotation (EN)
The aim of this bachelor's thesis is to develop and compare convolutional neural networks and decision tree models for classifying images of skin diseases. The study analyzes data obtained from a dataset containing 2,357 images of various skin lesions. To build the models, convolutional neural networks (CNN) with the EfficientNetB0 architecture and decision tree methods were used. The performance of the models was evaluated based on classification accuracy and confusion matrices. During the experiment, class weight balancing and early stopping techniques were also applied. The results showed that the CNN model achieved higher accuracy than the decision tree, especially in more complex cases. Finally, recommendations for model improvement and practical application possibilities are presented. The thesis consists of the following parts: introduction, literature review, theoretical-methodological part, practical part, conclusions, list of references, and appendices. Thesis length: 34 pages without appendices, 11 figures, 2 tables, 20 sources.
convolutional neural networks decision tree skin disease classification deep learning image recognition medical images.
Elena Strelčiūnaitė — Dr. Vilma Nekrašaitė-Liegė
Neatsakymų įtaka populiacijos parametrų vertinimui asimetriniuose duomenyse: metodų palyginimas
Baigiamajame bakalauro darbe nagrinėjama trūkstamų duomenų įtaka populiacijos parametrų vertinimui asimetriniuose duomenyse ir lyginami neatsakymų vertinimo metodai. Remiantis teorine dalimi ir taikant simuliacijas, nagrinėti skirtingi neatsakymų tipai –...
2025 Bakalauras ir vientisosios studijos
  • 2025
  • Bakalauras ir vientisosios studijos
Neatsakymų įtaka populiacijos parametrų vertinimui asimetriniuose duomenyse: metodų palyginimas
Studentas: Elena Strelčiūnaitė
Vadovas: Dr. Vilma Nekrašaitė-Liegė
Katedra: Matematinės statistikos katedra
Anotacija (LT)
Baigiamajame bakalauro darbe nagrinėjama trūkstamų duomenų įtaka populiacijos parametrų vertinimui asimetriniuose duomenyse ir lyginami neatsakymų vertinimo metodai. Remiantis teorine dalimi ir taikant simuliacijas, nagrinėti skirtingi neatsakymų tipai – klausimo ir elemento. Elemento neatsakymų vertinimui generuoti skirtingi trūkstamų duomenų lygiai ir taikyti persvėrimo metodai, tokie kaip visiškai atsitiktinio neatsakymo tikimybės, lygių neatsakymo tikimybių grupėse vertinimas bei atsitiktinių miškų metodas. Klausimo neatsakymai vertinti turint vieną neatsakymo lygį, tačiau du skirtingus neatsakymo generavimo mechanizmus ir pritaikyti duomenų įrašymo metodai, tokie kaip šiltųjų duomenų, artimiausių kaimynų ir tiesinės bei logistinės regresijos metodai. Geriausi metodai renkami atsižvelgiant į tikslumo matus, tokius kaip santykinis poslinkis, variacijos koeficientas ir santykinė vidutinė kvadratinė paklaida. Atlikus analizę, nustatyta, kad norint pasirinkti tinkamą neatsakymų vertinimo metodą, reikia teisingai nustatyti neatsakymų atsiradimo priežastį. Darbą sudaro įvadas, mokslinių darbų apžvalga, teorinė – metodinė bei praktinė dalys, išvados ir literatūros sąrašas. Darbo apimtis – 42 p. teksto be priedų, 15 iliustr., 11 lent., 12 bibliografinių šaltinių. Atskirai pridedami darbo priedai.
Populiacijos parametrų vertinimas neatsakymų įtaka klausimo neatsakymai elemento neatsakymai persvėrimo metodai įrašymo metodai asimetriniai duomenys.
Annotation (EN)
The final bachelor’s thesis examines the impact of missing data on the estimation of population parameters in asymmetric data and compares different nonresponse evaluation methods. Based on the theoretical part and using simulations, different types of nonresponse are analyzed -— item and unit. For unit nonresponse evaluation, various levels of missing data are generated and reweighting methods are applied, such as the probability of completely random nonresponse, evaluation of equal nonresponse probabilities within groups, and the random forest method. Item nonresponse is assessed at a single level of nonresponse, but using two different nonresponse generation mechanisms, and imputation methods such as hot deck, k-nearest neighbors, and linear and logistic regression are applied. The best-performing methods are selected based on accuracy metrics such as relative bias, coefficient of variation, and relative root mean square error. The analysis shows that in order to select an appropriate method for nonresponse evaluation, it is crucial to correctly identify the cause of nonresponse. The thesis consists of an introduction, a review of scientific literature, theoretical–methodological and practical parts, conclusions, and a list of references. The volume of the thesis is 42 pages of text excluding appendices, 15 figures, 11 tables, and 12 bibliographic sources. The appendices are provided separately.
Population parameter estimation impact of nonresponse item nonresponse unit nonresponse reweighting methods imputation methods asymetric data.

Naudingos nuorodos