Огляд існуючих методів зменшення розмірності та класифікації великих вибірок даних

Автор(и)

  • Ірина Геннадіївна Перова Харківський національний університет радіоелектроніки, кафедра СТ, Україна https://orcid.org/0000-0003-2089-5609
  • Неля Сергіївна Мірошниченко Харківський національний університет радіоелектроніки, кафедра СТ, Україна https://orcid.org/0000-0002-3846-1668

DOI:

https://doi.org/10.30837/0135-1710.2023.179.042

Ключові слова:

вибірка, данні, розмірність, аналіз, дослідження, класифікація, візуалізація

Анотація

На сьогоднішній день аналіз великої кількості даних займає ключове місце у виявленні прихованих закономірностей і тенденцій, які не відразу видно з узагальнених даних. Так як дані мають складні структури та великі розміри, науковці працюють над розробкою методів зменшення розмірності великих вибірок даних. Зменшення розмірності як етап попередньої обробки машинного навчання є ефективним у видаленні нерелевантних і надлишкових даних, підвищення точності навчання та покращення зрозумілості результату, за допомогою візуалізації розмірності. А також, процес зменшення кількості аналізованих випадкових величин шляхом отримання набору основних змінних. Проте зменшення розмірності має недолік, пов'язаний з втратою даних. Дуже важливо зменшити розмірність набору даних без втрати будь-якої інформації з цих наборів даних. У статті розглянуто існуючі методи зменшення розмірності великих вибірок даних, а саме: аналіз головних компонент (Principal Component Analysis), лінійний дискримінантний аналіз (Linear Discriminant Analysis), аналіз головних компонент ядра (Kernel Principal Component Analysis), багатовимірне масштабування (MDS), t-розподільного стохастичного вбудовування сусідів (t-SNE) та аналіз незалежних компонент (Independent Component Analysis).

Кожен з методів має свої переваги та недоліки, для вибору найбільш оптимального методу зменшення розмірності великих вибірок даних було проведено їх порівняльний аналіз. На наборі даних ініціативи з нейровізуалізації хвороби Альцгеймера та на наборі даних про щитоподібну залозу було протестовано кожен з розглянутих методів.

Результати порівняльного аналізу методів було представлено у вигляді графічних зображень.

Біографії авторів

Ірина Геннадіївна Перова, Харківський національний університет радіоелектроніки, кафедра СТ

доктор технічних наук, професор, професор кафедри системотехніки ХНУРЕ, м. Харків, Україна.

Неля Сергіївна Мірошниченко, Харківський національний університет радіоелектроніки, кафедра СТ

аспірант кафедри системотехніки ХНУРЕ, м. Харків, Україна.

Посилання

Ayesha, S., Hanif, M. K., & Talib, R. (2020, July). Overview and comparative study of dimensionality reduction techniques for high dimensional data. Information Fusion, 59, 44–58. https://doi.org/10.1016/j.inffus.2020.01.005.

B. COY, “DIMENSION REDUCTION FOR ANALYSIS OF UNSTABLE PERIODIC ORBITS USING LOCALLY LINEAR EMBEDDING,” International Journal of Bifurcation and Chaos, vol. 22, no. 01, p. 1230001, Jan. 2019, doi: 10.1142/s0218127412300017.

Badaoui, F., Amar, A., Ait Hassou, L., Zoglat, A., & Okou, C. G. (2017, October 10). Dimensionality reduction and class prediction algorithm with application to microarray Big Data. Journal of Big Data, 4(1). https://doi.org/10.1186/s40537-017-0093-4.

S. Vannatta, “The Return of the Repressed (and Oppressed): A Freudo-Marxian Analysis of Jordan Peele’s Us,” Popular Culture Review, vol. 31, no. 2, 2020, doi: 10.18278/pcr.31.2.10.

Essa, A. M., & Ghalib Alrawi, A. (2019, September 1). Comparison Between The Method of Principal Component Analysis And Principal Component Analysis Kernel For Imaging Dimensionality Reduction. IRAQI JOURNAL OF STATISTICAL SCIENCES, 16(29), 11–24. https://doi.org/10.33899/iqjoss.2019.164189.

Jiang, J. L., Li, S. Y., Liao, M. L., & Jiang, Y. (2019). Application in Disease Classification based on KPCA-IBA-LSSVM. Procedia Computer Science, 154, 109–116. https://doi.org/10.1016/j.procs.2019.06.017.

Dzemyda, G., Sabaliauskas, M., & Medvedev, V. (2022). Geometric MDS Performance for Large Data Dimensionality Reduction and Visualization. Informatica, 299–320. https://doi.org/10.15388/22-infor491.

T. Li, Q. Yin, R. Song, M. Gao, and Y. Chen, “Multidimensional scaling method for prediction of lysine glycation sites,” Computing, vol. 101, no. 6, pp. 705–724, Mar. 2019, doi: 10.1007/s00607-019-00710-x.

Spiwok, V., & Kříž, P. (2020, June 30). Time-Lagged t-Distributed Stochastic Neighbor Embedding (t-SNE) of Molecular Simulation Trajectories. Frontiers in Molecular Biosciences, 7. https://doi.org/10.3389/fmolb.2020.00132.

Ayyappa. T and S. Kurse, “Fault Detection of Bearing using XGBoost Algorithm and Data Visualization using t-distributed stochastic neighbor embedding (t-SNE) Method,” SSRN Electronic Journal, 2021, Published, doi: 10.2139/ssrn.3834976.

J. Heaton, “Ian Goodfellow, Yoshua Bengio, and Aaron Courville: Deep learning,” Genetic Programming and Evolvable Machines, vol. 19, no. 1–2, pp. 305–307, Oct. 2018, doi: 10.1007/s10710-017-9314-z.

Hong, S. E. (2019, December 31). Exploring Independent Component Analysis Based on Ball Covariance. The Korean Data Analysis Society, 21(6), 2721–2735. https://doi.org/10.37727/jkdas.2019.21.6.2721.

ADNI | Study Documents. (n.d.). https://adni.loni.usc.edu/methods/documents/;

UCI Machine Learning Repository. (n.d.). https://archive.ics.uci.edu/dataset/102/thyroid+disease.

##submission.downloads##

Опубліковано

2023-11-27