Автоматизована система ідентифікації законів розподілу даних аналізом близькості гістограм зі скороченням вибірки

Автор(и)

  • Ольга Олійник Коледж радіоелектроніки, вул. Шмідта, 18, 49000, Дніпро, Ukraine
  • Юрій Тараненко ПП “Лікопак”, вул. Качалова, 1, 49005, Дніпро, Ukraine

DOI:

https://doi.org/10.24027/2306-7039.3.2021.241627

Ключові слова:

достовірність; закон розподілу; вибірка; ентропійний коефіцієнт; гістограма

Анотація

Похибка визначення закону розподілу тягне за собою невірну оцінку інших характеристик (стандартне відхилення, ексцес, контрексцес і т.д.). Точність отримання числових значень метрологічних характеристик засобів вимірювальної техніки значною мірою залежить від правильності встановлення відповідності щільності розподілу ймовірностей експериментальних даних одному зі стандартних законів розподілу. Однак після виконаної ідентифікації закону розподілу в дослідженнях не оцінювалася близькість гістограм заданого розподілу, тому і даних про ефективність таких методик немає. Статтю присвячено розробці доступних і простих програмних продуктів для розв’язання задач виявлення законів розподілу і визначення оптимального розміру вибірки даних. Розроблено модифікований метод визначення закону розподілу даних шляхом візуального аналізу близькості гістограм зі зменшенням розміру вибірки при програмній реалізації. Метод дозволяє вибрати найбільш імовірний закон розподілу з широкої бази набору. Суть методу полягає в обчисленні ентропії коефіцієнта і абсолютної ентропійної помилки для вихідної та половинної вибірки даних, визначенні оптимального методу обробки гістограми за допомогою візуального аналізу близькості гістограм і виявленні закону розподілу даних. Модель обробки експериментальних даних дозволяє враховувати статистичні властивості реальних даних і може застосовуватися до різних масивів, а також дозволяє зменшити розмір вибірки, необхідної для аналізу. Розроблено автоматизовану систему визначення законів розподілу даних із простим і зрозумілим інтерфейсом. Результати дослідження на реальних даних свідчать про підвищення достовірності ідентифікації закону розподілу даних. Похибка ідентифікації закону розподілу з використанням розробленого методу для вибірки n = 1000 не перевищує 0,45% у порівнянні з точністю 3% для відомих методів.

Посилання

Zyuzko A.K., Burichenko M.Yu., Petrova Yu.V., Nimych V.V. Algorithm of treatment of data given during metrology attestation of facilities. Electronics and Control Systems, 2009, no. 1, pp. 5–10 (in Russian).

Shchepetov A.G., Pidkovich A.A., Popova Yа.D., Shimereva L.V. O vybore metoda obrabotki eksperimentalnykh dannykh pri opredelenii graduirovochnoy staticheskoy kharakteristiki pribora [On the choice of the experimental data processing method when determining the calibration static characteristics of the device]. Instruments, 2020, no. 9, pp. 14–22 (in Russian).

Bityukov S.I., Maksimushkina A.V., Smirnova V.V. Comparison of histograms in physical research. Izvestiya vuzov. Yadernaya Energetika, 2016, no. 1, pp. 81–90 (in Russian).

Hou J., Ou B., Tian H., Qin Z. Reversible data hiding based on multiple histograms modification and deep neural networks. Signal Processing: Image Communication, 2021, vol. 92, pp. 116–118.

Liang Y., Meng Z., Chen Y., Zhang Y., Wang M., Zhou X. A Data Fusion Orientation Algorithm Based on the Weighted Histogram Statistics for Vector Hydrophone Vertical Array. Sensors, 2020, vol. 20, no. 19, p. 5619. doi: https://doi.org/10.3390/s20195619

Artyushenko V.M., Volovach V.I. Identifikatsiya parametrov raspredeleniya additivnykh i multiplikativnykh negaussovskikh pomekh [Identification of distribution parameters of additive and multiplicative non-Gaussian noise]. Avtometriya, 2017, vol. 53, no. 3, pp. 36–43 (in Russian). doi: 10.15372/AUT20170305

MI 1317-2004. GSE. Results and characteristics of measurement errors. Forms of presentation. Methods of use when testing product samples and controlling their parameters. Moscow, 2004 (in Russian).

Novitsky P.V., Zograf I.A. Otsenka pogreshnostey rezultatov izmereniy [Estimation of errors of measurement results]. Leningrad, Energoatomizdat Publ., 1991 (in Russian).

Oliynyk O., Taranenko Y., Losikhin D., Shvachka A. Examining the Kalman filter in the field of noise and interference with the Non-Gaussian distribution. Eastern-European Journal of Enterprise Technologies, 2018, vol. 4, no. 4(94), pp. 36–42. doi:10.15587/1729-4061.2018.140649

Bodin O.N., Ivanchukov A.G., Polosin V.G., Rahmatullov F.K. Entropiyno-parametricheskaya obrabotka elektrokardiosignala [Entropy-parametric processing of electrocardiosignal]. Fundamental research, 2015, no. 3, pp. 23–27 (in Russian).

Tynynyka A.N. Primeneniye entropiynogo koeffitsiyenta dlya optimizatsii chisla intervalov pri intervalnykh otsenkakh [Application of the entropy coefficient for optimization of the number of intervals in interval estimates]. Tekhnologiya i Konstruirovanie v Elektronnoi Apparature, 2017, no. 3, pp. 49–54 (in Russian). doi: 10.15222/TKEA2017.3.49

Fedorov M.V. Metod identifikatsii form raspredeleniy malykh vyborok [Method of identification of forms of distributions of small samples]. Rossijskij himicheskij zhurnal, 2002, no. 3, pр. 9–11 (in Russian).

Рython histogram. Python rendering matplotlib13. Нistogram (histogram) detailed explanation. Available at: https.blog.csdn.net/weixin_39520979/article/details/111293856 (accessed 12.04.2021)

Sulewski P. Equal-bin-width histogram versus equal-bin-count histogram. Journal of Applied Statistics, 2020, рр. 1–20. doi: https://doi.org/10.1080/02664763.2020.1784853

Reducing the sample size of experimental data without losing information. Available at: https://habr.com/ru/post/445464/ (accessed 05/25/2019).

Numpy.histogram_bin_edges. Available at: https://numpy.org/doc/stable/reference/generated/numpy.histogram_bin_edges.html (accessed 05/25/2019).

Kalmykov V.V., Antonyuk F.I., Zenkin N.V., Malyshev E.N. Organizatsiya statisticheskogo priyemochnogo kontrolya kachestva produktsii po kolichestvennomu priznaku [Organization a statistical acceptance inspection quality products at the quantitative trait]. Modern Problems of Science and Education, 2014, no. 6, p. 162 (in Russian).

Tyrsin A.N. Metod podbora nailuchshego zakona raspredeleniya nepreryvnoy sluchaynoy velichiny na osnove obratnogo otobrazheniya [The method of selecting the best distribution law for continuous random variables on the basis of inverse mapping]. Vestn. Yuzhno-Ural. Gos. Un-ta. Ser. Matem. Mekh. Fiz., 2017, vol. 9, no. 1, рр. 31–38 (in Russian).

Опубліковано

2021-10-05

Номер

Розділ

Статті