Автоматизована система ідентифікації законів розподілу даних аналізом близькості гістограм зі скороченням вибірки
DOI:
https://doi.org/10.24027/2306-7039.3.2021.241627Ключові слова:
достовірність; закон розподілу; вибірка; ентропійний коефіцієнт; гістограмаАнотація
Похибка визначення закону розподілу тягне за собою невірну оцінку інших характеристик (стандартне відхилення, ексцес, контрексцес і т.д.). Точність отримання числових значень метрологічних характеристик засобів вимірювальної техніки значною мірою залежить від правильності встановлення відповідності щільності розподілу ймовірностей експериментальних даних одному зі стандартних законів розподілу. Однак після виконаної ідентифікації закону розподілу в дослідженнях не оцінювалася близькість гістограм заданого розподілу, тому і даних про ефективність таких методик немає. Статтю присвячено розробці доступних і простих програмних продуктів для розв’язання задач виявлення законів розподілу і визначення оптимального розміру вибірки даних. Розроблено модифікований метод визначення закону розподілу даних шляхом візуального аналізу близькості гістограм зі зменшенням розміру вибірки при програмній реалізації. Метод дозволяє вибрати найбільш імовірний закон розподілу з широкої бази набору. Суть методу полягає в обчисленні ентропії коефіцієнта і абсолютної ентропійної помилки для вихідної та половинної вибірки даних, визначенні оптимального методу обробки гістограми за допомогою візуального аналізу близькості гістограм і виявленні закону розподілу даних. Модель обробки експериментальних даних дозволяє враховувати статистичні властивості реальних даних і може застосовуватися до різних масивів, а також дозволяє зменшити розмір вибірки, необхідної для аналізу. Розроблено автоматизовану систему визначення законів розподілу даних із простим і зрозумілим інтерфейсом. Результати дослідження на реальних даних свідчать про підвищення достовірності ідентифікації закону розподілу даних. Похибка ідентифікації закону розподілу з використанням розробленого методу для вибірки n = 1000 не перевищує 0,45% у порівнянні з точністю 3% для відомих методів.
Посилання
Zyuzko A.K., Burichenko M.Yu., Petrova Yu.V., Nimych V.V. Algorithm of treatment of data given during metrology attestation of facilities. Electronics and Control Systems, 2009, no. 1, pp. 5–10 (in Russian).
Shchepetov A.G., Pidkovich A.A., Popova Yа.D., Shimereva L.V. O vybore metoda obrabotki eksperimentalnykh dannykh pri opredelenii graduirovochnoy staticheskoy kharakteristiki pribora [On the choice of the experimental data processing method when determining the calibration static characteristics of the device]. Instruments, 2020, no. 9, pp. 14–22 (in Russian).
Bityukov S.I., Maksimushkina A.V., Smirnova V.V. Comparison of histograms in physical research. Izvestiya vuzov. Yadernaya Energetika, 2016, no. 1, pp. 81–90 (in Russian).
Hou J., Ou B., Tian H., Qin Z. Reversible data hiding based on multiple histograms modification and deep neural networks. Signal Processing: Image Communication, 2021, vol. 92, pp. 116–118.
Liang Y., Meng Z., Chen Y., Zhang Y., Wang M., Zhou X. A Data Fusion Orientation Algorithm Based on the Weighted Histogram Statistics for Vector Hydrophone Vertical Array. Sensors, 2020, vol. 20, no. 19, p. 5619. doi: https://doi.org/10.3390/s20195619
Artyushenko V.M., Volovach V.I. Identifikatsiya parametrov raspredeleniya additivnykh i multiplikativnykh negaussovskikh pomekh [Identification of distribution parameters of additive and multiplicative non-Gaussian noise]. Avtometriya, 2017, vol. 53, no. 3, pp. 36–43 (in Russian). doi: 10.15372/AUT20170305
MI 1317-2004. GSE. Results and characteristics of measurement errors. Forms of presentation. Methods of use when testing product samples and controlling their parameters. Moscow, 2004 (in Russian).
Novitsky P.V., Zograf I.A. Otsenka pogreshnostey rezultatov izmereniy [Estimation of errors of measurement results]. Leningrad, Energoatomizdat Publ., 1991 (in Russian).
Oliynyk O., Taranenko Y., Losikhin D., Shvachka A. Examining the Kalman filter in the field of noise and interference with the Non-Gaussian distribution. Eastern-European Journal of Enterprise Technologies, 2018, vol. 4, no. 4(94), pp. 36–42. doi:10.15587/1729-4061.2018.140649
Bodin O.N., Ivanchukov A.G., Polosin V.G., Rahmatullov F.K. Entropiyno-parametricheskaya obrabotka elektrokardiosignala [Entropy-parametric processing of electrocardiosignal]. Fundamental research, 2015, no. 3, pp. 23–27 (in Russian).
Tynynyka A.N. Primeneniye entropiynogo koeffitsiyenta dlya optimizatsii chisla intervalov pri intervalnykh otsenkakh [Application of the entropy coefficient for optimization of the number of intervals in interval estimates]. Tekhnologiya i Konstruirovanie v Elektronnoi Apparature, 2017, no. 3, pp. 49–54 (in Russian). doi: 10.15222/TKEA2017.3.49
Fedorov M.V. Metod identifikatsii form raspredeleniy malykh vyborok [Method of identification of forms of distributions of small samples]. Rossijskij himicheskij zhurnal, 2002, no. 3, pр. 9–11 (in Russian).
Рython histogram. Python rendering matplotlib13. Нistogram (histogram) detailed explanation. Available at: https.blog.csdn.net/weixin_39520979/article/details/111293856 (accessed 12.04.2021)
Sulewski P. Equal-bin-width histogram versus equal-bin-count histogram. Journal of Applied Statistics, 2020, рр. 1–20. doi: https://doi.org/10.1080/02664763.2020.1784853
Reducing the sample size of experimental data without losing information. Available at: https://habr.com/ru/post/445464/ (accessed 05/25/2019).
Numpy.histogram_bin_edges. Available at: https://numpy.org/doc/stable/reference/generated/numpy.histogram_bin_edges.html (accessed 05/25/2019).
Kalmykov V.V., Antonyuk F.I., Zenkin N.V., Malyshev E.N. Organizatsiya statisticheskogo priyemochnogo kontrolya kachestva produktsii po kolichestvennomu priznaku [Organization a statistical acceptance inspection quality products at the quantitative trait]. Modern Problems of Science and Education, 2014, no. 6, p. 162 (in Russian).
Tyrsin A.N. Metod podbora nailuchshego zakona raspredeleniya nepreryvnoy sluchaynoy velichiny na osnove obratnogo otobrazheniya [The method of selecting the best distribution law for continuous random variables on the basis of inverse mapping]. Vestn. Yuzhno-Ural. Gos. Un-ta. Ser. Matem. Mekh. Fiz., 2017, vol. 9, no. 1, рр. 31–38 (in Russian).
##submission.downloads##
Опубліковано
Номер
Розділ
Ліцензія
ПОЛІТИКА, ЯКА РЕКОМЕНДУЄТЬСЯ ЖУРНАЛАМ, ЩО ПРОПОНУЮТЬ ВІДКРИТИЙ ДОСТУП З ЗАТРИМКОЮ
Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:
Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи, яка через 12 місяців з дати публікації автоматично стає доступною на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.