Assessing the reproducibility of numerical outputs of machine-learning algorithms for measurement tasks

Валерій Олегович  Ащепков; Дмитро Юрійович  Бяллович; Володимир Васильович Скляров

doi:10.24027/2306-7039.4.2025.347983

Автор(и)

Валерій Олегович Ащепков Національний науковий центр “Інститут метрології”, вул. Мироносицька, 42, 61002, Харків, Україна, Україна
Дмитро Юрійович Бяллович Національний науковий центр “Інститут метрології”, вул. Мироносицька, 42, 61002, Харків, Україна, Україна
Володимир Васильович Скляров Національний науковий центр “Інститут метрології”, вул. Мироносицька, 42, 61002, Харків, Україна, Україна

DOI:

https://doi.org/10.24027/2306-7039.4.2025.347983

Ключові слова:

метрологія; стандартна невизначеність; відтворюваність; машинне навчання; вимірювання; об- робка вимірювальних даних

Анотація

У роботі розглянуто проблему відтворюваності результатів стохастичних моделей машинного навчання у ви-
мірювальних задачах, що набуває особливого значення під час інтеграції алгоритмів у вимірювальні процедури
відповідно до підходів, визначених в ISO 5725 та ISO/IEC 17025. На прикладі алгоритму ізольованого лісу по-
казано, що навіть за повністю сталих вхідних даних числовий результат моделі може змінюватися від запуску до
запуску, утворюючи додаткову складову варіативності, яку необхідно враховувати під час аналізу результатів. Така
мінливість обмежує можливість безпосереднього використання моделі як частини вимірювального процесу та по-
требує окремої метрологічної оцінки.
У дослідженні порівнюються дві реалізації алгоритму: стандартний варіант ізольованого лісу та удосконалена
версія, запропонована в попередніх роботах авторів. Модифікована модель не усуває стохастичної природи алго-
ритму, однак зменшує її вплив завдяки усередненню проміжних характеристик ізоляційних шляхів, нормалізації
результатів за різних значень параметра contamination та застосуванню більш обґрунтованого підходу до визначення
порога на основі структури розподілу ступеня аномальності. Це забезпечує вищу стабільність вихідних значень
порівняно зі стандартною моделлю.
Для обох реалізацій проведено серію повторних запусків за незмінних умов, після чого числові результати
проаналізовано у метрологічних термінах через стандартну невизначеність за типом А відповідно до положень
ISO 5725. Показано, що варіативність стандартної моделі істотно більша, тоді як удосконалена версія демонструє
помітно вищу відтворюваність. Це свідчить про можливість більш коректного інтерпретування її вихідних значень
у вимірювальному процесі.
Отримані результати підтверджують, що внутрішня варіативність алгоритмів машинного навчання може розгля-
датися як окрема метрологічна характеристика. Відповідна стандартна невизначеність може бути кількісно оцінена
та включена до загального бюджету невизначеності вимірювання, забезпечуючи узгодженість алгоритмічних методів
із принципами точності та повторюваності у вимірювальній практиці.

Посилання

Chandola V., Banerjee A., Kumar V. Anomalydetection: A survey. ACM Computing Surveys,2009, vol. 41, issue 3, pp. 1–58. doi: https://doi.org/10.1145/1541880.1541882

Aggarwal C.C. Outlier Analysis. 2nd ed. Springer,2017. 446 p. doi: https://doi.org/10.1007/978-3-319-47578-3

Aschepkov V. Methods of machine learning inmodern metrology. Measuring Equipment andMetrology, 2024, vol. 85, no. 1, pp. 57–60.doi: https://doi.org/10.23939/istcmtm2024.01

DSTU EN ISO/IEC 17025:2019. Generalrequirements for the competence of testing andcalibration laboratories (EN ISO/IEC 17025:2017,IDT; ISO/IEC 17025:2017, IDT) (in Ukrainian).

DSTU GOST ISO 5725-1:2005. Accuracy(trueness and precision) of measurement methodsand results. Part 1. General principles anddefinitions (GOST ISO 5725-1-2003, IDT) (inUkrainian).

JCGM 100:2008. Evaluation of measurementdata – Guide to the expression of uncertaintyin measurement (GUM 1995 with minorcorrections).

Nordling T., Melo Peralta T. A literature reviewof methods for assessment of reproducibility inscience. Research Square, 2022. doi: https://doi.org/10.21203/rs.3.rs-2267847/v5

Semmelrock H., et al. Reproducibility inmachine-learning-based research: Overview,barriers, and drivers. AI Magazine, 2025, vol. 46,issue 2. doi: https://doi.org/10.1002/aaai.70002

Liu F.T., Ting K.M., Zhou Z.-H. IsolationForest. Proceedings of the 8th IEEE InternationalConference on Data Mining (ICDM), 2008,pp. 413–422. doi: https://doi.org/10.1109/ICDM.2008.17

Ashchepkov V.O. Vykorystannya modeli IsolationForest dlya vyyavlennya anomaliy u danykhvymiryuvan [The use of the Isolation Forestmodel for anomaly detection in measurementdata]. Innovative technologies and scientificsolutions for industries, 2024, no. 1(27), pp. 236–245 (in Ukrainian). doi: https://doi.org/10.30837/ITSSI.2024.27.236

Ashchepkov V.O. Obrobka rezultativ vymiryuvanvytraty ridyny z vykorystannyam mashynnohonavchannya: dys. d-ra philosophii [Processingof liquid-flow measurement data using machinelearning: PhD diss.]. Kharkiv, Kharkiv NationalUniversity of Radioelectronics Publ., 2024. 198 p.(in Ukrainian). Available at: https://openarchive.nure.ua/handle/document/31412

Оцінювання відтворюваності числових результатів алгоритмів машинного навчання у вимірювальних задачах

Автор(и)

DOI:

Ключові слова:

Анотація

Посилання

##submission.downloads##

Опубліковано

Номер

Розділ

Ліцензія

##plugins.block.developedBy.blockTitle##

Мова