03.07.2026 "Modern Science and Research" xalqaro ilmiy jurnali 1 seriyasi. Volume 5 Issue 7
Abstract. Несмотря на высокое бремя материнской заболеваемости в Узбекистане, для страны отсутствуют открытые наборы данных, пригодные для разработки и воспроизводимой проверки моделей прогнозирования материнского риска. Существующие модели обучены преимущественно на данных стран с высоким доходом, что ограничивает их перенос. Мы представляем MaternaUZ – первый открытый синтетический набор данных материнского риска для Узбекистана (n = 4 812 записей, 26 переменных), сгенерированный с сохранением одномерных и совместных распределений переменных Demographic and Health Surveys (DHS) и тематически сопоставленный с открытым клиническим набором материнского риска (Бангладеш, UCI Machine Learning Repository). Признаки сгруппированы в пять кумулятивных слоёв (базовые, клинические, социальные, экологические, динамические). Набор не содержит данных реальных лиц, прошёл проверку соответствия распределений (критерий Колмогорова–Смирнова), сохранения корреляционной структуры и приватности (расстояние до ближайшей записи). На наборе воспроизводится базовая модель стратификации риска (ROC-AUC ≈ 0,9). MaternaUZ обеспечивает воспроизводимую разработку алгоритмов до получения доступа к реальным клиническим данным (DMED) и публикуется под открытой лицензией.
Keywords: синтетические данные; материнское здоровье; Узбекистан; DHS; открытые данные; машинное обучение; воспроизводимость.