Для того чтобы выполнить статистическую обработку данных с помощью нашего онлайн-сервиса, Вам нужно сделать всего 3 шага:
Оформление базы данных для сервиса StatTech не отличается от принципов подготовки базы для любой другой статистической программы и предполагает выполнение нескольких несложных общепринятых правил:
1) Данные в таблице базы (Рис. 1) располагаются следующим образом:
Строки - это пациенты (клиенты, животные, другие единицы наблюдения). Данные о каждом пациенте умещаются в одну строку.
Столбцы - это показатели (возраст, пол, артериальное давление и т.д.)
Верхняя строчка базы данных - названия показателей без указания единиц измерения или других дополнительных сведений. Для названия показателей используется только первая строка в базе данных.
Рисунок 1 - Пример таблицы базы в MS Excel
Нельзя использовать слияние каких-либо ячеек в базе (Рис. 2):
Рисунок 2 - Пример неправильного оформления таблицы базы - слияние ячеек
Нельзя использовать более одной строки для названия показателей (Рис.3):
Рисунок 3 - Пример неправильного оформления таблицы базы
2) Все показатели должны быть числовыми. Не допускается использование текстовых переменных. Категориальные переменные кодируются в соответствии с их значениями, каждому из которых присваивается свое число.
Например, в столбце «Пол» следует указывать не «мужчина» или «женщина», а числовые обозначения: 1 и 2, соответственно.
Для показателей, значения которых подразумевают ранжирование, числовые коды присваивайте в порядке возрастания.
Например, степени тяжести заболевания: легкая - 1, средняя - 2, тяжелая - 3.
Не забудьте отдельно записать и сохранить для себя ключ к используемым кодировкам, он пригодится при загрузке базы данных на портал StatTech!
Пример исходной базы с текстовыми обозначениями категориальных переменных (Рис. 4):
Рисунок 4 - Пример базы с текстовыми обозначениями категориальных переменных
Та же база данных после перекодировки категориальных переменных (Рис. 5):
Рисунок 5 - Пример базы с перекодировкой текстовых категориальных переменных
Ключ к базе:
3) Количественные показатели указываются в числовом формате без указания единиц наблюдения. В качестве разделителя разрядов используйте либо запятую, либо точку (Рис. 6).
Неправильное обозначение
Используются разные разделители
Значения указаны вместе с единицами измерения
Правильное обозначение
В качестве разделителя использована запятая
В ячейках базы - только цифры
4) Некоторые категориальные показатели принимают у одной и той же единицы наблюдения сразу несколько значений.
Например, это относится к сопутствующим заболеваниям, которых у одного пациента может быть несколько. В таких случаях недопустимо указывать в одной ячейке несколько значений через запятую. Необходимо создать несколько столбцов с отдельными заболеваниями, в которые данные заносим в бинарном, двоичном виде: 1 (что означает «Есть данное заболевание») или 0 («Нет данного заболевания»).
5) Присваивайте названия показателям в наиболее полном варианте, так, как Вам бы хотелось видеть их в таблицах и графиках. В неизменном виде они будут использоваться при оформлении результатов анализа Ваших данных.
Например, вместо «Глюкоза», лучше написать «Содержание глюкозы в сыворотке крови».