Очистка данных в карте STATA и библиотеке данных

Карта и библиотека данных.

Рекомендуемый ресурс.

Межуниверситетский консорциум политических и социальных исследований (ICPSR) — крупный архив данных США. Узнать больше.

Коллекции.

Геопространственные данные Числовые данные Карты и атласы Отсканированные карты Отсканированные карты (новый интерфейс) Аэрофотоснимки Данные Торонто.

Проекты.

Ресурсы COVID-19 Проект исторического картографирования долины Дона Проект карты округа Онтарио Карта фильма Торонто Визуализация ВИЧ.

Получить помощь.

Учебные пособия Семинары и обучение Получите помощь с картами и данными Перейдите в раздел "Обучение".

Биты и байты: изучение всех вещей, связанных с данными (серия выступлений), Практические семинары и тренинги по программному обеспечению..

Руководство по визуализации данных Цитирование данных Получите помощь с картами и данными.

Программное обеспечение ГИС Статистическое программное обеспечение Программное обеспечение для визуализации данных Программное обеспечение NVivo Учебные пособия по программному обеспечению Семинары и обучение.

Удаленное использование компьютеров MDL Компьютеры эталонной зоны Компьютерная лаборатория Сканеры Устройства GPS.

О библиотеке.

О нас Связаться с нами Часы работы Listservs Планы этажей.

Очистка данных в карте STATA и библиотеке данных библиотека

Расположение.

Библиотека Робартса Ул. Св. Георгия, 130, 5-й этаж Торонто Карта.

Часы.

Продлить мои товары Просмотреть мой аккаунт Портал офисов TCard.

U of T Links.

U of T Библиотеки На главную U of T На главную Веб-почта Портал контактов ROSI.

Карты кампуса.

Центр города UTM UTSC.

НОВИНКА: теперь мы предлагаем виртуальную стойку регистрации через Zoom с 12 до 15 часов (EST) с понедельника по пятницу..

Технология.

Очистка данных в STATA.

Введение в очистку данных с помощью STATA.

Оглавление.

Очистка данных — это довольно широкий термин, который применяется к предварительным манипуляциям с набором данных перед анализом. Очень часто это будет первое задание ассистента исследователя и утомительная часть любого исследовательского проекта, которая заставляет нас желать, чтобы у нас был ассистент. Stata — хороший инструмент для очистки и обработки данных независимо от того, какое программное обеспечение вы собираетесь использовать для анализа. Ваш первый проход в наборе данных может включать любое или все из следующего:

Создание ряда более мелких подмножеств на основе критериев исследования Отказ от наблюдений Удаление переменных Преобразование переменных Работа с выбросами Создание новых переменных Перемещение переменных Обозначение переменных Переименование переменных.

Независимо от того, очищаете ли вы данные впервые или являетесь закаленной «обезьяной данных», вы можете найти несколько полезных советов, прочитав больше.

Несколько полезных советов перед началом работы [1]

Воспользуйтесь файлом справки Stata. Stata имеет встроенную функцию, которая позволяет вам получить доступ к руководству пользователя, а также к файлам справки по любой заданной команде. Просто введите «help» в командном окне, затем имя команды, по которой вам нужна помощь, и нажмите клавишу Enter:

Напишите do-файл. Никогда не очищайте набор данных, вводя команды вслепую (или, что еще хуже, нажимая кнопки). Вы хотите записать команды в do-файл, а затем запустить его. Таким образом, если вы сделаете ошибку, вы не испортите весь свой набор данных, и вам не придется начинать заново с нуля. Это общий совет, который применим к любой работе, которую вы выполняете в Stata. Работа с do-файлами позволяет другим людям увидеть, что вы сделали, если вам когда-нибудь понадобится совет, это делает вашу работу воспроизводимой и позволяет безболезненно исправлять небольшие ошибки..

Чтобы запустить do-файл, щелкните значок в виде блокнота в верхнем левом углу программы просмотра Stata [2].

На предварительных этапах работы вы можете почувствовать, что файл дела скорее мешает, чем полезен. Например, если вы не очень хорошо знакомы с командой, вы можете сначала попробовать ее. Один простой способ сделать это, сохранив при этом дисциплину в написании do-файлов, — написать do-файл поэтапно, написав всего несколько команд перед их выполнением, исправляя ошибки по ходу дела. Чтобы выполнить ряд команд, а не весь do-файл, просто выделите те из них, которые вы хотите выполнить, и щелкните значок «Выполнить выделение (do)» в верхней части редактора do-файла на дальней панели. Правильно.

По мере того, как вы станете более опытным в программировании в Stata, вам больше не нужно будет пробовать команды, и вы откроете для себя радость написания do-файла и его бесперебойной работы. Чтобы запустить весь do-файл, не выделяйте ни одну его часть и щелкните значок «Выполнить выделение (do)»..

Вы можете задаться вопросом о командах «clear», «set more off» и «set mem 15000» в примере скриншота. Эти три команды являются административными командами, которые очень полезно иметь в начале файла. Первый, «очистить», используется для очистки любого предыдущего набора данных, над которым вы, возможно, работали. Команда «set more off» указывает Stata не приостанавливать и не отображать сообщение —more-. Наконец, команда «set mem 15000» увеличивает объем памяти, доступной для Stata с вашего компьютера; здесь он нам понадобится, так как размер набора данных, который мы загрузили из [3], больше, чем 10 МБ, выделенные для данных по умолчанию..

И последнее замечание о do-файлах: если вы дважды щелкните сохраненный do-файл, он не откроется для редактирования, а Stata запустит этот do-файл, что может немного раздражать … Чтобы повторно открыть do-файл из папки без выполняя в нем команды, щелкните его правой кнопкой мыши и выберите «редактировать», а не «открыть».

Всегда ведите журнал. Опять же, это общее практическое правило Stata. Ведение журнала означает, что вы можете вернуться и посмотреть, что вы сделали, без необходимости делать это снова. Для запуска журнала достаточно добавить команду вверху вашего do-файла, которая сообщает Stata о необходимости ведения журнала, а также о том, где вы хотите сохранить журнал:

войдите в журнал, используя «anypathyouwant: \ pickanameforyourlog.smcl» [4], замените [5]

Обратите внимание, как журналы сохраняются под расширением smcl.

Не забудьте закрыть свой журнал перед тем, как начать новый. Последняя команда в вашем do-файле [6] обычно будет «закрыть журнал»..

Сохраняйте на ходу. Компьютеры выходят из строя, отключается электричество, всякое происходит. Сохраняйте свои do-файлы каждые несколько минут по мере их написания. Сохранение файла do выполняется так же, как и сохранение любого документа текстового редактора: либо щелкните значок дискеты, либо нажмите «CTRL + S»:

Вы также должны сохранять свой набор данных по мере его изменения, но обязательно сохраните одну версию исходного набора данных, на случай, если вам нужно будет начать все сначала. Команда для сохранения набора данных в Stata — «сохранить», за ней следует путь, по которому вы хотите сохранить набор данных, и [необязательная] команда «заменить»..

Обратите внимание на расширение для данных Stata «.dta», а также обратите внимание на то, что новый набор данных имеет другое имя, чем исходное [7].

Ознакомьтесь со своим набором данных. Наборы данных поставляются с кодовыми книгами. Вы должны знать, что представляет собой каждая переменная, как она кодируется, как идентифицируются отсутствующие значения. Хорошая практика — посмотреть на данные, чтобы понять структуру информации. Для этого вы можете щелкнуть «Данные» в верхнем левом углу средства просмотра и выбрать «Редактор данных», затем «Редактор данных» (просмотр). Откроется новое окно, и вы сможете увидеть свои данные.

Вы также можете использовать команду «обзор», набрав ее непосредственно в командном окне или из файла do:

Одна из отличительных особенностей заключается в том, что когда вы загружаете набор данных, он поставляется с метками. Метки переменных представляют собой описания переменных, а метки значений используются для описания способа кодирования переменных. По сути, метка значения находится поверх кода, поэтому при просмотре вы видите, что означает код, а не то, что он есть на самом деле. Чтобы было понятнее, давайте посмотрим на данные без ярлыков. Посмотрите, например, на переменную GEOPRV.

Создание ряда более мелких подмножеств на основе критериев исследования.

Есть много причин, по которым вам может понадобиться меньшее подмножество ваших данных, но главная из них заключается в том, что чем больше набор данных, тем сложнее управлять Stata, что замедляет работу вашей системы. Ваша цель — сделать набор данных как можно меньше, сохраняя при этом всю необходимую информацию. Ваш план исследования определяет, что будет содержать ваш окончательный набор данных.

Допустим, у вас есть данные о привычках в отношении здоровья канадцев в возрасте от 12 лет и старше, но ваш исследовательский вопрос касается женщин репродуктивного возраста, проживающих в Онтарио [8]. Очевидно, что вам не нужно хранить мужчин в своем наборе данных, и вам не нужно сохранять жителей других провинций, кроме Онтарио. Кроме того, вы, вероятно, можете бросить женщин младше 15 и старше 55 лет. А теперь давайте посмотрим, как бы вы это сделали.

Отказ от наблюдений.

Чтобы удалить наблюдения, вам необходимо объединить одну из двух команд Stata (сохранить или удалить) с квалификатором «если»..

Перед началом работы убедитесь, что вы сохранили исходный набор данных..

Команду «сохранить» следует использовать с осторожностью (или избегать ее вообще), потому что она отбросит все, кроме того, что вы специально сохраняете. Это может быть проблемой, если вы не на 100% уверены в том, что хотите сохранить..

Команда «drop» удалит из вашего набора данных то, что вы специально просите Stata удалить..

Квалификатор «if» ограничивает область действия команды теми наблюдениями, для которых значение выражения истинно. Синтаксис использования этого квалификатора довольно прост:

Вместо command в данном случае drop и exp — это выражение, которое должно быть истинным для применения команды drop [9].

На примере женщин репродуктивного возраста в Онтарио, в первой выделенной строке отбрасываются мужчины, во второй строке отбрасываются все наблюдения за пределами Онтарио, а в последней строке отбрасываются наблюдения в возрастных группах старше или младше интересующей нас подгруппы..

Вы должны быть осторожны с логическими операторами; обратите внимание на синтаксис в третьей строке. Распространенная ошибка — просить Стату «бросить, если DHHGAGE>10 & DHHGAGE 1.803 ») Используйте квалификатор« if », чтобы исключить его при генерации статистики, использующей переменную высоты (« команда if hwtghtm.

[1] Предполагается, что у вас уже есть набор данных. Если вы этого не сделаете и вам нужна помощь в сборке данных, посетите библиотеку данных (ЭТОТ КОММЕНТАРИЙ НЕОБХОДИМО СМОТРЕТЬ РУКОВОДСТВО ПО КАК ЗАГРУЗИТЬ НАБОР ДАННЫХ ИЗ SDA)

[2] Вы можете использовать другие текстовые редакторы для создания и управления do-файлами. Например, Smultron — это программное обеспечение с открытым исходным кодом, которое хорошо работает со Stata..

[3] Вы можете увидеть размер набора данных, щелкнув его правой кнопкой мыши и выбрав «Свойства»..

[4] Вы должны создать папку в легко запоминающемся месте (хорошо работает рабочий стол) для работы со Stata. Затем проверьте его свойства, щелкнув по нему правой кнопкой мыши, и скопируйте местоположение. Это твой путь.

[5] «Заменить» здесь необязательно, но очень полезно, если вы хотите вести только один журнал для каждого do-файла. Если у вас нет команды «заменить», вам нужно будет изменять имя журнала каждый раз, когда вы запускаете do-файл..

[6] Однако, если do-файл прерывается из-за ошибки и журнал открыт, вам нужно будет закрыть его перед повторным запуском того же do-файла, потому что одна из первых команд do-файла — запустить журнал, который приведет к сообщению об ошибке, если предыдущий журнал не будет закрыт. Просто введите команду «закрыть журнал» в командном окне или выделите ее и выполните из своего файла..

[7] Примечание для пользователей этого руководства: эта команда обычно находится в конце do-файла. Я создал здесь снимок экрана с новым do-файлом только для того, чтобы показать только одну команду. Все примеры в этом руководстве, в которых аналогично используется новый файл do только с одной командой, были выполнены таким образом, чтобы сэкономить место. Цель этого семинара — научиться создавать файл с инструкциями по очистке, в котором команды перечислены одна за другой. Я верю, что пользователи могут достаточно хорошо понять команды к концу семинара, чтобы собрать их в порядке, который логичен для целей их собственной задачи..

[8] Примеры в этом руководстве были созданы с использованием индивидуализированного подмножества обследования состояния здоровья населения Канады (CCHS), годовой компонент, 2007–2008 гг., Доступного через Data Liberation Initiative (DLI) и загруженного с помощью SDA @ CHASS..

[9] См. Файлы справки Stata по выражениям и операторам: введите «help exp» и «help operator» на экране команд..

[10] Здесь нет практического правила; Я просто выбрал список переменных, который содержал мало полезной информации. Иногда факт, что лишь небольшое количество наблюдений содержит информацию, сам по себе информативен. Не отбрасывайте переменные, которые говорят вам что-то важное.

[11] Обратите внимание, что вы также можете использовать эту команду для создания групп. В наборе данных CCHS уже указан возраст по возрастным группам, но если у вас есть переменная для фактического возраста, вы можете сгенерировать переменную возрастной группы с помощью перекодирования. Дополнительные параметры см. В справочной таблице Stata (справка по перекодированию)..

[12] По общему признанию, это действительно выбросы, просто не тот тип, с которым мы хотим что-либо делать. Оставьте их в покое. «Работа» с истинными событиями любым способом, вероятно, принесет больше вреда, чем пользы, так как вы усечете свой набор данных, что потенциально может создать систематическую ошибку в вашем анализе позже..

[13] Вы заменяете «varlist» на список переменных, которые вы хотите свести в таблицу, как в примере с перетаскиванием..

[14] Все эти команды, квалификаторы и префиксы имеют файлы справки Stata. Взгляните на них для более подробной презентации.

[15] Знание того, как маркировать переменные, также может быть полезно, если данные не были предоставлены вам вместе с файлом словаря; затем вы можете использовать анкету для создания меток для всех интересующих вас переменных, как это сделал бы файл словаря..

Похожие статьи