Data cleaning

Data manipulation¶

Summarizing dataset¶

RStata

d // equivalent to `describe`
d, s // equivalent to `describe, short`

Listing variables¶

RStata

ds
d, si // equivalent to `describe, simple`

Printing¶

RStata

di // equivalent to `display`

Logical expressions¶

RStata

inrange(z, a, b)
inlist(z,a,b,...)

Filtering¶

RStata

# dplyr::filter()
df |> filter(age > 30 & city == "New York City")

# bracket subsetting
df[df$age > 30 & df$city == "New York City", ]

Keeping/Dropping variables¶

RStata

drop <varlist>
keep <varlist>

Grouping variables¶

RStata

bys <var>: <cmd>

Summarizing data¶

RStata

df |> 
  group_by(age) |>
  summarize(income = mean(income))

collapse

Working with Variables¶

Numerical variables¶

R

ceiling(x)
floor(x)
round(x, 3)     # number of decimal places
signif(x, 3)    # number of significant digits

String variables¶

RStata

activities <- c("running", "dancing", "reading")
pattern <- "read"
str_subset(activities, pattern)   # return strings that match this pattern
str_detect(activities, pattern)   # return a logical vector
str_which(activities, pattern)    # return indice(s)

string <- "Contact: string@gmail.com or character@gmail.com",
pattern <- "[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+"
str_extract()                     # extract the first match
str_extract_all()                 # extract all matches

Data and time variables¶

Stata

gen <var_clock> = clock(<var_str>, "hms") // e.g., "08:00:00"
format <var_clock> %tcHH:MM:SS

Data transformations¶

Normalization¶

TBD

Winsorization¶

Stata

Winsor1 vs Winsor 2 - Statalist

winsor income, p(0.1) gen(income_w10)

Data cleaning

Data manipulation¶

Summarizing dataset¶

Listing variables¶

Printing¶

Logical expressions¶

Filtering¶

Keeping/Dropping variables¶

Grouping variables¶

Summarizing data¶

Working with Variables¶

Numerical variables¶

String variables¶

Data and time variables¶

Data transformations¶

Normalization¶

Winsorization¶

Creating codebooks¶

Codes and identifiers¶

Geographic identifiers¶

Industry & occupation codes¶

Demographic codes¶

Program & policy identifiers¶

Survey crosswalks¶