Penambangan data merupakan salah satu pekerjaan yang penting untuk penyelesaian
banyak permasalahan nyata saat ini. Jenis data yang ditambang bisa beragam,
termasuk data transaksi, gambar, dan teks/bahasa. Perkembangan penambangan
data semakin pesat seiring dengan pesatnya perkembangan pembelajaran mesin,
khususnya deep learning. Pada Gemastik 2021 ini, data yang digunakan adalah korpus
teks Bahasa Indonesia. Korpus teks Bahasa Indonesia yang bisa diakses masyarakat
semakin banyak terdapat di internet, sehingga proses penambangan teks Bahasa
Indonesia dirasa semakin penting untuk dilakukan. Para peserta lomba diharapkan
mampu melakukan proses penambangan teks Bahasa Indonesia yang tersedia di
internet.