Text Mining

Text mining adalah salah satu bidang khusus dari data mining. Yang membedakan hanyalah sumber data yang digunakan. Pada data mining data yang digunakan adalah data terstruktur sedangkan dalam text mining data yang digunakan adalah data yang tidak terstruktur berupa teks.

Data teks akan diproses menjadi data numerik agar dapat dilakukan proses lebih lanjut. Sehingga dalam teks mining ada istilah preprocessing data – yaitu proses pendahulu yang diterapkan terhadap data teks yang bertujuan untuk menghasilkan data numerik.

Pada preprosesing ada beberapa tahapan yang dilakukan yaitu :

  1. penghapusan format dan markup -> jika dokumen yang digunakan bukan berupa teks murni maka tahap ini dilakukan. Karena dokumen teks yang biasanya kita lihat berupa format non teks seperti html, pdf atau dalam bentuk word. Format-format ini mengharuskan sebuah teks dilengkapi unsur-unsur tambahan untuk dapat menghasilkan tampilan yang friendly dimata kita. Informasi-informasi itu dihilangkan karena dianggap tidak perlu dan tidak mencerminkan isi sebuah dokumen teks
  2. Penghapusan tanda baca dan angka -> tanda baca juga dianggap tidak penting, karena kebetulan dalam penelitian yang saya lakukan tidak memperhatikan keterkaitan kata, kalimat ataupun sejenisnya, so kata dianggap berdiri sendiri.
  3. Pengubahan dari huruf besar ke huruf kecil semua.
  4. Parsing dan Stemming->penguraian kata kedalam bentuk tunggal dan pembentukan kata kedalam bentuk dasarnya, sehingga kata-kata yang mempunyai bentuk kata dasar yang sama akan dikelompokkan.
  5. Pembobotan -> Dimulai dengan perhitungan jumlah kata dalam setiap dokumen, yang kemudian akan dihitung menggunakan skema pembobotan yang dikehendaki.

Udahan dulu… kapan-kapan nyambung lagi!Moga-moga aja Ga’ males

6 thoughts on “Text Mining

  1. Mba minta emailnya dunk’s.. wat sharing elmu….. tar kirim ja email mba ke email punya saya …. waya juga mw belajar joomla… tapi saya baru bisa mambooo…

  2. toooolllooooooonggg!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
    kalo ada yang bisa bantu menerangkan kepada saya apa itu text mining??
    saya butuh tahu secepatnya..thx

  3. Aslm mbak, maaf sblume ni ganggu. Mbak kmaren proses steamingnya dapet refrensi dri mana? Maaf ni to project ta saya makasih mbak. Minta emailnya skalian ya mbak makasih bnget…

  4. aslm mbak mominta tentang cara stemming dunk… tuk tugas nie mbak… makasih sebelumnya n aku tunggu bener2 balesannya…makasih…

  5. mba, mau tanya ttg stemming boleh ga??
    bisa minta penjabaran ttg successor variety??
    sy lg pake successor variety untuk TA sy…sy mw coba stemming dgn SV untuk dilihat pengaruhnya ke kategorisasi berita berbahasa Indonesia…mohon bantuannya,, ^^

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s