Tokenisasi
Supported from ^0.1.4
Tokenisasi ini digunakan untuk mengubah teks menjadi token kata, tanda baca, angka, tanggal, email, URL, dll.
Tokenisasi ini menandai teks menjadi token terpisah di mana token kata adalah token satu kata. Token yang diawali dengan ku- atau diakhiri dengan -ku, -mu, -nya, -lah, -kah akan dipisah jika merupakan kata ganti orang atau partikel.
Contoh 1
from frasa.preprocess import token token.tokenize('Harga sayur-sayuran naik sejak beberapa hari terakhir.')
['Harga', 'sayur-sayuran', 'naik', 'sejak', 'beberapa', 'hari', 'terakhir', '.']
Contoh 2
token.tokenize('Menurutku, harga sayur-sayuran naik sejak beberapa hari terakhir.')
['Menurut', 'ku', ',', 'harga', 'sayur-sayuran', 'naik', 'sejak', 'beberapa', 'hari', 'terakhir', '.']