Parser Kalimat Sederhana untuk Bahasa Indonesia

Beberapa waktu lalu saya mendapat tugas kerja untuk membuat sebuah text summarizer (perangkum bacaan) menjadi sebuah kalimat sederhana. Istri saya yang lebih mendalami bidang NLP menyarankan untuk menggunakan teknik yang sederhana:

Temukan kalimat utama, dan jadikan kalimat tersebut sebagai rangkuman.

Saya setuju ide itu, selain tidak serumit jika mengunakan machine learning yang kompleks, rasanya cara itu sudah cukup cocok untuk kasus saya. Istri saya memberi tahu saya beberapa algoritma yang bisa digunakan dan sebuah peringatan bahwa bagian paling sulit adalah nanti bagaimana membuat parser kalimat (program yang dapat mengekstrak kalimat-kalimat yang menyusuk sebuah dokumen teks).

Saya buat parser ini menggunakan bahasa pemrograman Python, dengan bantuan beberapa package (re untuk regex, dsb.).

Split berdasar penanda akhir kalimat

Percobaan pertama yang saya lakukan adalah menggunakan regex untuk men-split data teks berdasarkan beberapa karakter yang biasa menjadi penanda akhir dari sebuah kalimat. Karakter pemisah yang saya gunakan awalanya aadalah tanda titik (“.”), tanda tanya (“?”), dan tanda seru (“!”) yang setelahnya terdapat sebuah spasi atau sudah di akhir dokumen.

Setelah coba dijalankan, saya menemukan beberapa fakta menarik. Pertama, seharusnya saya tidak perlu memisahkan berdasarkan tanda tanya dan tanda seru karena kedua tanda tersebut hanya muncul di kalimat langsung yang tidak perlu di split. Jadi berikutnya kita cukup split di tanda titik.

Kedua, asumsi saya menggunakan tambahan “sebuah spasi setelah karakter” ternyata benar-benar bermanfaat karena parser akhirnya tidak men-split tanda titik yang bukan akhir kalimat, misalnya 6.700 korban.

Kalimat langsung

“Roses are red. Violets are Blue,” said Hugo.

Dalam kasus saya, kalimat di dalam kalimat langsung tidak boleh dipisah. Untuk menghindari pemisahan, perlu dibuat aturan khusus (saya rasa ini bisa di-handle menggunakan regex). Ide saya sementara ini dengan membuat variabel untuk mengecek sebuah simbol pemisah ada di dalam double quote atau tidak, lalu jika tanda titik misalnya ada di antara double quote, maka kita beri “tanda” agar tidak di split.

“Tanda” agar tidak di-split

Untuk menandai sebuah simbol tidak boleh di split, saya sisipkan simbol yang unik (yang saya yakin tidak akan muncul di dokumen saya) sebelum dan setelah tanda titik. Saya gunakan simbol @#...@#.

“Roses are red@#.@# Violets are Blue,” said Hugo.

Mengatasi Singkatan

Ini adalah bagian yang juga sulit, misalnya ada kalimat:

Tadi malam saya bertemu H. Akbar M. dan drs. Rian. Kami adalah sahabat dekat dulunya.

Jika diperhatikan tanda titik setelah huruf “H” dan huruf “M”, bukanlah tanda akhir dari kalimat, begitu juga tanda titik setelah “drs”. Tanda titik yang digunakan untuk memisah kalimat adalah setelah kata “Rian”.

Awalnya saya berpikir untuk tidak mensplit tanda titik yang sebelumnya hanya satu huruf, tapi “drs” lebih dari satu huruf dan juga merupakan singkatan. Kita harus menemukan sebuah kata adalah singkatan atau bukan.

Deteksi singkatan

Pada projek ini ada dua aturan yang gunakan:

  1. Jika kata sebelum tanda titik hanya terdiri dari satu huruf, maka itu adalah singkatan. Contoh: “M.”, “H.”
  2. Jika tidak, maka cek terlebih dahulu di kamus singkatan (saya buat sendiri), jika ditemukan, maka kata tersebut singkatan. Contoh: “Prof.”, “Dr.”, “Hj.”, “dll.”, “Moch.”

Secara tidak langsung, aturan ini juga menangani singkatan panjang seperti “S.W.A.T.”. Setelah berhasil mendeteksi singkatan, dengan ide yang sama kita kasih “tanda” pada tanda titiknya, lalu split dengan fungsi regex seperti sebelumnya.

Hapus “tanda”

Setelah berhasil split kalimat, jangan lupa untuk menghilangkan simbol yang tadi kita gunakan sebagai “tanda”. Caranya bisa dengan manual seach atau dengan regex.

Program

Program bisa diakses di Google Colab berikut

Image from: https://museafrica.com

Membuat Asynchronous Flask App dengan Gunicorn-Gevent

Salah satu masalah yang pernah saya hadapi ketika mencoba mengaplikasikan model machine learning ke produksi adalah model biasanya memerlukan beberapa waktu untuk melakukan perhitungan dan memberikan hasil.

Misalnya kita punya machine learning API untuk mengklasifikasi citra, dan butuh waktu kira-kira 2 detik untuk menghasilkan kelas yang sesuai (memprediksi), bisa dibayangkan apa yang terjadi jika kita letakkan itu di level produksi dengan 1000 permintaan prediksi perdetiknya! Yang ada server akan lambat sekali, user harus mengantri sangat lama untuk mendapatkan hasil prediksinya.

Asynchronous API

Solusi sederhana yang muncul di saya adalah membuat Asynchronous API. Apa itu? Penjelasan sederhananya bisa merujuk ke halaman stackoverflow ini: Bayangkan kamu sedang memasak di restoran, dan ada dua pesanan datang, yang satu memesan telur yang satu memesan roti.

  • Synchronous: kamu memasak telur, setelah itu kamu memasak roti
  • Asynchronous, single threaded: kamu mulai memasak telur, lalu sambil menunggu matang kamu mulai memasak roti. Ketika keduanya sedang menunggu matang kamu bisa mulai membersihkan dapur, dan keduanya akan matang dalam waktu yang hampir bersamaan.
  • Asynchronous, multithreaded: kamu mempekerjakan satu lagi orang untuk membantu memasak. Sekarang, satu orang bisa fokus memasak telur dan satu yang lain fokus memasak roti. Masalahnya sekarang kamu harus bisa mengkoordinirnya dengan baik agar tidak berebut alat dapur.

Nah, karenanya kita akan mencoba membuat API yang Asynchronous, sehingga proses pengerjaan bisa dilakukan dalam waktu hampir bersamaan. (Penjelasan lain : dari codewala)

Bagaimana cara membuatnya?

Ada banyak cara untuk mengimplementasikan Asynchronous API. Tapi karena saya membuat API menggunakan Python Flask. Salah satu cara yang paling simpel adalah menggunakan  Gunicorn dan Gevent. Pertama-tama instal terlebih dahulu Gunicorn dan Gevent, cara yang sederhana adalah menggunakan pip:

Normalnya jika kita akan menjalankan aplikasi Flask, kita melakukannya cukup dengan menjalankan perintah Python pada umumnya:

Tetapi untuk menjalankannya menggunakan Gunicorn kita akan menjalankan program tersebut dengan perintah yang berbeda, yakni:

myapp adalah nama file program kita, and app adalah flask app variable. Setelah perintah tersebut dijalankan, program akan berjalan di http://localhost:8000 (perhatikan pada perbedaan port program berjalan, jika menggunakan Flask, program akan berjalan pada port 5000, sedangkan jika menggunakan Gunicorn program berjalan pada port 8000).

Tapi ini belum selesai, jika hanya menjalankan dengan perintah di atas, maka program hanya akan berjalan synchronous. Untuk menjalankan secara asynchronous dengan Gunicorn kita tidak perlu mengubah isi dari program, cukup dengan menjalankan perintah berikut ini:

-k adalah opsi untuk menjalankan Gunicorn secara asynchronous, di sana kita akan menggunakan gevent service (ada beberapa services yang bisa digunakan untuk menjalankan secara asynchronous, contoh lainnya adalah eventlet). -w adalah opsi untuk menentukan berapa banyak worker yang akan digunakan untuk menjalankan program tersebut. Pada contoh ini kita menggunakan 5 worker (Penentuan jumlah worker, silakan baca: Workers).

Dan selamat! kita baru saja menjalankan program Flask kita secara asynchronous!

Testing

Untuk menguji API yang telah kita jalankan, yang paling sederhana kita bisa menggunakan apache benchmark. Dengan apache benchmark kita bisa melakukan simulasi pengaksesan ke API kita dengan banyak request secara simultan, perintahnya adalah berikut:

-n menunjukkan banyak request yang akan dikirimkan, dan -c adalah banyaknya concurency, atau request dalam satu waktu. Jika diperhatikan hasilnya akan tampak perbedaan ketika program dijalankan dengan Async dan tanpa Async.

Tapi perintah di atas, hanya untuk menjalankan GET request, artinya untku API machine learning, perinta di atas hanya menguji dalam mengaksesnya tidak untuk memprediksi. Untuk program machine learning, kita bisa melampirkan data “test” untuk mengujinya.

Misalnya API machine learning untuk proses sentimen movie review, kita bisa melampirkan data teks contoh untuk diprediksi. Pertama-tama Kita buat dulu datanya dengan format sesuai API yang telah dibuat (tidak ditunjukkan pada tutorial ini):

Setelah itu, simpan data tersebut pada sebuah file misalnya “tester.txt”. Nah untuk melampirkannya cukup kita tambahka tipe body dan nama file di perintah sebelumnya:

Maka API akan diuji untuk memprediksi data tersebut, dan kita dapat memperhitungkan waktu prosesnya.

Terima kasih 🙂 semoga bermanfaat

Instalasi Cuda di Ubuntu 16.04: Part 2

Setelah sadar NVIDIA drivernya belum terinstall akhirnya saya memulai proses instalasi driver NVIDIA.

7. Cara paling mudah yang saya temui, pertama-tama kita harus tahu terlebih dahulu versi VGA kita. Ini bisa diakses dengan mengetikkan

di terminal, sehingga terlihat code VGA kita, misal:

8. Setelah itu akses NVIDIA Driver Search, dan masukkan kode yang sesuai.

Screenshot from 2016-09-06 18-38-11

9. Klik Search, tapi Jangan klik download. Kenapa? karena data yang kita butuhkana adalah versi drivernya (dalam hal ini 367.44)

Screenshot from 2016-09-06 18-40-29

10. Itu artinya kita perlu mendownload nvidia versi 367, ini bisa dilakukan dengan ketikkan perintah pada terminal

11. Lalu reboot dan Alhamdulillah 🙂 terinstalah NVIDIA Driver

12. Dan kalau kita lakukan pengecekan yang sama dengan post sebelumnya, untuk mengecek apaka Cuda sudah terinstal dengan baik. Maka erornya akan sudah tidak tampak, dan muncul pesan berikut:

Catatan Tambahan:
Jika saat melakukan perintah 4 versi tidak ditemukan *seperti pengalaman saya sebelumnya* maka kalian perlu update apt dengan menjalankan perintah-perintah berikut:

Referensi: