Pengolahan Bahasa Alami (Natural Language Processing)

Bahasa sebagai bagian yang penting dari kehidupan manusia, dalam bentuk tulis dapat merupakan catatan dari pengetahuan yang didapat oleh umat manusia dari satu generasi ke generasi berikutnya sedangkan dalam bentuk lisan merupakan sarana komunikasi antar individu dalam suatu masyarakat.

Bahasa dapat dibedakan menjadi 2 yaitu bahasa alami dan bahasa buatan. Bahasa alami adalah bahasa yang digunakan manusia untuk berkomunikasi, misalnya bahasa daerah, bahasa inggris, jepang, dan sebagainya. Sedangkan Bahasa buatan merupakan bahasa yang sengaja dibuat secara khusus untuk kebutuhan tertentu, seperti bahasa-bahasa pemrograman komputer atau bahasa pemodelan.

Pengolahan Bahasa Alami

Pengolahan Bahasa Alami (PBA) atau Natural Language Processing (NLP) merupakan cabang dari ilmu komputer dan linguistik yang membahas tentang interaksi antara bahasa manusia (bahasa alami) dan komputer. NLP juga sering disebut sebagai cabang dari kecerdasan buatan (Artificial Inteligence) dan memiliki kajian yang berhubungan dengan linguistik komputasional.



Sedikit melihat sejarahnya, pengolahan bahasa alami dimulai pada tahun 1950-an. Bapak ilmu komputer, Alan Turing, menerbitkan sebuah artikel. Di dalam artikel terkenalnya ini Alan Turing mengusulkan sebuah tes yang sekarang dikenal Turing Test. Sebuah tes yang akan mengukur kemampuan mesin (program komputer) untuk menunjukan kecerdasannya. Ilustrasinya, seorang juri (manusia) akan melakukan percakapan dengan manusia dan mesin yang melakukan tes tersebut. Peserta akan dipisahkan satu sama lain. Mesin tersebut akan dinyatakan lulus tes jika juri tidak bisa membedakan antara manusia dan mesin.

Tujuan dari bidang bahasa alami ini adalah untuk melakukan proses pembuatan model komputasi dari bahasa manusia, sehingga antara manusia dan komputer dapat melakukan interaksi dengan perantaranya bahasa alami. Sebuah sistem bahasa alami (Natural Language System) harus memperhatikan pengetahuan dari bahasa itu sendiri baik dari segi kata yang digunakan, apa arti dari sebuah kata, fungsi kata dari sebuah kalimat dan bagaimana dari kata-kata tersebut dapat membentuk sebuah kalimat.

Bahasa alami pada prinsipnya merupakan bentuk dari representasi suatu pesan yang ingin dikomunikasikan oleh antar manusia, bisa berupa suara atau ucapan tetapi juga bisa dalam bentuk tulisan.

Tingkatan Pengolahan Bahasa Alami

Secara singkat pengolahan bahasa alami (Natural Language Processing) mengenal beberapa tingkat pengolahan, yaitu:

1.    Fonetik dan Fonologi
Berhubungan dengan suara yang menghasilkan kata yang dapat dikenali. Bidang ini menjadi penting dalam proses aplikasi yang memakai metode speech based system.

2.    Morfologi
Pengetahuan tentang kata dan bentuknya dimanfaatkan untuk membedakan satu kata dengan lainnya. Pada tingkat ini juga dapat dipisahkan antara kata dan elemen lain seperti tanda baca. Sebagai contoh:
a.    kata going
§  going (word)
§  go (root)
§  ing (suffix)
b.    kata understand
§  under(prefix)
§  stand(root)

3.    Sintaksis
Pemahaman tentang urutan kata dalam pembentukan kalimat dan hubungan antar kata tersebut dalam proses perubahan bentuk dari kalimat menjadi bentuk yang sistematis. Meliputi proses pengaturan tata letak suatu kata dalam kalimat akan membentuk kalimat yang dapat dikenali. Selain itu dapat pula dikenali bagian-bagian kalimat dalam suatu kalimat yang lebih besar.

4.    Semantik
Pemetaan bentuk struktur sintaksis dengan memanfaatkan tiap kata ke dalam bentuk yang lebih mendasar dan tidak tergantung struktur kalimat. Semantik mempelajari arti suatu kata dan bagaimana dari arti kata-kata tersebut membentuk suatu arti dari kalimat yang utuh. Dalam tingkatan ini belum tercakup konteks dari kalimat tersebut.

5.    Pragmatik
Pengetahuan pada tingkatan ini berkaitan dengan masing-masing konteks yang berbeda tergantung pada situasi dan tujuan pembuatan sistem.

6.    Discourse Knowledge
Melakukan pengenalan apakah suatu kalimat yang sudah dibaca dan dikenali sebelumnya akan mempengaruhi arti dari kalimat selanjutnya. Informasi ini penting diketahui untuk melakukan pengolahan arti terhadap kata ganti orang dan untuk mengartikan aspek sementara dari informasi.

7.    World Knowledge
Mencakup arti sebuah kata secara umum dan apakah ada arti khusus bagi suatu kata dalam suatu percakapan dengan konteks tertentu.

Definisi ini tidaklah bersifat kaku dan untuk setiap bentuk bahasa alami yang ada biasanya ada pendefinisian lagi yang lebih spesifik sesuai dengan karakter bahasa tersebut. Pada beberapa masalah mungkin hanya mengambil beberapa dari pendekatan tersebut bahkan mungkin ada yang melakukan tambahan proses sesuai dengan karakter dari bahasa yang digunakan dan sistem yang dibentuk.

Selain yang sudah disebutkan di atas masih ada lagi satu masalah yang cukup menantang dalam bahasa alami, yaitu ambiguitas atau makna ganda dari suatu kata atau kalimat. Dari satu masukan yang sama dapat menjadi beberapa arti yang berbeda dan masing-masing dapat bernilai benar tergantung pada keperluan pemakai. Hal ini dapat terjadi pada hampir semua tingkatan pendekatan di atas.

Komponen Utama Bahasa Alami

Pengolahan Bahasa Alami terdiri dari tiga bagian utama, yaitu:

1.    Parser
Suatu sistem yang mengambil kalimat input bahasa alami dan menguraikannya ke dalam beberapa bagian gramatikal (kata benda, kata kerja, kata sifat, dan lain-lain).

2.    Sistem Representasi Pengetahuan
Suatu sistem yang menganalisis output parser untuk menentukan maknanya.

3.    Output Translator
Suatu terjemahan yang merepresentasikan sistem pengetahuan dan melakukan langkah-langkah yang bisa berupa jawaban atas bahasa alami atau output khusus yang sesuai dengan program komputer lainnya.

Kategori Aplikasi Pengolahan Bahasa Alami

Teknologi Pengolahan Bahasa Alami atau Natural Language Processing (NLP) adalah teknologi yang memungkinkan untuk melakukan berbagai macam pemrosesan terhadap bahasa alami yang biasa digunakan oleh manusia. Sistem ini biasanya mempunyai masukan dan keluaran berupa bahasa tulisan (teks). NLP mempunyai aplikasi yang sangat luas.

Beberapa diantara berbagai kategori aplikasi NLP adalah sebagai berikut:

1.    Natural Language Translator
Translator dari satu bahasa alami ke bahasa alami lainnya, misalnya translator bahasa Inggris ke bahasa Indonesia, bahasa Indonesia ke bahasa Jepang dan sebagainya. Translator bahasa alami bukan hanya kamus yang menerjemahkan kata per kata, tetapi harus juga mentranslasikan sintaks dari bahasa asal ke bahasa tujuannya.

2.    Translator Bahasa Alami ke Bahasa Buatan
Translator yang mengubah perintah-perintah dalam bahasa alami menjadi bahasa buatan yang dapat dieksekusi oleh mesin atau komputer. Sebagai contoh, translator yang memungkinkan kita memberikan perintah bahasa alami kepada komputer. Dengan sistem seperti ini, pengguna sistem dapat memberikan perintah dengan bahasa sehari-hari, misalnya, untuk menghapus semua file, pengguna cukup memberikan perintah “komputer, tolong hapus semua file!” Translator akan mentranslasikan perintah bahasa alami tersebut menjadi perintah bahasa formal yang dipahami oleh komputer, yaitu “dir *.* ”.

3.    Text Summarization
Suatu sistem yang dapat “membuat ringkasan” hal-hal yang penting dari suatu wacana yang diberikan.

Dalam dunia kecerdasan buatan pengolahan bahasa alami merupakan aplikasi terbesar setelah sistem pakar. Banyak para ahli Artificial Intelligence berpendapat bahwa bidang yang penting yang dapat dipecahkan oleh Artificial Intelligence adalah Pengolahan Bahasa Alami (Natural Language Processing).

Aplikasi Pengolahan Bahasa Alami

Secara umum, Jenis aplikasi yang bisa dibuat dalam bidang ilmu NLP terbagi dua, yaitu text-based application dan dialogue-based application.

Text-based application adalah segala macam aplikasi yang melakukan proses terhadap teks tertulis seperti misalnya dokumen, e-mail, buku, dan sebagainya.

Beberapa jenis aplikasi NLP yang berbasis teks:

1.    Programs for Classifying and Retrieving Documents by Content
Program yang mampu mengklasifikasi dan mengambil isi dari suatu dokumen berdasarkan kontennya. Seperti spam filtering (pemfilteran pesan sampah), language identification (identifikasi bahasa), dan lain-lain.

Spam Filtering


2.    Machine Translation
Program yang mampu mentranslasi kalimat baik berupa teks maupun suara dari satu bahasa alami ke bahasa lainnya. Contoh: Google Translate.

Google Translate


Dialogue-based application idealnya melibatkan bahasa lisan atau pengenalan suara, akan tetapi bisa juga memasukan interaksi dialog dengan mengetikkan teks pertanyaan melalui keyboard.

Beberapa jenis aplikasi NLP yang berbasis dialog:

1.    Intelligent Personal Assistant
Perangkat lunak yang mampu melakukan tugas-tugas dan jasa berdasarkan inputan dari pengguna, lokasi, dan memiliki kemampuan untuk mengakses informasi dari berbagai sumber online (seperti cuaca, keadaan lalu lintas, berita, saham, dll). Contohnya adalah Siri pada produk-produk Apple dan S-Voice pada produk-produk seluler Samsung.

Siri Apple


2.    Chatbot
Chatbot adalah program komputer yang didesain untuk mensimulasikan sebuah percakapan cerdas dengan satu atau lebih pengguna manusia melalui inputan suara atau teks, utamanya digunakan untuk percakapan kecil. Contoh: Cleverbot, SimSimi, dan Begobet.

SimSimi


Referensi:


Komentar