Selasa, 14 April 2009

Berhitung Produktivitas ICR (Intelligent Character Recognition) dengan mempertimbangkan risiko – risiko implementasi yang akan terjadi

Teknologi ICR (intelligent character recognition) secara umum disebut sebagai teknologi pengenal karakter yang umumnya berupa alfanumeris (huruf, angka dan tanda baca) dari satu atau sekumpulan image digital. Aplikasi ini umum dipergunakan pada data entry dalam jumlah besar dengan menggunakan scanner dokumen. Teknologi ini di Indonesia telah umum digunakan untuk data entry, riset pasar, penerimaan pegawai, dan saat ini digunakan untuk memproses data pemilu Indonesia 2009 (teknologi ICR pada pemilu 2009 lebih tepat disebut numerical character recognition, karena hanya angka yang dikenali).

Bagaimana mengukur produktivitas atau efektivitas ICR ? Banyak metode estimasi kecepatan proses ICR yang dilakukan oleh para implementor ICR. Ada yang dengan mudah menghitung berdasarkan kecepatan scanner dengan anggapan bahwa semakin tinggi kecepatan scanner maka semakin tinggi produktivitas ICR. Ada yang menghitung berdasarkan tingkat akurasi pembacaan. Ada yang menggunakan asumsi kemudahan verifikasi dan lain sebagainya.


Dalam tulisan ini penulis sekedar memberikan pendapat mengenai faktor-faktor yang perlu diperhitungkan dalam implementasi ICR, yang diperoleh penulis dari pengalamannya menangani beberapa proyek ICR yang telah diimplementasikan di Indonesia. Tulisan ini bukan berarti merupakan generalisasi yang bisa diterapkan pada setiap situasi. Penulis mencoba menelusuri faktor kritikal yang mendukung efektivitas ICR melalui proses yang terjadi dari sejak melakukan desain formulir ICR, pencetakan formulir ICR, sosialisasi pengisian, scanning, operasi aplikasi ICR dan support dari penyedia Teknologi.

Desain Formulir ICR


Dalam mendesain formulir ICR perlu diingat bahwa formulir ICR ini akan diproses oleh komputer sehingga desain formulir ICR haruslah memperhitungkan keunggulan dan kelemahan teknologi yang akan dipergunakan bukan hanya mempertimbangkan kemudahan pengisian oleh responden.

1. Anchor Object


Anchor Object Statis

Untuk memproses formulir ICR yang biasanya seragam , aplikasi ICR memetakan letak field pada dokumen pada jarak tertentu berpatokan pada anchor object statis. Anchor object statis ini dapat berupa kotak hitam sejumlah 4 atau lebih , atau dapat berupa teks statis yang muncul pada setiap dokumen dan posisinya tetap. Tujuan dari anchor ini adalah agar ICR dapat mengenali dengan tepat lokasi dimana field berada tanpa terganggu oleh distorsi pada percetakan, misalnya potongan kertas yang berbeda-beda atau pun rotasi-rotasi ringan akibat salah setting pada mesin cetak.


Gambar 1 : Berbagai jenis anchor object statis , perhatikan bujursangkar hitam pekat pada ujung –ujung formulir ICR adalah statis anchor yang digunakan untuk menentukan letak field-field.

Dalam ini perlu dipahami bahwa apabila dalam proses cetak terjadi kesalahan, sehingga anchor object statis cacat atau hilang maka formulir ini otomatis tidak dapat dikenali oleh ICR dan diperlukan template pembacaan atau pemetaan field ICR yang baru. Ibarat bagaimana dahulu teman kos saya di Sunter hendak pulang ke ciledug mengendarai sepeda motor, ia selalu harus menemukan Monas terlebih dahulu. Setelah dari monas , ia dapat mengetahui jalan mana yang menuju ke Ciledug.Apabila Monas tiba-tiba hilang maka besar kemungkinan ia tidak bisa pulang ke Ciledug. Disini Monas adalah anchor object statis baginya untuk menemukan Ciledug.

Anchor Object Dinamis

Beberapa aplikasi form processing termutakhir juga memiliki anchor object dinamis. Anchor object dinamis adalah anchor object untuk menangani field-field yang letaknya tidak seragam pada formulir ICR. Anchor object dinamis dapat berupa kotak hitam, garis maupun teks. Anchor object dinamis diibaratkan seseorang mencari pedagang es campur di pasar yang selalu berdagang berdekatan dengan truk warna merah dengan nomor polisi B7777XC. Untuk mencari pedagang ini, kita harus terlebih dahulu letak pasarnya, kemudian kita harus menemukan truk warna merah dengan nomor polisi B7777XC dan kemudian mencari objek didekatnya yang berjualan es. Dalam hal ini truk warna merah adalah anchor object dinamis bagi sang pedagang es. Keunggulan sistem ini adalah selama lokasinya tetap di pasar dan pedagang es itu konsisten untuk berjualan es di dekat truk merah B7777XC maka ia akan tetap dengan mudah ditemukan meskipun ia berdagang berpindah-pindah disekitar pasar (dengan tentunya truk merah B7777XC tersebut ikut berpindah-pindah).



Gambar 2. Implementasi anchor object dinamis, perhatikan bahwa field nama selalu dapat ditemukan meski bentuk formulir berbeda satu sama lain. Teknik yang digunakan adalah menggunakan text “Nama Peserta’ atau “Nama Lengkap” sebagai anchor object dinamis. Disini penulis memberikan referensi bahwa field “nama” letaknya selalu disebelah kanan dari anchor object dinamis.

Aplikasi anchor object dinamis banyak digunakan pada aplikasi scanner kartu nama, dimana nama , alamat, nomor telpon dan email dapat langsung dikenali dan dimasukkan pada field yang benar.

2. Marking Type


Untuk memudahkan separasi antara satu huruf dengan huruf lainnya ,biasanya disediakan tempat menulis huruf per huruf bagi responden yang mengisi formulir ICR, bentuk dari tempat menulis ini disebut sebagai marking type. Jenis marking type yang dipilih akan mempengaruhi tingkat keberhasilan pembacaan ICR.


Gambar 3 Jenis-jenis marking type yang umum digunakan pada teknologi ICR


Marking type yang memiliki risiko kegagalan separasi yang tinggi adalah marking type yang tidak membatasi tinggi huruf dan jarak antar hurufnya sehingga risiko huruf satu menempel pada huruf lainnya sangat besar. Marking type yang memiliki risiko kegagalan yang terendah adalah marking type yang membatasi tinggi huruf dan jarak antar huruf sehingga dapat dipisahkan huruf per huruf dengan jelas disertai tingkat gangguan yang
rendah.




Gambar 4. Marking Type kotak dengan warna hitam akan hasil yang akurat pada kondisi image dimana marking typenya terlihat tajam dengan jarak yang konsisten. Namun apabila image yang dihasilkan mengalami distorsi atau template tidak didesain dengan marking type yang benar maka garis vertikal yang ada akan terbaca sebagai huruf “I” atau angka “1” Contoh “KOTA PINANG” dapat terbaca sebagai “KIOITAI IPIINIAINIG” dalam hal ini hasil ICR dapat terganggu oleh garis vertikal marking type.

Tingkat gangguan yang dimaksud antara lain adaya garis-garis pemisah atau kotak-kotak pada marking type dapat terbaca sebagai huruf I atau karakter lain pada kondisi scanning yang terdistorsi.



Gambar 5 Teknik Color dropout , pada formulir ICR terkotak-kotak dengan marking type berwarna merah, gambar disebelahnya adalah hasil scanning color dropout, perhatikan bahwa gangguan berupa garis vertikal marking type tidak muncul sehingga pembacaan lebih terjamin akurasinya.

Kondisi terbaik adalah menggunakan taktik color dropout atau raster form. Color dropout marking type adalah kondisi dimana formulir ICR memiliki marking type dengan warna yang dapat di drop out (dihilangkan) oleh scanner sehingga separasinya tetap terjaga (karena huruf dibatasi kotak-kotak berwarna) dan gangguannya minimal (karena waktu scan kotak-kotak ini dihilangkan dengan color dropout). Sedangkan pada taktik raster form garis-garis atau kotak-kotak pada marking type diganti dengan titik-titik dengan jarak tertentu yang membentuk garis atau kotak, pada saat scanning titik-titik ini akan dihilangkan oleh fitur despeckle atau noise removal pada scanner.



Gambar6 Teknik raster, gambar atas adalah formulir ICR yang dipergunakan dengan menggunakan raster berupa titik-titik yang membentuk kotak marking type, gambar bawah adalah hasil scanning menggunakan fitur scanner noise removal atau despeckle. Disini separasi antar huruf sangat jelas dan gangguan pembacaan tidak ada.

3. Ukuran Huruf dan Jenis Data

Besar kecilnya marking type menentukan besar kecilnya huruf yang akan diisi responden. Semakin kecil marking type maka dapat dipastikan responden akan cenderung menulis lebih besar dari kotak atau bahkan menulis bebas tanpa memperhatikan kotak lagi. Semakin besar kotak maka semakin sedikit jumlah field data yang dapat dimasukkan ke dalam formulir ICR. Beberapa teknologi memiliki standar minimal tinggi dan lebar marking type serta jarak antar objeknya.

Pembatasan bentuk huruf (misal hanya boleh kapital) akan meningkatkan akurasi dari ICR.



Pencetakan Lembar Formulir ICR

Apabila semua hal diatas sudah terdesain dengan baik maka percetakan adalah hal kritikal dalam proses persiapan formulir ICR. Untuk penggunaan anchor object statis dan dinamis perlu diperiksa apakah anchor object itu masih tampak jelas pada hasil cetak (ingat teman saya yang kehilangan Monas). Untuk penggunaan marking type warna hitam perlu dipastikan garis-garis atau kotak yang ada memiliki jarak yang seragam dan tingkat kehitaman yang pekat. Untuk taktik color drop out perlu dipastikan warna yang digunakan dapat didropout oleh scanner dan jarak antara anchor object yang berwarna hitam dengan field warna tidak bergeser atau bahkan berotasi. Untuk taktik raster perlu di pastikan bahwa dot raster memiliki warna yang soft dengan ukuran kecil sehingga dapat dideteksi sebagai noise dan dapat dihilangkan oleh scanner

Sosialisasi Pengisian Formulir ICR

Selain dari petunjuk pengisian yang jelas pada formulir ICR , diperlukan pula sosialisasi pengisian formulir sehingga data yang didapatkan dapat dikenali oleh ICR dan juga letak field maupun bentuk datanya sesuai dengan yang kita inginkan. Tanpa sosialisasi yang jelas , seringkali data yang kita dapatkan berbeda dengan yang kita inginkan , misalkan kita ingin responden mengisi kode kota dengan angka pada 3 kotak, namun yang kita dapatkan adalah nama kota dalam singkatan tiga huruf.

Cara penulisan pada formulir ICR juga dapat dijelaskan pada forum sosialisasi sehingga tulisan-tulisan yang tidak mengikuti kaidah ICR dalam mengisi formulir ICR dapat dihindari atau direduksi.


Teknik Scanning

Teknik scanning tidak melulu melibatkan kecepatan scanning namun juga metode scanning dan hasil scanning yang ingin didapatkan.

Batch scanning


Batch adalah sekelompok dokumen yang dapat discan sebagai satu kesatuan kelompok data atau satuan pemisahan image hasil scan. Pada aplikasi ICR untuk kartu kredit misalnya , satu batch dapat mewakili sejumlah data customer pada suatu waktu (misalnya hari) dan ditempatkan pada folder dengan nama sesuai jenis aplikasi dan tanggal aplikasi formulir ICR discan. Apabila dalam satu batch terdiri dari lebih dari 50 lembar maka scanner ADF akan bekerja cukup optimal karena cukup menumpuk 50 kertas ke dalam papertray dan menjalankan scanning maka scanner akan memproduksi image secara otomatis satu persatu dengan kecepatan tinggi.

Pada kondisi tertentu pengelompokan image hanya boleh dilakukan sedikit demi sedikit misalkan 10 lembar dan kemudian ditempatkan pada folder tertentu dan kemudian baru boleh memproses batch berikutnya, dalam hal ini scanner tidak akan bekerja optimal karena menunggu interaksi dari operator untuk berpindah-pindah folder. Pada kondisi ini scanner ADF kecepatan 30 ppm maupun 60 ppm tidak banyak berpengaruh pada produktivitas ICR.

Strategi penggunaan batch scanning dengan separator dapat mempercepat kondisi diatas apabila memungkinkan(beberapa aplikasi ICR mendukung batch separator). Batch separator adalah teknik scanning dengan menumpuk antar kelompok dokumen dengan memberikan lembar pemisah atau separator berupa patchcode atau barcode sehingga aplikasi batch scanning membuat folder terpisah secara otomatis setiap kali menemukan separator.

Metode scanning

Kembali pada strategi awal desain


Metode scanning berkaitan dengan strategi awal dalam membuat formulir ICR. Apabila strategi awal menggunakan anchor statis berwarna hitam dengan marking type hitam maka perlu dicari setting scanner yang dapat menghasilkan anchor yang sejelas mungkin dan marking type yang sejelas mungkin. Apabila metode scanning menggunakan color dropout maka perlu diyakinkan bahwa setting scanner mengadopsi color dropout yang sesuai dengan warna formulir ICR dan image yang dihasilkan field yang bersih dari marking type yang tadinya berwarna. Bila metode scanning menggunakan raster maka perlu diaktifkan setting noise removal atau despeckle untuk menghilang titik-titik pada marking type.

Menghilangkan gangguan akibat ukuran kertas yang berbeda-beda

Biasanya beberapa scanner ADF menghasilkan image yang tepinya berwarna hitam apabila ukuran kertas yang didefinisikan pada setting scanner lebih besar dari kertas formulir ICR. Untuk mengatasi hal ini, scanner menyediakan beberapa setting opsi antara lain border removal (menghilangkan bingkai warna hitam yang terjadi pada tepi image), white background (memberikan background putih pada tepi image) , X-Y cropping (memotong gambar dari tepi atas maupun samping) , dan automatic page detection (yaitu otomatis melakukan cropping sesuai ukuran kertas).

Menghilangkan gangguan akibat tipisnya kertas

Kertas tipis seringkali menyebabkan image yang dihasilkan terganggu oleh bayangan lampu scanner, dan muncul sekelompok warna hitam atau abu-abu yang dapat mengganggu pembacaan ICR. Pada scanner tertentu hal ini dapat diatasi dengan mode whitebackground serta penggunaan mode advanced thresholding .

Mengaktifkan Multifeed detection dan waspada terhadap paperjam

Kelemahan scanner ADF pada umumnya adalah menarik kertas lebih dari satu dan juga paperjam atau kertas macet pada scanner. Multifeed detection adalah fitur scanner yang mampu mendeteksi halaman lebih dari satu yang ditarik oleh mekanisme ADF dan secara otomatis menghentikan proses scanning apabila terjadi penarikan ganda.

Pada kondisi paperjam yang perlu diwaspadai adalah penciptaan image berulang pada lembar yang sama oleh aplikasi scanner. Apabila terjadi image berulang , dapat dilakukan penghapusan gambar dan baru mengulang scanning.

Untuk melakukan teknik scanning diatas sangat dibutuhkan pelatihan yang cukup dan pemahaman setting scanner yang benar agar dapat menghasilkan image yang dikehendaki.

Penggunaan Aplikasi ICR


Pada tahap ini aplikasi ICR mulai memproses dan mengenali image hasil dari scanning menjadi teks. Faktor yang mempengaruhi kecepatan operator adalah :
1. Kemampuan operator
2. Kemudahan mengoperasikan ICR
3. Tingkat akurasi recognition dan kecepatan recognition
4. Metode operasi ICR
5. Metode verifikasi
6. Metode validasi
7. Kemudahan mengekspor menjadi hasil yang dikehendaki

1.Kemampuan operator
Kemampuan dan pemahaman operator merupakan kunci sukses dari implementasi ICR. Teknologi ini masih dioperasikan oleh manusia sehingga kelancaran proses dan data yang dihasilkan benar-benar sangat tergantung pada operatornya. Pelatihan yang intensif dan serius serta materi pelatihan yang mengarah pada praktek sangat diharapkan untuk dilakukan pada saat pre-implementasi. Selain itu sikap mental yang mau belajar, teliti serta bertanggungjawab merupakan modal utama menjadi operator ICR yang handal.
2.Kemudahan mengoperasikan ICR
Desain antar muka yang mudah dipahami dan dipelajari menjadi kekuatan aplikasi ICR untuk meningkatkan pemahaman dan berujung pada peningkatan produktivitas dari teknologi ICR. Penting menyembunyikan fitur-fitur dahsyat ICR ke dalam ruang lingkup administrator dan menyerahkan tugas yang mudah ke lingkup operator sehingga kerumitan-kerumitan aplikasi tidak dialami oleh operator.
3.Tingkat akurasi ICR dan kecepatan recognition
Tingkat akurasi dan kecepatan recognition menjadi salah satu faktor penentu kecepatan operasi dengan ICR, dimana akurasi yang baik akan mengurangi jumlah verifikasi yang dilakukan operator (untuk beberapa kasus hal ini benar, pada kasus yang berbeda hal ini menjadi tidak relevan dengan catatan akurasinya masih dicapai angka minimal 70-75%). Kata tingkat akurasi ini menjadi sangat relatif dan tergantung banyak hal terutama faktor yang sebelumnya sudah dibahas yaitu desain awal formulir ICR, kualitas cetak, kualitas scanning serta kualitas tulisan yang mengisi formulir ICR (sudah disosialisasikan cara pengisiannya atau belum) selain metode recognitionnya sendiri.

Apabila diinginkan hasil yang akurat 100% maka semua field yang sudah dikenali oleh ICR harus 100% diverifikasi ulang oleh operator. Proses ini akan memakan waktu cukup lama dan akurasi 80% dengan 90% kemungkinan menjadi kurang relevan untuk menghitung produktivitas ICR pada kondisi ini. Mengapa harus diverifikasi ulang 100% oleh operator dan bukannya yang diragukan saja yang diverifikasi oleh operator ? Dikarenakan tingkat keyakinan baca pada ICR mengandung apa yang dinamakan false positive atau hidden error , sering terjadi ICR yakin dengan yang dibacanya angka “4”, ternyata oleh mata manusia dinyatakan dengan pasti sebagai angka “9”.




Gambar 7. False Positive : dimana yang dimaksudkan adalah KUSUMA namun ICR dengan pasti menebak KUSVMA sehingga tidak muncul di panel verifikasi apabila tidak dilakukan mode full verification.

4.Metode Operasi ICR

Metode operasi ICR biasanya ada dua macam yaitu stand alone dan kolaboratif. Pada sistem stand alone seorang operator melakukan semua proses dari scanning, recognition, verification, validation dan ekspor hasil sehingga semua alur proses akan bergantung pada sebuah komputer dan operatornya. Pada sistem kolaboratif sistem ICR membagi fungsi scanning, recognition, verification , validation dan ekspor pada beberapa operator dan komputer yang berbeda.

Metode standalone dapat digunakan pada suatu sistem yang memperbolehkan data tersebar prosesnya pada beberapa komputer dan hasil yang diharapkan juga terpisah-pisah pada lokasi yang berbeda. Metode ini juga cocok untuk melakukan proses data yang tidak begitu banyak. Kerugian pada sistem ini adalah penggunaan scanner yang tidak efisien, bottleneck pada satu komputer dan konsentrasi operator yang tinggi dalam menangani semua proses.

Metode kolaboratif dapat dipergunakan pada skala besar dan membutuhkan kecepatan proses yang tinggi. Pada proses ini operator scanner hanya melakukan scanning dengan target image yang berkualitas baik untuk dibaca oleh ICR. Verifikator hanya mengecek pembacaan ICR apakah sudah benar. Validator hanya mengecek validasi data yang telah diproses apakah memenuhi syarat atau logika untuk selanjutnya diekspor. Namun pada volume kecil metode ini cenderung merepotkan dan membutuhkan banyak tenaga manusia dan komputer.

5.Metode Verifikasi

Verifikasi adalah proses campur tangan operator “membetulkan” hasil pembacaan ICR yang salah. (inilah alasan mengapa penulis mementingkan sikap mental yang teliti dan bertanggungjawab). Proses ini umumnya diiringi log file yang mencatat pembetulan yang dilakukan oleh operator. Interface verifikasi yang mudah dilakukan dan cepat sangat membantu mempercepat proses ICR.

6.Metode Validasi

Validasi adalah suatu proses untuk menentukan apakah data yang diterima sesuai dengan yang dikehendaki atau dirumuskan. Contoh validasi pada ICR antara lain mencocokan apakah jumlah angka dari detail-detail yang dikenali ICR sama dengan jumlah angka yang ditulis oleh responden (misal jumlah barang A = 2 jumlah barang B = 3 kemudian dalam form ICR ditulis oleh responden total jumlah barang = 5, maka data ini divalidasi sebagai data yang benar). Beberapa kasus lain pada riset pasar : field A menyatakan gender ditulis sebagai laki-laki pada field B menyatakan status dalam keluarga sebagai Ibu Rumah Tangga , maka data ini divalidasi sebagai salah. Sistem validasi ini dapat digunakan sebagai saringan kedua setelah verifikasi.


7.Kemudahan melakukan ekspor menjadi data yang dikehendaki

Terlintas pengalaman penulis pada suatu implementasi form processing di salah satu lembaga dimana hasil akhir dari ICR dikonversi ke Excel kemudian diatur lagi kolom-kolomnya secara manual untuk kemudian di upload ke web yang menampung hasil pembacaan ICR. Transformasi hasil ekspor inilah yang sering memakan waktu lama dalam memperoleh hasil.


Diperlukan adanya presetting pada fungsi ekspor sehingga aplikasi ICR dapat langsung menghasilkan data yang dikehendaki atau paling tidak siap diekspor atau diimpor ke aplikasi lainnya untuk pengolahan lebih lanjut.

Adanya support on-time yang memadai dan mekanisme support yang mudah dilakukan

Pada awal implementasi operator sering mengalami demam panggung atau biasanya malah tidak pernah melakukan gladi resik atau pelatihan sebelum mengoperasikan teknologi ICR. Beberapa problem yang muncul adalah instalasi aplikasi dan scanner, belum mengetahui setting scanner, problem dengan hasil cetak formulir ICR, belum mengetahui penggunaan ICR, serta kesulitan menghadapi validasi dan ekspor.


Untuk menangani hal ini diperlukan sistem support yang memadai dan mudah, misalnya dengan secara sederhana mengirimkan hasil scanning pada support untuk kemudian ditindaklanjuti dengan membalas email solusinya atau desain template yang cocok untuk menghadapi situasi yang dihadapi. Kelambatan dan ketiadaan support menimbulkan kelambatan proses ICR yang tidak terukur.

Perhitungan Risiko pada Teknologi ICR dan Pengaruhnya Pada Keberhasilan dan waktu Prosesnya.



Dengan beberapa faktor diatas maka penulis mencoba melakukan tabulasi risiko dan pengaruhnya terhadap produktivitas sistem ICR
Demikian sekiranya beberapa faktor utama yang menurut penulis mempengaruhi waktu proses dari suatu teknologi ICR, sebatas pengetahuan penulis. Faktor – faktor ini kiranya dapat diperhitungkan dalam melakukan estimasi proses ICR dan dapat dipertimbangkan sebagai suatu tahapan kritikal yang harus dipertimbangkan dalam implementasi penggunaan ICR pada suatu proses data entry. Tentunya banyak hal-hal lain yang dapat mempengaruhi waktu proses maupun tingkat keberhasilan dalam implementasi yang luput dari perhatian penulis yang diharapkan dapat menjadi masukan untuk menyempurnakan pengetahuan penulis yang terbatas berdasarkan pengalaman di beberapa proyek di Indonesia.

Tidak ada komentar:

Posting Komentar