-->

Tugas 1 - Strategi Kesamaan Semantik untuk Klasifikasi Jabatan


NAMA KELOMPOK

Boy Ramdhani                  51416471
Jihad                                 53416720
Satria Wijayandaru           56416867
Zulfikar Chamim               57416950

Strategi Kesamaan Semantik untuk Klasifikasi Jabatan
Yun Zhu, Faizan Javed, Ozgur Ozturk Careerbuilder LLC.
5550-A Peachtree Pkwy
Norcross, GA 30092
{yun.zhu, faizan.javed, ozgur.ozturk}@careerbuilder.com

Abstraksi

Pengklasifikasian item secara otomatis dan akurat akan memberikan banyak keuntungan di berbagai domain. Aplikasi ini dapat berkisar dari rekomendasi produk dan analisis big data. Di dalam domain rekruitmen online, kami merujuk kepada pengklasifikasian iklan pekerjaan kepada kategori pekerjaan yang telah ditentukan sebelumnya sebagai klasifikasi jabatan. Sebuah sistem pengklasifikasian jabatan berskala besar dapat mendukung banyak aplikasi seperti pencarian semantic, rekomendasi pekerjaan, dan analisis pasar tenaga kerja. Dalam makalah ini, kami membahas eksperimen yang dilakukan untuk meningkatkan klasifikasi jabatan pekerjaan kami. Klasifikasi komponen dari system ini terdiri dari dua tingkat klasifikasi kaskade, yaitu kasar dan halus yang mengklasifikasikan teks input seperti judul 
pekerjaan dan / atau iklan pekerjaan ke salah satu dari ribuan kategori pekerjaan dalam taksonomi kami. Untuk meningkatkan akurasi dan efektivitas pengklasifikasian, kami bereksperimen dengan berbagai strategi representasi semantic seperti vector rata – rata W2V dan perhitungan kesamaan dokumen seperti Word Movers Distance (WMD). Hasil awal kami menunjukkan peningkatan dalam akurasi Karotene.
Kata Kunci
Pengayaan Semantik; Pembelajaran terawasi; Klasifikasi jabatan

1.      PENGANTAR


Banyak e-commerce  dan web memiliki kebutuhan mengklasifikasikan jutaan item ke ribuan kategori dengan tingkat akurasi yang tinggi secara otomatis. Sistem klasifikasi item  berskala besar seperti ini memiliki banyak aplikasi turunan seperti rekomendasi produk, pencarian semantik, dan analisis big data. Dalam hal perekrutan online, klasifikasi iklan kerja dapat memberi daya pada aplikasi seperti analitik pasar tenaga kerja, rekomendasi pekerjaan, dan pencarian semantik. Kami merujuk pada pengelompokan iklan pekerjaan (teks dokumen yang terdiri dari judul, uraian dan persyaratan) ke kategori pekerjaan yang telah ditentukan. untuk pengklasifikasian jabatan, kami mengembangkan sistem yang kami sebut Carotene, yang memiliki : i) sebuah komponen penemuan taksonomi yang memanfaatkan teknik pengelompokan untuk menemukan jabatan dari data set untuk membuat sebuah taksonomi jabatan, dan selanjutnya ii) pengklasifikasian dua buah tingkatan (kasar dan halus) yang menggunakan kaskade SVM-KNN untuk mengklasifikasikan masukan teks ke jabatan yang paling tepat dalam taksonomi khusus kami. Rincian lebih mendetail dapat ditemukan di [1]. fokus dari makalah ini adalah peningkatan berdasarkan dokumen yang kaya semantik (misalnya menggunakan vektor pengayaan) dan langkah - langkah persamaan (misalnya WMD) untuk komponen klasifikasi sistem. strategi pengayaan semantik mengganti representasi Bag of Words (BOW) yang umum digunakan pada pengklasifikasian teks dengan istilah atau konsep yang terkait secara semantik yang berasal dari sumber daya yang mengembangkan hubungan antara entitas dan konsep. representasi semantik lebih baik dari pada representasi BOW dalam menangani sinonim, kata polisem, dan ekspresi multi kata. Dalam makalah ini, kami menunjukkan hasil eksperimen kami dengan representasi jabatan menggunakan Word2Vec, Doc2Vec, dan WMD. Makalah ini selanjutnya disusun sebagai berikut : Bagian 2 membahas tentang strategi pengayaan semantik untuk klasifikasi teks serta aplikasi di berbagai domain. Bagian 3 menjelaskan secara singkat tiga metode yang kami coba. Bagian 4 menjelaskan use case dan menunjukkan hasil kinerjanya juga.

2.      TUGAS SERUPA


Memperbanyak vektor dan kernel semantik merupakan 2 hal yang paling umum digunakan untuk tehnik memperluas semantik dari klasifikasi teks. Dalam pendekatan memperluas vektor [2], reperesentasi dokumen terlah diperkaya oleh seseorang atau semua yang mengikuti: haipernim, sinonim dan konsep yang berkaitan. Kernel Semantik [3] pengaruh kedekatan matrix semantik kepada perubahan reperesentasi dokumen untuk representasi semantik yang dapat dipisahkan secara linear. Kernel semantik biasanya digunakan dengan SVM dan diterapkan sebelum waktu pelatihan pengelompokan.Pada [4], Pengayaan vektor dan kernel semantik digunakan untuk mengklasifikasikan teks medis. Pengamatan mereka adalah bahwa pengayaan vektor berkinerja lebih baik daripada pendekatan berbasis BOW sedangkan kernel semantik menurunkan kinerja dengan memperkenalkan noise dalam representasi dokumen. Namun, [5] merinci pendekatan kernel semantik yang benar-benar meningkatkan kinerja algoritma SVM ketika dimensi ruang fitur input besar dan data pelatihan langka. Untuk membuat kesamaan antara dokumen, jarak WMD [6] baru-baru ini terbukti memberikan kesalahan klasifikasi yang lebih rendah ketika digunakan dengan pengklasifikasi berbasis jarak. Untuk klasifikasi pekerjaan, LinkedIn menggunakan sistem klasifikasi berbasis frase yang bergantung pada properti kecukupan teks pendek [7] Properti hampir mencukupi menyiratkan bahwa dokumen teks pendek biasanya berisi lebih banyak informasi tentang label kelas dokumen daripada teks panjang. Karenanya, pendekatan ini hanya mempertimbangkan judul pekerjaan untuk klasifikasi dan tidak menggunakan bidang iklan pekerjaan lain seperti uraian dan persyaratan. Pendekatan pengayaan semantik untuk klasifikasi jabatan telah didiskusikan pada [8]. Pendekatan ini secara semantik memperkaya kategori pekerjaan dengan istilah yang relevan secara kontekstual yang berasal dari kumpulan iklan pekerjaan. Pendekatan pencocokan kesamaan bidang-ke-bidang kemudian mencocokkan iklan pekerjaan dengan kategori pekerjaan.

3. METODE  

3.1 Baseline
Versi sebelumnya dari Karoten, sistem klasifikasi jabatan pekerjaan multi-kelas yang berbasis pembelajaran mesin, semi-diawasi, kami terdiri dari kaskade dua tingkat kelas kasar dan kelas halus. Klasifikasi tingkat kasar menetapkan judul ke salah satu dari 23 kategori tingkat atas, yang disebut jurusan SOC, setelah sistem Klasifikasi Pekerjaan Standar (SOC) yang dikembangkan oleh Biro Statistik Tenaga Kerja A.S. Kemudian kelas halus (alias vertikal) menggunakan judul pekerjaan hanya untuk diberikan SOC mayor, membatasi klasifikasinya menjadi vertikal ini. Untuk classifier kasar, kami menggunakan implementasi proprietary dari algoritma clustering Lingo. Karena kompleksitas Lingo yang tinggi, kami hanya menggunakan jabatan, menghilangkan deskripsi. Lingo menerapkan dekomposisi nilai singular (SVD) pada TF-IDF (term-invers dokumen frekuensi) istilah-dokumen matriks untuk mengidentifikasi jumlah ideal cluster dan label cluster. Dokumen dimasukkan ke kluster berdasarkan jarak kosinus.
Komponen classifier tingkat halus dari Carotene adalah pengklasifikasi k tetangga terdekat (kNN) dengan k secara empirik diatur ke 20. Kami menggunakan pustaka mesin pencarian open-source Lucene yang memberi kami waktu respons klasifikasi kurang dari 100 ms.

3.2 Pendekatan Baru
Word2vec (W2V), yang dikembangkan oleh Mikolov et al [9], menggunakan jaringan saraf dangkal untuk menghasilkan representasi vektor dimensi tinggi untuk kata dan frasa. Sebagai tujuan pelatihannya, jaringan saraf menggunakan model Skip-gram, yang bertujuan untuk menemukan representasi vektor untuk setiap kata yang berguna untuk memprediksi kata-kata di sekitarnya dalam kalimat atau dokumen untuk kata itu. Penempatan relatif vektor-vektor ini dalam ruang dimensi tinggi ternyata berkaitan dengan makna kata-kata yang sesuai. Tidak hanya vektor untuk kata-kata yang mirip seperti "emas" dan "perak" yang saling berdekatan, beberapa hubungan semantik juga dipertahankan. Misalnya, hubungan semantik ”raja adalah laki-laki sebagaimana ratu bagi perempuan” dipertahankan dalam ruang vektor dengan memuaskan hubungan ini - vman ≈ vqueen - vwoman untuk vektor terkait. Namun, W2V memodelkan representasi vektor hanya untuk satu kata. Ia tidak mempelajari representasi vektor untuk beberapa skenario kata, mis., Kalimat, dokumen, dan jabatan. Jadi dengan memberikan representasi vektor individu dari setiap kata, mengambil rata-rata merupakan solusi intuitif untuk menghasilkan satu representasi vektor tunggal untuk kata-kata ini.
Selain rata-rata, cara lain untuk memanfaatkan W2V adalah dengan menggunakan Word Mower's Distance (WMD), yang merupakan kasus khusus dari metrik Jarak Earth Mower yang terkenal dan dapat digunakan untuk menghitung jarak dokumen. 

Metrik WMD didefinisikan sebagai jumlah minimum perubahan yang mungkin diperlukan untuk mengonversi satu set vektor ke yang lain. WMD memiliki kompleksitas waktu yang tinggi: O (p3 logp) di mana pis jumlah kata unik dalam dokumen. Kusner et al [6] menyajikan peningkatan kecepatan dengan memfilter kandidat yang tidak terduga menggunakan fungsi yang memiliki kompleksitas waktu lebih rendah dan terbukti lebih rendah batasnya untuk WMD. Salah satu pendekatan sederhana untuk menetapkan vektor representatif ke dokumen adalah dengan mengambil rata-rata vektor kata untuk kata-kata dalam itu, yang disebut Word Centroid Distance (WCD).

Pendekatan lain adalah secara langsung melatih model paragraf vektor menggunakan jaringan saraf tiruan yang tujuannya adalah untuk memprediksi kata-kata dalam dokumen. Quoc Le dan Tomas Mikolov [10] menerapkan analisis sentimen dan uji daya tarik informasi untuk kesamaan vektor paragraf. Mereka menemukan itu memiliki klasifikasi dan pengambilan kesalahan yang jauh lebih sedikit dibandingkan dengan kemiripan dokumen berbasis WCD dan algoritma yang kompatibel lainnya. 

4. PERCOBAAN

4.1 Tempat Uji Penggunaan
Kami mengevaluasi kinerja pada tugas klasifikasi jabatan pekerjaan oleh KNN, yaitu, mengklasifikasikan judul pekerjaan permintaan oleh k paling atas judul yang paling mirip dalam pengetahuan kami. Sebagai contoh, diberi judul permintaan "Senior Java Programmer, NY", judul yang paling mirip yang ditemukan termasuk "Pengembang Java Entry-level", "programmer Matriks new york", "insinyur J2EE" jika k = 3. Kemudian judul permintaan akan diklasifikasikan sebagai "Pengembang Java" karena dua dari tiga judul yang paling mirip ("Pengembang Java Tingkat Awal" dan "Insinyur J2EE") dinormalisasi dan diberi label sebagai kelas "Pengembang Java".
Gambar 1: Akurasi metode yang diusulkan dengan pengaturan nilai k yang berbeda

4.2 Hasil
Data pengujian kami mencakup 1667 judul kueri berlabel manusia dan basis pengetahuan berisi 1002737 judul referensi yang termasuk dalam 5425 kategori pekerjaan yang ditentukan sebelumnya. Kami menggunakan metrik akurasi sebagai metrik evaluasi. Gambar 1 menunjukkan kinerja semua metode dengan k bervariasi mulai dari 1 hingga 20 kecuali pendekatan BOW (garis putus-putus) saat ini dievaluasi hanya dengan k = 20 karena tidak men-parameterkan k dan 20 adalah nilai yang dioptimalkan berdasarkan cross validation. Berikut adalah apa yang kami amati dari gambar: 1) AvgW2V menghasilkan kinerja terbaik dengan kesenjangan signifikan kepada orang lain. 2) W2V dengan EMD memberikan akurasi yang mirip dengan BOW dan 3) Doc2Vec tidak dapat mengalahkan BOW. 4) k = 1 adalah pilihan yang baik meskipun k> 10 juga merupakan nilai yang aman.

5. PEKERJAAN MASA DEPAN           

Saat ini semua vektor kata berkontribusi sama dalam membangun vektor dokumen. Kami akan mencoba versi berbobot dari pendekatan ini karena beberapa kata (mis., Senior, Junior) mungkin

6. REFERENSI

1. [1] F. Javed, Q. Luo, M. McNair, F. Jacob, M. Zhao, dan TS Kang, "Karoten: Sistem klasifikasi jabatan untuk domain rekrutmen online," dalam Layanan Komputasi Data Besar dan Aplikasi (BigDataService), 2015 Konferensi Internasional Pertama IEEE, hlm. 286–293, Maret 2015.
2. [2] L. Huang, D. Milne, E. Frank, dan I. H. Witten, "Mempelajari ukuran kesamaan dokumen berbasis konsep," J. Am. Soc. Inf. Sci. Technol., Vol. 63, hlm. 1593–1608, Agustus 2012.
3. [3] P. Wang dan C. Domeniconi, “Membangun kernel semantik untuk klasifikasi teks menggunakan wikipedia,” dalam Prosiding Konferensi Internasional ACM SIGKDD ke-14 tentang Penemuan Pengetahuan dan Penambangan Data, KDD '08, (New York, NY, AS), hlm. 713-721, ACM, 2008.
4. [4] E. B. Albitar, S. dan S. Fournier, "Pengayaan semantik dalam klasifikasi yang diawasi teks: aplikasi ke domain medis," Konferensi Masyarakat Riset Kecerdasan Buatan Florida, 2014.
5. [5] Z. B. V. A. Lu, X. dan C. Zhai, “Meningkatkan kategorisasi teks dengan representasi yang diperkaya semantik dan augmentasi data pelatihan,” J Am Med Inform Assoc., 2006.
6. [6] M. Kusner, Y. Sun, N. Kolkin, dan K. Q. Weinberger, "Dari embeddings kata untuk mendokumentasikan jarak," di
Prosiding Konferensi Internasional ke-32 tentang Pembelajaran Mesin (ICML-15) (D. Blei dan F. Bach, eds.), Hlm. 957–966, Lokakarya JMLR dan Prosiding Konferensi, 2015.
[7] R. Bekkerman dan M. Gavish, "Klasifikasi dokumen berbasis frase presisi tinggi pada skala modern," dalam Prosiding Konferensi Internasional ACM SIGKDD ke-17 tentang Penemuan Pengetahuan dan Penambangan Data, KDD '11, (New York, NY, AS),
hlm. 231–239, ACM, 2011.
8. [8] E. Malherbe, M. Cataldi, dan A. Ballatore, “Membawa
memesan ke pasar kerja: Kategorisasi tawaran kerja yang efisien dalam perekrutan elektronik, ”dalam Prosiding Konferensi Internasional ke-38 ACM SIGIR tentang Penelitian dan Pengembangan dalam Pengambilan Informasi, SIGIR '15, (New York, NY, USA), hlm. 1101– 1104, ACM, 2015.
9. [9] T. Mikolov, I. Sutskever, K. Chen, GS Corrado, dan J. Dean, "Perwakilan kata dan frasa yang didistribusikan serta komposisionalitasnya," dalam Kemajuan dalam Sistem Pemrosesan Informasi Neural 26 (CJC Burges, L Bottou, M. Welling, Z. Ghahramani, dan KQ Weinberger, eds.), Hlm. 3111–3119, Curran Associates, Inc., 2013.



Inti
Dari 1667 kueri yang kami beri label manusia dan 1002737 referensi yang termasuk dalam 5425 kategori pekerjaan, menunjukkan kinerja semua metode dengan nilai K bervariasi mulai dari 1 hingga 20. kecuali pendekatan BOW yang saat ini hanya dievaluasi dengan nilai K = 20 karena tidak memparametasikan K dan bilangan 20 merupakan nilai optimal berdasarkan validasi silang.
Hasilnya, AvgW2V memberikan kinerja terbaik dengan kesenjangan signifikan kepada orang lain, kemudian W2V dengan EMD memberikan akurasi yang mirip dengan BOW dan terakhir, Doc2Vec tidak dapat mengalahkan BOW.

Kelebihan
Kelebihan dalam melakukan klasifikasi item dengan menggunakan Word2Vec tentu menghasilkan hasil yang cukup banyak, karena dengan menggunakan Word2Vec, perusahan-perusahaan dengan mudah mengkalsifikasikan item-item yang mereka inginkan. dibanding dengan metode lama

Kekurangan
Dengan menggunakan Word2Vec, metode ini memodelkan representasi vektor hanya untuk satu kata. Ia tidak mempelajari representasi vektor untuk beberapa skenario kata, mis.,alimat, dokumen, dan jabatan. Jadi dengan memberikan representasi vektor individu dari setiap kata, mengambil rata-rata merupakan solusi intuitif untuk menghasilkan satu representasi vektor tunggal untuk kata-kata ini.

Kesimpulan
Untuk melakukan kesamaan semantik untuk klasifikasi jabatan menggunakan metode baseline, versi sebelumnya dari Karoten yang terdiri dari Kaskade dua tingkat yaitu kelas kasar dan kelas halus. untuk kelas kasar, kami menggunakan implementasi proprietary dari algoritma clustering Lingo. Karena Kompleksitas Lingo, Kami hanya menggunakan Jabatan, menghilangkan Deskripsi. dan menggunakan Word2Vec untuk menggunakan jaringan saraf dangkal untuk menghasilkan representasi vektor dimensi tinggi untuk kata dan frasa. Namun, W2V memodelkan representasi vektor hanya untuk satu kata. Ia tidak mempelajari representasi vektor untuk beberapa skenario kata, mis., Kalimat, dokumen, dan jabatan. Jadi dengan memberikan representasi vektor individu dari setiap kata, mengambil rata-rata merupakan solusi intuitif untuk menghasilkan satu representasi vektor tunggal untuk kata-kata ini. untuk memanfaatkan W2V adalah dengan menggunakan Word Mower's Distance (WMD). WMD memiliki kompleksitas waktu yang tinggi: O (p3 logp) di mana pis jumlah kata unik dalam dokumen. Kusner et al menyajikan peningkatan kecepatan dengan memfilter kandidat yang tidak terduga menggunakan fungsi yang memiliki kompleksitas waktu lebih rendah dan terbukti lebih rendah batasnya untuk WMD. sedangkan Word Centroid Distance (WCD)untuk menetapkan vektor representatif ke dokumen adalah dengan mengambil rata-rata vektor kata untuk kata-kata dalam.

Saran
mempelajari representasi vektor  agar bisa memberikan representasi vektor yang lebih baik di setiap individu dari setiap kata, mengambil rata-rata merupakan solusi intuitif untuk menghasilkan satu representasi vektor tunggal untuk kata-kata ini.






           


Berlangganan update artikel terbaru via email:

0 Response to "Tugas 1 - Strategi Kesamaan Semantik untuk Klasifikasi Jabatan"

Post a Comment

Iklan Atas Artikel

Iklan Tengah Artikel 1

Iklan Tengah Artikel 2

Iklan Bawah Artikel