Tugas 1 - Strategi Kesamaan Semantik untuk Klasifikasi Jabatan
July 30, 2019
Add Comment
NAMA KELOMPOK
Boy Ramdhani 51416471
Jihad 53416720
Satria
Wijayandaru 56416867
Zulfikar Chamim 57416950
Strategi
Kesamaan Semantik untuk Klasifikasi Jabatan
Yun Zhu, Faizan Javed, Ozgur Ozturk Careerbuilder
LLC.
5550-A Peachtree Pkwy
Norcross, GA 30092
{yun.zhu, faizan.javed, ozgur.ozturk}@careerbuilder.com
5550-A Peachtree Pkwy
Norcross, GA 30092
{yun.zhu, faizan.javed, ozgur.ozturk}@careerbuilder.com
Abstraksi
Pengklasifikasian item
secara otomatis dan akurat akan memberikan banyak keuntungan di berbagai
domain. Aplikasi ini dapat berkisar dari rekomendasi produk dan analisis big data. Di dalam domain rekruitmen
online, kami merujuk kepada pengklasifikasian iklan pekerjaan kepada kategori
pekerjaan yang telah ditentukan sebelumnya sebagai klasifikasi jabatan. Sebuah sistem pengklasifikasian
jabatan berskala besar dapat mendukung banyak aplikasi seperti pencarian
semantic, rekomendasi pekerjaan, dan analisis pasar tenaga kerja. Dalam makalah
ini, kami membahas eksperimen yang dilakukan untuk meningkatkan klasifikasi
jabatan pekerjaan kami. Klasifikasi komponen dari system ini terdiri dari dua
tingkat klasifikasi kaskade, yaitu kasar dan halus yang mengklasifikasikan teks
input seperti judul
pekerjaan dan / atau iklan pekerjaan ke salah satu dari ribuan kategori pekerjaan dalam taksonomi kami. Untuk meningkatkan akurasi dan efektivitas pengklasifikasian, kami bereksperimen dengan berbagai strategi representasi semantic seperti vector rata – rata W2V dan perhitungan kesamaan dokumen seperti Word Movers Distance (WMD). Hasil awal kami menunjukkan peningkatan dalam akurasi Karotene.
pekerjaan dan / atau iklan pekerjaan ke salah satu dari ribuan kategori pekerjaan dalam taksonomi kami. Untuk meningkatkan akurasi dan efektivitas pengklasifikasian, kami bereksperimen dengan berbagai strategi representasi semantic seperti vector rata – rata W2V dan perhitungan kesamaan dokumen seperti Word Movers Distance (WMD). Hasil awal kami menunjukkan peningkatan dalam akurasi Karotene.
Kata Kunci
Pengayaan Semantik; Pembelajaran
terawasi; Klasifikasi jabatan
1.
PENGANTAR
Banyak e-commerce dan web memiliki
kebutuhan mengklasifikasikan jutaan item ke ribuan kategori dengan tingkat
akurasi yang tinggi secara otomatis. Sistem klasifikasi item berskala besar seperti ini memiliki banyak
aplikasi turunan seperti rekomendasi produk, pencarian semantik, dan analisis
big data. Dalam hal perekrutan online, klasifikasi iklan kerja dapat memberi
daya pada aplikasi seperti analitik pasar tenaga kerja, rekomendasi pekerjaan,
dan pencarian semantik. Kami merujuk pada pengelompokan iklan pekerjaan (teks
dokumen yang terdiri dari judul, uraian dan persyaratan) ke kategori pekerjaan
yang telah ditentukan. untuk pengklasifikasian jabatan, kami mengembangkan
sistem yang kami sebut Carotene, yang
memiliki : i) sebuah komponen penemuan taksonomi yang memanfaatkan teknik
pengelompokan untuk menemukan jabatan dari data set untuk membuat sebuah
taksonomi jabatan, dan selanjutnya ii) pengklasifikasian dua buah tingkatan
(kasar dan halus) yang menggunakan kaskade SVM-KNN untuk mengklasifikasikan
masukan teks ke jabatan yang paling tepat dalam taksonomi khusus kami. Rincian
lebih mendetail dapat ditemukan di [1]. fokus dari makalah ini adalah
peningkatan berdasarkan dokumen yang kaya semantik (misalnya menggunakan vektor
pengayaan) dan langkah - langkah persamaan (misalnya WMD) untuk komponen
klasifikasi sistem. strategi pengayaan semantik mengganti representasi Bag of Words (BOW) yang umum digunakan
pada pengklasifikasian teks dengan istilah atau konsep yang terkait secara
semantik yang berasal dari sumber daya yang mengembangkan hubungan antara
entitas dan konsep. representasi semantik lebih baik dari pada representasi BOW
dalam menangani sinonim, kata polisem, dan ekspresi multi kata. Dalam makalah
ini, kami menunjukkan hasil eksperimen kami dengan representasi jabatan
menggunakan Word2Vec, Doc2Vec, dan WMD. Makalah ini selanjutnya disusun
sebagai berikut : Bagian 2 membahas tentang strategi pengayaan semantik untuk
klasifikasi teks serta aplikasi di berbagai domain. Bagian 3 menjelaskan secara
singkat tiga metode yang kami coba. Bagian 4 menjelaskan use case dan
menunjukkan hasil kinerjanya juga.
2. TUGAS
SERUPA
Memperbanyak vektor dan kernel
semantik merupakan 2 hal yang paling umum digunakan untuk tehnik memperluas
semantik dari klasifikasi teks. Dalam pendekatan memperluas vektor [2],
reperesentasi dokumen terlah diperkaya oleh seseorang atau semua yang
mengikuti: haipernim, sinonim dan konsep yang berkaitan. Kernel Semantik [3]
pengaruh kedekatan matrix semantik kepada perubahan reperesentasi dokumen untuk
representasi semantik yang dapat dipisahkan secara linear. Kernel semantik
biasanya digunakan dengan SVM dan diterapkan sebelum waktu pelatihan
pengelompokan.Pada [4], Pengayaan vektor dan kernel semantik digunakan untuk
mengklasifikasikan teks medis. Pengamatan mereka adalah bahwa pengayaan vektor
berkinerja lebih baik daripada pendekatan berbasis BOW sedangkan kernel
semantik menurunkan kinerja dengan memperkenalkan noise dalam representasi
dokumen. Namun, [5] merinci pendekatan kernel semantik yang benar-benar
meningkatkan kinerja algoritma SVM ketika dimensi ruang fitur input besar dan
data pelatihan langka. Untuk membuat kesamaan antara dokumen, jarak WMD [6]
baru-baru ini terbukti memberikan kesalahan klasifikasi yang lebih rendah
ketika digunakan dengan pengklasifikasi berbasis jarak. Untuk klasifikasi
pekerjaan, LinkedIn menggunakan sistem klasifikasi berbasis frase yang
bergantung pada properti kecukupan teks pendek [7] Properti hampir mencukupi
menyiratkan bahwa dokumen teks pendek biasanya berisi lebih banyak informasi
tentang label kelas dokumen daripada teks panjang. Karenanya, pendekatan ini
hanya mempertimbangkan judul pekerjaan untuk klasifikasi dan tidak menggunakan
bidang iklan pekerjaan lain seperti uraian dan persyaratan. Pendekatan
pengayaan semantik untuk klasifikasi jabatan telah didiskusikan pada [8].
Pendekatan ini secara semantik memperkaya kategori pekerjaan dengan istilah
yang relevan secara kontekstual yang berasal dari kumpulan iklan pekerjaan.
Pendekatan pencocokan kesamaan bidang-ke-bidang kemudian mencocokkan iklan
pekerjaan dengan kategori pekerjaan.
3. METODE
Versi
sebelumnya dari Karoten, sistem klasifikasi jabatan pekerjaan multi-kelas yang
berbasis pembelajaran mesin, semi-diawasi, kami terdiri dari kaskade dua
tingkat kelas kasar dan kelas halus. Klasifikasi tingkat kasar menetapkan judul
ke salah satu dari 23 kategori tingkat atas, yang disebut jurusan SOC, setelah
sistem Klasifikasi Pekerjaan Standar (SOC) yang dikembangkan oleh Biro
Statistik Tenaga Kerja A.S. Kemudian kelas halus (alias vertikal) menggunakan
judul pekerjaan hanya untuk diberikan SOC mayor, membatasi klasifikasinya
menjadi vertikal ini. Untuk classifier kasar, kami menggunakan implementasi
proprietary dari algoritma clustering Lingo. Karena kompleksitas Lingo yang
tinggi, kami hanya menggunakan jabatan, menghilangkan deskripsi. Lingo
menerapkan dekomposisi nilai singular (SVD) pada TF-IDF (term-invers dokumen
frekuensi) istilah-dokumen matriks untuk mengidentifikasi jumlah ideal cluster
dan label cluster. Dokumen dimasukkan ke kluster berdasarkan jarak kosinus.
Komponen
classifier tingkat halus dari Carotene adalah pengklasifikasi k tetangga
terdekat (kNN) dengan k secara empirik diatur ke 20. Kami menggunakan pustaka
mesin pencarian open-source Lucene yang memberi kami waktu respons klasifikasi
kurang dari 100 ms.
Word2vec (W2V),
yang dikembangkan oleh Mikolov et al [9], menggunakan jaringan saraf dangkal
untuk menghasilkan representasi vektor dimensi tinggi untuk kata dan frasa.
Sebagai tujuan pelatihannya, jaringan saraf menggunakan model Skip-gram, yang
bertujuan untuk menemukan representasi vektor untuk setiap kata yang berguna
untuk memprediksi kata-kata di sekitarnya dalam kalimat atau dokumen untuk kata
itu. Penempatan relatif vektor-vektor ini dalam ruang dimensi tinggi ternyata
berkaitan dengan makna kata-kata yang sesuai. Tidak hanya vektor untuk
kata-kata yang mirip seperti "emas" dan "perak" yang saling
berdekatan, beberapa hubungan semantik juga dipertahankan. Misalnya, hubungan
semantik ”raja adalah laki-laki sebagaimana ratu bagi perempuan” dipertahankan
dalam ruang vektor dengan memuaskan hubungan ini - vman ≈ vqueen - vwoman untuk
vektor terkait. Namun, W2V memodelkan representasi vektor hanya untuk satu
kata. Ia tidak mempelajari representasi vektor untuk beberapa skenario kata,
mis., Kalimat, dokumen, dan jabatan. Jadi dengan memberikan representasi vektor
individu dari setiap kata, mengambil rata-rata merupakan solusi intuitif untuk
menghasilkan satu representasi vektor tunggal untuk kata-kata ini.
Selain
rata-rata, cara lain untuk memanfaatkan W2V adalah dengan menggunakan Word
Mower's Distance (WMD), yang merupakan kasus khusus dari metrik Jarak Earth
Mower yang terkenal dan dapat digunakan untuk menghitung jarak dokumen.
Metrik
WMD didefinisikan sebagai jumlah minimum perubahan yang mungkin diperlukan
untuk mengonversi satu set vektor ke yang lain. WMD memiliki kompleksitas waktu
yang tinggi: O (p3 logp) di mana pis jumlah kata unik dalam dokumen. Kusner et
al [6] menyajikan peningkatan kecepatan dengan memfilter kandidat yang tidak
terduga menggunakan fungsi yang memiliki kompleksitas waktu lebih rendah dan
terbukti lebih rendah batasnya untuk WMD. Salah satu pendekatan sederhana untuk
menetapkan vektor representatif ke dokumen adalah dengan mengambil rata-rata
vektor kata untuk kata-kata dalam itu,
yang disebut Word Centroid Distance (WCD).
Pendekatan
lain adalah secara langsung melatih model paragraf vektor
menggunakan jaringan saraf tiruan yang tujuannya adalah untuk memprediksi
kata-kata dalam dokumen. Quoc Le dan Tomas Mikolov [10] menerapkan analisis
sentimen dan uji daya tarik informasi untuk kesamaan vektor paragraf. Mereka
menemukan itu memiliki klasifikasi dan pengambilan kesalahan yang jauh lebih
sedikit dibandingkan dengan kemiripan dokumen berbasis WCD dan algoritma yang
kompatibel lainnya.
4. PERCOBAAN
Kami
mengevaluasi kinerja pada tugas klasifikasi jabatan pekerjaan oleh KNN, yaitu,
mengklasifikasikan judul pekerjaan permintaan oleh k paling atas judul yang
paling mirip dalam pengetahuan kami. Sebagai contoh, diberi judul permintaan
"Senior Java Programmer, NY", judul yang paling mirip yang ditemukan
termasuk "Pengembang Java Entry-level", "programmer Matriks new
york", "insinyur J2EE" jika k = 3. Kemudian judul permintaan
akan diklasifikasikan sebagai "Pengembang Java" karena dua dari tiga
judul yang paling mirip ("Pengembang Java Tingkat Awal" dan
"Insinyur J2EE") dinormalisasi dan diberi label sebagai kelas
"Pengembang Java".
Data
pengujian kami mencakup 1667 judul kueri berlabel manusia dan basis pengetahuan
berisi 1002737 judul referensi yang termasuk dalam 5425 kategori pekerjaan yang
ditentukan sebelumnya. Kami menggunakan metrik akurasi sebagai metrik evaluasi.
Gambar 1 menunjukkan kinerja semua metode dengan k bervariasi mulai dari 1
hingga 20 kecuali pendekatan BOW (garis putus-putus) saat ini dievaluasi hanya
dengan k = 20 karena tidak men-parameterkan k dan 20 adalah nilai yang
dioptimalkan berdasarkan cross validation. Berikut adalah apa yang kami amati
dari gambar: 1) AvgW2V menghasilkan kinerja terbaik dengan kesenjangan
signifikan kepada orang lain. 2) W2V dengan EMD memberikan akurasi yang mirip
dengan BOW dan 3) Doc2Vec tidak dapat mengalahkan BOW. 4) k = 1 adalah pilihan
yang baik meskipun k> 10 juga merupakan nilai yang aman.
5. PEKERJAAN MASA DEPAN
Saat
ini semua vektor kata berkontribusi sama dalam membangun vektor dokumen. Kami
akan mencoba versi berbobot dari pendekatan ini karena beberapa kata (mis.,
Senior, Junior) mungkin
6. REFERENSI
1.
[1] F. Javed, Q. Luo, M. McNair, F. Jacob, M. Zhao, dan TS Kang, "Karoten:
Sistem klasifikasi jabatan untuk domain rekrutmen online," dalam Layanan
Komputasi Data Besar dan Aplikasi (BigDataService), 2015 Konferensi
Internasional Pertama IEEE, hlm. 286–293, Maret 2015.
2.
[2] L. Huang, D. Milne, E. Frank, dan I. H. Witten, "Mempelajari ukuran
kesamaan dokumen berbasis konsep," J. Am. Soc. Inf. Sci. Technol., Vol.
63, hlm. 1593–1608, Agustus 2012.
3.
[3] P. Wang dan C. Domeniconi, “Membangun kernel semantik untuk klasifikasi
teks menggunakan wikipedia,” dalam Prosiding Konferensi Internasional ACM
SIGKDD ke-14 tentang Penemuan Pengetahuan dan Penambangan Data, KDD '08, (New
York, NY, AS), hlm. 713-721, ACM, 2008.
4.
[4] E. B. Albitar, S. dan S. Fournier, "Pengayaan semantik dalam
klasifikasi yang diawasi teks: aplikasi ke domain medis," Konferensi
Masyarakat Riset Kecerdasan Buatan Florida, 2014.
5.
[5] Z. B. V. A. Lu, X. dan C. Zhai, “Meningkatkan kategorisasi teks dengan
representasi yang diperkaya semantik dan augmentasi data pelatihan,” J Am Med
Inform Assoc., 2006.
6.
[6] M. Kusner, Y. Sun, N. Kolkin, dan K. Q. Weinberger, "Dari embeddings
kata untuk mendokumentasikan jarak," di
Prosiding
Konferensi Internasional ke-32 tentang Pembelajaran Mesin (ICML-15) (D. Blei
dan F. Bach, eds.), Hlm. 957–966, Lokakarya JMLR dan Prosiding Konferensi,
2015.
[7]
R. Bekkerman dan M. Gavish, "Klasifikasi dokumen berbasis frase presisi
tinggi pada skala modern," dalam Prosiding Konferensi Internasional ACM
SIGKDD ke-17 tentang Penemuan Pengetahuan dan Penambangan Data, KDD '11, (New
York, NY, AS),
memesan
ke pasar kerja: Kategorisasi tawaran kerja yang efisien dalam perekrutan
elektronik, ”dalam Prosiding Konferensi Internasional ke-38 ACM SIGIR tentang
Penelitian dan Pengembangan dalam Pengambilan Informasi, SIGIR '15, (New York,
NY, USA), hlm. 1101– 1104, ACM, 2015.
9.
[9] T. Mikolov, I. Sutskever, K. Chen, GS Corrado, dan J. Dean,
"Perwakilan kata dan frasa yang didistribusikan serta komposisionalitasnya,"
dalam Kemajuan dalam Sistem Pemrosesan Informasi Neural 26 (CJC Burges, L
Bottou, M. Welling, Z. Ghahramani, dan KQ Weinberger, eds.), Hlm. 3111–3119,
Curran Associates, Inc., 2013.
Dari
1667 kueri yang kami beri label manusia dan 1002737 referensi yang termasuk
dalam 5425 kategori pekerjaan, menunjukkan kinerja semua metode dengan nilai K
bervariasi mulai dari 1 hingga 20. kecuali pendekatan BOW yang saat ini hanya
dievaluasi dengan nilai K = 20 karena tidak memparametasikan K dan bilangan 20
merupakan nilai optimal berdasarkan validasi silang.
Hasilnya,
AvgW2V memberikan kinerja terbaik dengan kesenjangan signifikan kepada orang
lain, kemudian W2V dengan EMD memberikan akurasi yang mirip dengan BOW dan
terakhir, Doc2Vec tidak dapat mengalahkan BOW.
Kelebihan
dalam melakukan klasifikasi item dengan menggunakan Word2Vec tentu menghasilkan
hasil yang cukup banyak, karena dengan menggunakan Word2Vec,
perusahan-perusahaan dengan mudah mengkalsifikasikan item-item yang mereka inginkan.
dibanding dengan metode lama
Dengan
menggunakan Word2Vec, metode ini memodelkan representasi vektor hanya untuk
satu kata. Ia tidak mempelajari representasi vektor untuk beberapa skenario
kata, mis.,alimat, dokumen, dan jabatan. Jadi dengan memberikan representasi
vektor individu dari setiap kata, mengambil rata-rata merupakan solusi intuitif
untuk menghasilkan satu representasi vektor tunggal untuk kata-kata ini.
Untuk
melakukan kesamaan semantik untuk klasifikasi jabatan menggunakan metode
baseline, versi sebelumnya dari Karoten yang terdiri dari Kaskade dua tingkat
yaitu kelas kasar dan kelas halus. untuk kelas kasar, kami menggunakan
implementasi proprietary dari algoritma clustering Lingo. Karena Kompleksitas
Lingo, Kami hanya menggunakan Jabatan, menghilangkan Deskripsi. dan menggunakan
Word2Vec untuk menggunakan jaringan saraf dangkal untuk menghasilkan
representasi vektor dimensi tinggi untuk kata dan frasa. Namun, W2V memodelkan
representasi vektor hanya untuk satu kata. Ia tidak mempelajari representasi
vektor untuk beberapa skenario kata, mis., Kalimat, dokumen, dan jabatan. Jadi
dengan memberikan representasi vektor individu dari setiap kata, mengambil
rata-rata merupakan solusi intuitif untuk menghasilkan satu representasi vektor
tunggal untuk kata-kata ini. untuk memanfaatkan W2V adalah dengan menggunakan
Word Mower's Distance (WMD). WMD memiliki kompleksitas waktu yang tinggi: O (p3
logp) di mana pis jumlah kata unik dalam dokumen. Kusner et al menyajikan
peningkatan kecepatan dengan memfilter kandidat yang tidak terduga menggunakan
fungsi yang memiliki kompleksitas waktu lebih rendah dan terbukti lebih rendah
batasnya untuk WMD. sedangkan Word Centroid Distance (WCD)untuk menetapkan
vektor representatif ke dokumen adalah dengan mengambil rata-rata vektor kata
untuk kata-kata dalam.
mempelajari
representasi vektor agar bisa memberikan
representasi vektor yang lebih baik di setiap individu dari setiap kata,
mengambil rata-rata merupakan solusi intuitif untuk menghasilkan satu
representasi vektor tunggal untuk kata-kata ini.
0 Response to "Tugas 1 - Strategi Kesamaan Semantik untuk Klasifikasi Jabatan"
Post a Comment