1. Pengertian Aplikasi
Aplikasi Phrase Correction Tool ini adalah perangkat lunak berbasis Python dengan antarmuka grafis (GUI) menggunakan Tkinter, yang berfungsi untuk menganalisis, mengoreksi, dan menyarankan urutan kata (frasa) agar sesuai dengan aturan tata bahasa tertentu. Aplikasi ini menggabungkan machine learning dan Vector Space Model (VSM) untuk: Mengklasifikasi kata sesuai kategori (label). Mengidentifikasi kata yang belum dikenal di dataset. Menyusun ulang frasa berdasarkan urutan sintaksis yang diharapkan (DOECH order). Mengukur kesamaan frasa dengan data referensi. Menyimpan kata/frasa baru untuk pembelajaran di masa depan.2. Struktur AplikasiStruktur aplikasi dapat dijelaskan dalam beberapa komponen utama:A. Pemrosesan Data Dataset Kata (dataset.csv) → Data kata + label lengkap. Kata Baru (new_words.txt) → Kata tambahan hasil analisis sebelumnya Frasa Tersimpan (new_phrases) → Frasa beserta label per kata Preprocessing → Sanutasu data, normalisasi huruf, hapus duplikat.B. Model Machine LearningAplikasi ini memanfaatkan beberapa algoritma Machine Learning & Information Retrieval: TF-IDF Vectorization (char & word n-grams) – Mengubah teks menjadi representasinumerik berdasarkan frekuensi kemunculan kata. VSM (Vector Space Model) – Mengukur cosine similarity antara kata/frasa baru dengandataset yang sudah ada. SVM (Support Vector Machine) – Klasifikasi berbasis margin maksimal. Multinomial Naive Bayes – Klasifikasi probabilistik berbasis distribusi kata. K-Nearest Neighbors (KNN) – Berdasarkan kedekatan jarak. Random Forest – Ensemble berbasis pohon keputusan. Ensemble Scoring – Menggabungkan prediksi dari beberapa model dengan bobottertentu.C. Logika Analisis Input Frasa dari user. Pencocokan Kata:o Jika ada di dataset → ambil label & sumber.o Jika tidak dikenal → prediksi label via model. Penanganan Kata Baru:o Pop-up untuk konfirmasi & simpan ke data. Penyusunan Kandidat Urutan:o Permutasi (untuk frasa pendek).o Strategi DOECH (untuk frasa panjang). Skoring Kandidat:o DOECH scoreo VSM similarityo Confidence rata-ratao Keseragaman confidenceo Panjang frasao Keragaman label Pemilihan Urutan Terbaik berdasarkan skor tertinggi.D. Antarmuka Pengguna (GUI) Sidebar Menu:o Cek Frasao New Wordso Fraseso Dataset Panel Analisis:o Input frasao Tabel hasil analisis kata per katao Skor detailo Frasa mirip Fitur Aksi:o Edit label katao Simpan frasao Copy
Tags
produk