PHRASE CORRECTION TOOL BERBASIS PYTHON (TKINTER)


1. Pengertian Aplikasi

Aplikasi Phrase Correction Tool ini adalah perangkat lunak berbasis Python dengan antarmuka grafis (GUI) menggunakan Tkinter, yang berfungsi untuk menganalisis, mengoreksi, dan menyarankan urutan kata (frasa) agar sesuai dengan aturan tata bahasa tertentu. Aplikasi ini menggabungkan machine learning dan Vector Space Model (VSM) untuk:

Mengklasifikasi kata sesuai kategori (label).

Mengidentifikasi kata yang belum dikenal di dataset.

Menyusun ulang frasa berdasarkan urutan sintaksis yang diharapkan (DOECH order).

Mengukur kesamaan frasa dengan data referensi.

Menyimpan kata/frasa baru untuk pembelajaran di masa depan.

2. Struktur Aplikasi

Struktur aplikasi dapat dijelaskan dalam beberapa komponen utama:

A. Pemrosesan Data

Dataset Kata (dataset.csv) → Data kata + label lengkap.

Kata Baru (new_words.txt) → Kata tambahan hasil analisis sebelumnya

Frasa Tersimpan (new_phrases) → Frasa beserta label per kata

Preprocessing → Sanutasu data, normalisasi huruf, hapus duplikat.

B. Model Machine Learning

Aplikasi ini memanfaatkan beberapa algoritma Machine Learning & Information Retrieval:

TF-IDF Vectorization (char & word n-grams) – Mengubah teks menjadi representasi

numerik berdasarkan frekuensi kemunculan kata.

VSM (Vector Space Model) – Mengukur cosine similarity antara kata/frasa baru dengan

dataset yang sudah ada.

SVM (Support Vector Machine) – Klasifikasi berbasis margin maksimal.

Multinomial Naive Bayes – Klasifikasi probabilistik berbasis distribusi kata.

K-Nearest Neighbors (KNN) – Berdasarkan kedekatan jarak.

Random Forest – Ensemble berbasis pohon keputusan.

Ensemble Scoring – Menggabungkan prediksi dari beberapa model dengan bobot

tertentu.

C. Logika Analisis
Input Frasa dari user.

Pencocokan Kata:

o Jika ada di dataset → ambil label & sumber.

o Jika tidak dikenal → prediksi label via model.

Penanganan Kata Baru:

o Pop-up untuk konfirmasi & simpan ke data.

Penyusunan Kandidat Urutan:

o Permutasi (untuk frasa pendek).

o Strategi DOECH (untuk frasa panjang).

Skoring Kandidat:

o DOECH score

o VSM similarity

o Confidence rata-rata

o Keseragaman confidence

o Panjang frasa

o Keragaman label

Pemilihan Urutan Terbaik berdasarkan skor tertinggi.

D. Antarmuka Pengguna (GUI)

Sidebar Menu:

o Cek Frasa

o New Words

o Frases

o Dataset

Panel Analisis:

o Input frasa

o Tabel hasil analisis kata per kata

o Skor detail

o Frasa mirip

Fitur Aksi:

o Edit label kata

o Simpan frasa

o Copy

sindelarastechnology

Posting Komentar

Lebih baru Lebih lama