Article

Comparative Analysis and Evaluation of Stemming and Preprocessing Techniques for Arabic Text

Cover Image

PDF

Published 2023-12-21

DOI 10.59628/jast.v1i4.588

Issue Vol. 1 No. 4 (2023): Sana'a University Journal of Applied Sciences and Technology

Section Article

Natural Language Processing Information Retrieval Arabic Information Retrieval Stemming Text Preprocessing

Arabic information retrieval is challenging due to the language's complex morphology and syntax. Preprocessing and stemming improve the accuracy and efficiency of Arabic information retrieval. This paper provides a comprehensive analysis of the existing literature on Arabic preprocessing and stemming techniques. The paper identifies the limitations and challenges of these techniques. The paper emphasizes the importance of preprocessing and stemming and underscores the need for further research to improve Arabic information retrieval. This study evaluates ten stemmers on a public dataset. The results show that root-based stemmers: Lucene, and khoja got the highest reduction rate 90.9%, and 85% respectively. The results emphasize that root-based stemmers have good conflating ability for similar terms, while light-based stemmers under-stem similar terms.

...

Abdualmajed A. G. Al-Khulaidi

Department of Computer Science, Faculty of Computer and Information Technology, Sana'a University, Sana'a, Yemen.

...

Samer Mohammed Yaseen

Department of Computer Science, Faculty of Computer and Information Technology, Sana'a University, Sana'a, Yemen.

Download data is not yet available.

Metrics

0

Views

0

Downloads

0

Citations

Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

Similar Articles

Mohammed Taj, Mohammed Zayed, Abdulwahid Alhetar, Mohammed Rajeh, Mohammed Abbas Al-Sharafi, Basem Abdulrhman Munassar, Enabling Arabic Database Querying via Parameter-Efficient Fine-Tuning of Large Language Models , Sana'a University Journal of Applied Sciences and Technology: Vol. 4 No. 1 (2026): Sana'a University Journal of Applied Sciences and Technology
Saeed AL-Dobai, Bakeel Azman, Ghalib AL-Gaphari, Monier Ana’am, Annotation of Inchoative and Predicate in Arabic Nominal Sentence , Sana'a University Journal of Applied Sciences and Technology: Vol. 3 No. 5 (2025): Sana'a University Journal of Applied Sciences and Technology
Salah Alhagree, Ghaleb Al-Gaphari, Utilizing Machine Learning based on LLM for Arabic Sentiment Analysis in Assessing User Satisfaction with Mobile Banking Apps: A Case Study of Yemeni Banks , Sana'a University Journal of Applied Sciences and Technology: Vol. 3 No. 1 (2025): Sana'a University Journal of Applied Sciences and Technology
Wadee A. Nashir, A S. Al-Hegami, B. Al-Fuhaidi, Wedad AL-Sorori, Naseebah Maqtary, Multi-Label Classification of Qur’anic Similes: A Computational Approach to Arabic Rhetorical Theory , Sana'a University Journal of Applied Sciences and Technology: Vol. 4 No. 5 (2026): Sana'a University Journal of Applied Sciences and Technology
Buthaina Othman Abdullah Bahwirth, Amin Abdo Sofian AL-Hakimi, Mahasen Al-Munibari, Mutation Induction in a Yemeni Coffee Variety Using Sodium Azide and Peganum harmala seeds Extract , Sana'a University Journal of Applied Sciences and Technology: Vol. 4 No. 4 (2026): Sana'a University Journal of Applied Sciences and Technology
Sarhan Al-Gawi, M.A. Al-Gorafi, Abdulwahab M. Al-Nono, Unveiling the Secrets of Ancient Waterproofing: A Multi-Analytical Characterization of Traditional Qadhad Mortar from Sira Castle, Yemen , Sana'a University Journal of Applied Sciences and Technology: Vol. 4 No. 5 (2026): Sana'a University Journal of Applied Sciences and Technology
Ahmed A. Al-Shalabi, Salah Alhagree, Ghaleb Al-Gaphari, Fahd Alqasemi, Investigating the Impact of Utilizing the K-Nearest Neighbor and Levenshtein Distance Algorithms for Arabic Sentiment Analysis on Mobile Applications , Sana'a University Journal of Applied Sciences and Technology: Vol. 1 No. 2 (2023): Sana'a University Journal of Applied Sciences and Technology
Heba Al.Marwai, Ghaleb H AL-Gaphari, A hybrid Feature Selection Method Based on Binary PSO Algorithm for Microarray Data Classification , Sana'a University Journal of Applied Sciences and Technology: Vol. 2 No. 4 (2024): Sana'a University Journal of Applied Sciences and Technology
Nagi Ali Abdullah Al-shaibany, A Hybrid Deep Learning Ensemble for Multi-Class Malicious URL Detection in Arabic and English , Sana'a University Journal of Applied Sciences and Technology: Vol. 4 No. 6 (2026): Sana'a University Journal of Applied Sciences and Technology
Zahra M. Rajeh, Sharaf A. Alhomdy, Fursan Thabit , Khawla A. Maodah, A Dynamic Iris Authentication System with One-Time Encoding , Sana'a University Journal of Applied Sciences and Technology: Vol. 3 No. 6 (2025): Sana'a University Journal of Applied Sciences and Technology

You may also start an advanced similarity search for this article.

Most read articles by the same author(s)

Malek Algabri, Ebtsam Nasser Ali Abu Huliqah, Mossa Ghurab, Abdualmajed A. G. Al-Khulaidi, Ghaleb H. Al Gaphari, Fake News Detection On Social Media:Review of Literature , Sana'a University Journal of Applied Sciences and Technology: Vol. 2 No. 1 (2024): Sana'a University Journal of Applied Sciences and Technology
Abdulsalam Tonin, Malek Algabri, Ayman Alsabry, Ali Abdullah Mohammed Ali, Abdualmajed A. G. Al-Khulaidi, Mossa Ghurab, Survey: State-of-the-Art Energy-Consumption Optimization Solutions for Mobile Ad-Hoc Networks , Sana'a University Journal of Applied Sciences and Technology: Vol. 2 No. 3 (2024): Sana'a University Journal of Applied Sciences and Technology
Abdulkader Mohammed Abdulla Al-Badani, Abdualmajed A. G. Al-Khulaidi , Analysis Of Mining Algorithms for Patterns of Frequent Item sets and Hidden , Sana'a University Journal of Applied Sciences and Technology: Vol. 1 No. 4 (2023): Sana'a University Journal of Applied Sciences and Technology
Abdulsalam Tonin, Malek Algabri, Mansour N. Ali, Mossa Ghurab, Abdualmajed A. G. Al-Khulaidi, Ibrahim Ahmed Al-Balatah, Optical Injection Locking for Enhancing Communication Systems in Telesurgery: A Simulation-Based Study , Sana'a University Journal of Applied Sciences and Technology: Vol. 3 No. 4 (2025): Sana'a University Journal of Applied Sciences and Technology

About The Journal

Journal Policies

Editorial guidelines, ethics, and publication standards

About the Journal

A

Journal scope, aims, editorial board, and history

Publication Ethics

E

Ethical guidelines and malpractice statement for all parties

Open Access Policy

O

Open access, archiving, and self-archiving policies

Peer Review Process

P

Review workflow, criteria, and timeline for submissions

Licensing Policy

L

Copyright, licensing, and reuse permissions for published content

Digital Archiving

D

View Digital Archiving

Long-term preservation and digital archiving strategy

Publication Frequency

F

Issuance schedule, volumes, and publication timeline

Language Policy

L

View Language Policy

Submission language, translation, and language services

©

Copyright Policy

C

Author rights, copyright transfer, and permissions

Editorial Independence

I

Editorial autonomy, conflict of interest, and decision-making

AI Ethics and Responsible Use

AI

Guidelines for ethical and transparent AI use in scholarly writing

Journal Meta Data

Journal Metrics

Key indicators of journal quality and impact

Crossref DOI

C

Digital Object Identifier for persistent citation and linking

Google Scholar

G

Search Citations

Comprehensive citation metrics and academic search engine

ISSN Number

I

International Standard Serial Number for journal identification

SJIIF Impact

S

Scientific Journal Impact Factor and quality assessment

H-Index Score

H

Measures journal productivity and citation impact

info block

Platform Information

Dedicated guides · Readers, Authors, Libraries

R

For Readers

reader

Abstracts · downloads · open access

A

For Authors

author

Submission Guidelines

Peer review · rights · citations

L

For Librarians

library

ISSN · aggregation · subscriptions

History Workflow

Journal Timeline & Fees

Fast-Track

Efficient processing with transparent publication costs

Time to first decision 7 days

Rapid initial review response

Review time 45 days

Comprehensive peer-review process

Submission to acceptance 65 days

Complete manuscript processing timeline

Make a Submission

Make a Submission

Categories

Keywords