Using AI for Evaluating and Classifying E-mails with Limited Data Sets
2022 (English)Independent thesis Basic level (professional degree), 10 credits / 15 HE credits
Student thesis
Abstract [sv]
Denna rapport utvärderar olika metoder för att klassificera och kategorisera email. Mångamail anländer hos människors inkorg varje dag. När tiden går och antalet email ökar blir detsvårare att hitta specifika email. På företaget arbetar de som konsulter och vill dela upp emaili olika mappar beroende på vilket projekt det tillhör. Idag fungerar det genom ett ord-regelbaseratsystem som sorterar email I olika mappar med en precision på cirka 85%. Företagetvill ta reda på om det går att använda maskininlärning för det nuvarande systemet. Denna rapportpresenterar fyra maskininlärningsalgorimer, beslutsträd, random forest beslutsträd, knearestneighbor och naive bayes, som användas för att utvärdera om det är möjligt att kategoriseraemailen.Datan som används till rapporten kommer från företagets mailserver och är redan kategoriseradtill rätt kaegori.
Abstract [en]
This report will evaluate methods for classifying e-mails into different categories. A lot ofemails are received in peoples inboxes every day. When the time passes and the amount ofemails increases the ability to find specific emails gets harder. At the company they are workingwith consulting and want to separate different emails from different project into separatefolders. This is achieved today by using a word based rule system that sorts emails into differentfolders and has a precision about 85%. The company wants to know if it is possible to usemachine learning to automatically sort the emails into different folders instead of the currentsolution. This report presents four machine learning algorithms, decision tree, random forestdecision tree, k-nearest neighbor and naive bayes, which are being used for evaluation of thepossibility to categorize the emails.The data used for the report will be data gathered from the company’s mail server and are alreadypre-labeled into their respectively categories.
Place, publisher, year, edition, pages
2022. , p. 34
Keywords [en]
Email, foldering, supervised learning, machine learning
Keywords [sv]
Epost, mappning, övervakad inlärning, maskininlärning
National Category
Computer Sciences
Identifiers
URN: urn:nbn:se:oru:diva-98315OAI: oai:DiVA.org:oru-98315DiVA, id: diva2:1647987
Subject / course
Computer Engineering
Supervisors
Examiners
2022-03-292022-03-292022-04-01Bibliographically approved