oru.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Automatisk dokumentklassificering med hjälp av maskininlärning
Örebro University, School of Science and Technology.
2018 (Swedish)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesisAlternative title
Automated Document Classification using Machine Learning (English)
Abstract [sv]

Att manuellt hantera och klassificera stora mängder textdokument tar mycket tid och kräver mycket personal, att göra detta med hjälp av maskininlärning är för ändamålet ett alternativ. Det här arbetet önskar ge läsaren en grundläggande inblick i hur automatisk klassificering av texter fungerar, samt ge en lätt samanställning av några av de vanligt förekommande algoritmerna för ändamålet. De exempel som visas använder sig av artiklar på engelska om teknik- och finansnyheter, men arbetet har avstamp i frågan om mognadsgrad av tekniken för hantering av svenska officiella dokument. Första delen är den vetenskapliga bakgrund som den andra delen vilar på, här beskrivs flera algoritmer och tekniker som sedan används i praktiska exempel. Rapporten ämnar inte beskriva en färdig produkt, utan fungerar så som ”proof of concept” för textklassificeringens användning. Avslutningsvis diskuteras resultaten från de tester som gjorts, och en av slutsatserna är att när det finns tillräckligt med data kan en enkel klassificerare prestera nästan likvärdigt med en tekniskt sett mer utvecklad och komplex klassificerare. Relateras prestandan hos klassificeraren till tidsåtgången visar detta på att komplexa klassificerare kräver hårdvara med hög beräkningskapacitet och mycket minne för att vara gångbara.

 

Abstract [en]

To manually handle and classify large quantities of text documents, takes a lot of time and demands a large staff, to use machine learning for this purpose is an alternative. This thesis aims to give the reader a fundamental insight in how automatic classification of texts work and give a quick overview of the most common algorithms used for this purpose. The examples that are shown uses news articles in English about tech and finance, but the thesis takes a start in the question about how mature the technique is for handling official Swedish documents. The first part is the scientific background on which the second part rests, here several algorithms and techniques are described which is used in practice later. The report does not aim to describe a product in any form but acts as a “proof of concept” for the use of text classification. Finally, the results from the tests are discussed, and one of the conclusions drawn is that when data is abundant a relatively simple classifier can perform close to equal to a technically more developed and complex classifier. If the performance of the classifier is related to the time taken this indicates that complex classifiers need hardware with high computational power and a fair bit of memory for the classifier to be viable.

 

Place, publisher, year, edition, pages
2018. , p. 59
Keywords [en]
Document classification, Word representation, Perceptron, Support vector machine.
Keywords [sv]
Dokumentklassificering, ordrepresentation, perceptron, stödvektormaskin.
National Category
Computer Sciences
Identifiers
URN: urn:nbn:se:oru:diva-67228OAI: oai:DiVA.org:oru-67228DiVA, id: diva2:1216778
Subject / course
Computer Engineering
Supervisors
Examiners
Available from: 2018-06-13 Created: 2018-06-12 Last updated: 2018-06-18Bibliographically approved

Open Access in DiVA

fulltext(2815 kB)4 downloads
File information
File name FULLTEXT01.pdfFile size 2815 kBChecksum SHA-512
2a474577eab6cd751290b38e9b33e55c60dd5f22e3d8f3f2fc7fb0b0155a53044f5ae14310c2e8bf567dfe92db0fd8e8cbc571f88b7c8bc1959c8b327d5a779d
Type fulltextMimetype application/pdf

By organisation
School of Science and Technology
Computer Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 4 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 91 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf