UB Paderborn / Katalog / Suche / Details

Zur Ergebnisliste

Ergebnis 1 von 1

Vandalism detection in crowdsourced knowledge bases

2019

Details

Autor(en) / Beteiligte

Titel

Vandalism detection in crowdsourced knowledge bases

Ort / Verlag

Paderborn

Erscheinungsjahr

2019

Link zum Volltext

Hochschulschriften Visual Library - Scan2Web Hochschulschriften UB Paderborn (s2w-hsspadubpb)
Hochschulschriften Visual Library - Scan2Web Hochschulschriften UB Paderborn (s2w-hsspadubpb)

Link zu anderen Inhalten

Verknüpfte Titel

Beschreibungen/Notizen

Tag der Verteidigung: 13.12.2019
Open Access
ger: Informationssysteme wie Frage-Antwort-Systeme und Websuchmaschinen verwenden zunehmend crowdsourcing-basierte Wissensdatenbanken, um Fragen zu beantworten und wichtige Informationen über Entitäten anzuzeigen. Crowdsourcing ermöglicht zwar die Sammlung großer Informationsmengen, bringt aber auch das Problem von Vandalismus und schädlichen Beiträgen mit sich. In dieser Arbeit betrachten wir Wikidata, die größte strukturierte, crowdsourcing-basierte Wissensdatenbank im Web und entwickeln neuartige Vandalismusdetektoren mittels maschinellem Lernen, um den manuellen Prüfaufwand zu reduzieren. Dazu entwickeln wir große Vandalismuskorpora, Vandalismusdetektoren mit hoher prädiktiver Performanz und Vandalismusdetektoren mit geringer Voreingenommenheit gegenüber schützenswerten Editorengruppen. Wir evaluieren unseren Ansatz umfassend in zahlreichen Situationen und vergleichen ihn mit dem Stand der Technik, der durch den Wikidata Abuse Filter und den Objective Revision Evaluation Service der Wikimedia Foundation repräsentiert wird. Unser bester Vandalismusdetektor erreicht eine Fläche unter der Kurve der Receiver Operating Characteristics von 0,991 und übertrifft damit deutlich den Stand der Technik; unser fairster Vandalismusdetektor erreicht ein Bias-Verhältnis von lediglich 5,6 im Vergleich zu Werten von bis zu 310,7 vorheriger Vandalismusdetektoren. Insgesamt ermöglichen unsere Vandalismusdetektoren einen gezielten Kompromiss zwischen hoher prädiktiver Performanz und geringem Bias und sie könnten in Zeiten von Fake News und voreingenommenen KI-Systemen eine wichtige Rolle für die Richtigkeit der Informationen im Web spielen und zu einem freundlicheren Klima für Editoren beitragen.
eng: Information systems, such as question answering systems and web search engines, increasingly rely on crowdsourced knowledge bases to answer questions and to display important information about entities. While crowdsourcing enables the collection of vast amounts of information, it also brings along the problem of vandalism and damaging contributions. In this thesis, we focus on Wikidata, the largest structured, crowdsourced knowledge base on the web, and develop novel machine learning-based vandalism detectors to reduce the manual reviewing effort. To this end, we carefully develop large-scale vandalism corpora, vandalism detectors with high predictive performance, and vandalism detectors with low bias against certain groups of editors. We extensively evaluate our vandalism detectors in a number of settings, and we compare them to the state of the art represented by the Wikidata Abuse Filter and the Objective Revision Evaluation Service by the Wikimedia Foundation. Our best vandalism detector achieves an area under the curve of the receiver operating characteristics of 0.991, significantly outperforming the state of the art; our fairest vandalism detector achieves a bias ratio of only 5.6 compared to values of up to 310.7 of previous vandalism detectors. Overall, our vandalism detectors enable a conscious trade-off between predictive performance and bias and they might play an important role towards a more accurate and welcoming web in times of fake news and biased AI systems.

Sprache: Englisch
Identifikatoren: DOI: 10.17619/UNIPB/1-851
URN: urn:nbn:de:hbz:466:2-36090
Titel-ID: 990365175600206441

Format: 1 Online-Ressource (ix, 70 Seiten); Diagramme, Tabellen

Menü

Weitere Dienste

Einstellungen

Vandalism detection in crowdsourced knowledge bases

Details