Sie befinden Sich nicht im Netzwerk der Universität Paderborn. Der Zugriff auf elektronische Ressourcen ist gegebenenfalls nur via VPN oder Shibboleth (DFN-AAI) möglich. mehr Informationen...
Automating the discovery of linking candidates : = Automating the Discovery of Linking Candidates
Ort / Verlag
Paderborn
Erscheinungsjahr
2023
Verknüpfte Titel
Beschreibungen/Notizen
Tag der Verteidigung: 03.02.2023
ger: Wie das World Wide Web hat auch das Semantic Web eine dezentrale Architektur. Personen und Unternehmen können Daten zur Verfügung stellen und sie mit anderen Daten im Web verbinden. Während es jedoch für die Erstellung von Datensätzen bereits gute Werkzeuge gibt, wird die Verknüpfung neuer mit bereits bestehenden Datensätzen nur unzureichend unterstützt. Unsere Arbeit befasst sich mit wichtigen Forschungslücken bei der Umwandlung von Daten im Web in strukturierte, verknüpfte Daten. Der Erzeuger eines Datensatzes muss in der Lage sein, 1) Datensätze aus dem Web zu sammeln, 2) zu erkunden und 3) zu bestimmen, mit welchen Datensätzen er seinen Datensatz verknüpfen sollte. Für jede dieser Lücken schlagen wir einen Ansatz vor: Squirrel, LODCat und Tapioca. Squirrel ist ein verteilter Open-Source-Crawler für das Data Web. LODCat ist ein Ansatz zur Erkundung des Data Web auf der Grundlage von menschlich interpretierbaren Themen. Tapioca ist eine Suchmaschine für thematisch ähnliche Datensätze, die Kandidaten für die Erstellung von Verknüpfungen sein können. Eine vierte Forschungslücke ergab sich aus den Evaluierungen der oben genannten Ansätze: komplexe, verteilte Systeme, die Linked Data verarbeiten, brauchen faire Benchmarking-Plattformen. Daher haben wir Hobbit entwickelt - eine ganzheitliche Benchmarking-Plattform, die das Benchmarking aller Schritte des Lebenszyklus von Linked Data unterstützt. Darüber hinaus präsentieren wir Lemming - einen Ansatz zur Erzeugung synthetischer Wissensgraphen beliebiger Größe, die reale Wissensgraphen imitieren. Außerdem schlagen wir zwei neue Benchmarks vor. Orca ist ein Benchmark für Data Web Crawler. Glisten ist der erste Benchmark für Systeme, die Datensätze für Verknüpfungen empfehlen.
eng: Like the World Wide Web, the Semantic Web has a decentralized architecture. Users and organizations can make data available and connect it to other parts of the Web. However, while the creation of datasets is well supported, the support for linking new datasets to already existing datasets is poorly supported. Our work addresses key research gaps in lifting data on the Web to structured, linked data. A dataset creator needs to be able to 1) gather datasets from the Web, 2) explore existing datasets of their area of interest, and 3) determine to which dataset they should link their dataset to. For each gap, we propose an approach and evaluate it. We propose Squirrela distributed open-source crawler for the Data Web. For the second research gap, we propose LODCatan approach to support the exploration of the Data Web based on human-interpretable topics. We tackle the third gap using Tapiocaa search engine for topically similar datasets that could be candidates for creating links. A fourth research gap arose from the evaluations of the approaches aforementioned: complex, distributed systems that process Linked Data need fair benchmarks and benchmarking platforms. Hence, we propose Hobbita holistic benchmarking platform that supports the benchmarking of all steps of the Linked Data life cycle. In addition, we propose Lemmingan approach to generate synthetic knowledge graphs of arbitrary size that mimic real-world knowledge graphs. We further propose two new benchmarks. Orca is a benchmark for Data Web crawlers. Glisten is the first benchmark for dataset interlinking recommendation systems.