deutsch
  • Harder-Design
  • Industrie Design
  • Animation/Visualisierung
  • Digital Product Development
  • Concept art
  • About
  • Kontakt
​Automatisierte

Erkennung von Übersetzungen in Bibliothekskatalogen

Warum Übersetzungen zählen Übersetzungen sind ein zentraler Bestandteil globaler Literatur und des kulturellen Austauschs. Sie verbinden Sprachräume, machen Werke international zugänglich und zeigen, welche Literatur weltweit Wirkung entfaltet. Doch wie erkennt man systematisch, ob ein Buch eine Übersetzung ist? Genau hier setzt das Projekt an.
​
Die Herausforderung Bibliotheken nutzen den MARC 21-Standard zur Katalogisierung. Zwar gibt es spezielle Felder zur Angabe von Übersetzungen, doch deren Nutzung ist oft uneinheitlich. So ist es schwer, automatisiert und verlässlich Übersetzungen in großen Datensätzen zu identifizieren.
Picture

Die Lösung: Ein intelligenter Algorithmus Ich habe einen Algorithmus entwickelt, der MARC 21-Daten analysiert und erkennt, ob ein Buch eine Übersetzung ist. Dabei kombiniert er mehrere Felder:
  • Unterschied zwischen Original- und Buchsprache (Feld 041)
  • Angabe von Übersetzern (Feld 700e)
  • Schlüsselwörter wie „Übersetzung“ in verschiedenen Sprachen (Feld 245, 650)
  • Abgleich von Originaltitel und Buchtitel
Zur Verbesserung der Genauigkeit kommt die Levenshtein-Distanz zum Einsatz – ein Verfahren, das auch leicht abgewandelte Begriffe erkennt.
Effiziente Verarbeitung großer Datenmengen Das System nutzt eine Streaming-Analyse, um auch Millionen von Datensätzen effizient auszuwerten. Unterstützende Module ermöglichen die gezielte Suche nach bestimmten Autoren oder die Verarbeitung sehr großer Datenmengen in handhabbaren Segmenten.


Ergebnisse BOSLIT Datensatz
​Ergebnisse & Tests Der Algorithmus wurde mit mehreren Bibliotheksdatensätzen getestet – darunter BOSLIT, der Yale-Katalog zu Thomas Mann sowie der Bestand der Deutschen Nationalbibliothek (DNB). Die Ergebnisse zeigen:
  • Sehr hohe Erkennungsrate bei gut gepflegten Datensätzen
  • Flexibles Erkennungssystem für uneinheitlich befüllte Felder
  • F-Score bis zu 0,96 bei bekannten übersetzten Autoren wie George Orwell oder Astrid Lindgren
Fazit
Der Ansatz zeigt, dass automatisierte Übersetzungserkennung in Bibliotheksdaten möglich und zuverlässig ist – trotz uneinheitlicher Katalogpraxis. Die Kombination verschiedener Metadatenfelder und intelligenter Matching-Algorithmen verbessert nicht nur die Datenanalyse, sondern unterstützt auch Bibliotheken bei der Standardisierung ihrer Kataloge.
KONTAKT
Eric Harder
Kantstr 1
37127 Dransfeld
[email protected]
Tel 0176 34049901

​Industrie Design

Animation/Visualisierung

UX/UI Design

Conceptart

Datenschutz

Impressum

Copyright © 2022
​
​
  • Harder-Design
  • Industrie Design
  • Animation/Visualisierung
  • Digital Product Development
  • Concept art
  • About
  • Kontakt