Warum Übersetzungen zählen Übersetzungen sind ein zentraler Bestandteil globaler Literatur und des kulturellen Austauschs. Sie verbinden Sprachräume, machen Werke international zugänglich und zeigen, welche Literatur weltweit Wirkung entfaltet. Doch wie erkennt man systematisch, ob ein Buch eine Übersetzung ist? Genau hier setzt das Projekt an.
Die Herausforderung Bibliotheken nutzen den MARC 21-Standard zur Katalogisierung. Zwar gibt es spezielle Felder zur Angabe von Übersetzungen, doch deren Nutzung ist oft uneinheitlich. So ist es schwer, automatisiert und verlässlich Übersetzungen in großen Datensätzen zu identifizieren.
Die Herausforderung Bibliotheken nutzen den MARC 21-Standard zur Katalogisierung. Zwar gibt es spezielle Felder zur Angabe von Übersetzungen, doch deren Nutzung ist oft uneinheitlich. So ist es schwer, automatisiert und verlässlich Übersetzungen in großen Datensätzen zu identifizieren.
Die Lösung: Ein intelligenter Algorithmus Ich habe einen Algorithmus entwickelt, der MARC 21-Daten analysiert und erkennt, ob ein Buch eine Übersetzung ist. Dabei kombiniert er mehrere Felder:
- Unterschied zwischen Original- und Buchsprache (Feld 041)
- Angabe von Übersetzern (Feld 700e)
- Schlüsselwörter wie „Übersetzung“ in verschiedenen Sprachen (Feld 245, 650)
- Abgleich von Originaltitel und Buchtitel
Effiziente Verarbeitung großer Datenmengen Das System nutzt eine Streaming-Analyse, um auch Millionen von Datensätzen effizient auszuwerten. Unterstützende Module ermöglichen die gezielte Suche nach bestimmten Autoren oder die Verarbeitung sehr großer Datenmengen in handhabbaren Segmenten.
Ergebnisse BOSLIT Datensatz
Ergebnisse & Tests Der Algorithmus wurde mit mehreren Bibliotheksdatensätzen getestet – darunter BOSLIT, der Yale-Katalog zu Thomas Mann sowie der Bestand der Deutschen Nationalbibliothek (DNB). Die Ergebnisse zeigen:
Der Ansatz zeigt, dass automatisierte Übersetzungserkennung in Bibliotheksdaten möglich und zuverlässig ist – trotz uneinheitlicher Katalogpraxis. Die Kombination verschiedener Metadatenfelder und intelligenter Matching-Algorithmen verbessert nicht nur die Datenanalyse, sondern unterstützt auch Bibliotheken bei der Standardisierung ihrer Kataloge.
- Sehr hohe Erkennungsrate bei gut gepflegten Datensätzen
- Flexibles Erkennungssystem für uneinheitlich befüllte Felder
- F-Score bis zu 0,96 bei bekannten übersetzten Autoren wie George Orwell oder Astrid Lindgren
Der Ansatz zeigt, dass automatisierte Übersetzungserkennung in Bibliotheksdaten möglich und zuverlässig ist – trotz uneinheitlicher Katalogpraxis. Die Kombination verschiedener Metadatenfelder und intelligenter Matching-Algorithmen verbessert nicht nur die Datenanalyse, sondern unterstützt auch Bibliotheken bei der Standardisierung ihrer Kataloge.