Letzte Suchanfragen

Ergebnisse für *

Zeige Ergebnisse 1 bis 3 von 3.

  1. Language model assisted OCR classification for Republican Chinese newspaper text
    Erschienen: 29 Feb. 2024
    Verlag:  Taiwanese Association for Digital Humanities, Taipeh, ROC ; Universitätsbibliothek Heidelberg, Heidelberg

    Zugang:
    Resolving-System (kostenfrei)
    Resolving-System (kostenfrei)
    Universitätsbibliothek Heidelberg
    keine Fernleihe
    HeiBIB - Die Heidelberger Universitätsbibliographie
    keine Fernleihe
    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Hinweise zum Inhalt
    Volltext (kostenfrei)
    Quelle: Verbundkataloge
    Sprache: Englisch
    Medientyp: Buch (Monographie)
    Format: Online
    Weitere Identifier:
    Umfang: 1 Online-Ressource (20 Seiten), Illustrationen
  2. <<Die>> Funktion nackter Körper im Holocaust-Spielfilm 1948-1975
    eine phänomenologische Filmanalyse
    Erschienen: 2012

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: Verbundkataloge
    Sprache: Deutsch
    Medientyp: Dissertation
    Format: Online; Druck
    Weitere Identifier:
    Schlagworte: Europa; Film; Judenvernichtung <Motiv>; Nacktheit <Motiv>; Geschichte 1948-1975;
    Umfang: 134 S.
    Bemerkung(en):

    Wien, Univ., Dipl.-Arb., 2013

  3. Language Model Assisted OCR Classification for Republican Chinese Newspaper Text
    Erschienen: 2024
    Verlag:  Taiwanese Association for Digital Humanities

    In this work, we present methods to obtain a neural optical character recognition (OCR) tool for article blocks in a Republican Chinese newspaper. Our basis is a small fraction of the image corpus for which text ground truth exists. We introduce a... mehr

     

    In this work, we present methods to obtain a neural optical character recognition (OCR) tool for article blocks in a Republican Chinese newspaper. Our basis is a small fraction of the image corpus for which text ground truth exists. We introduce a character segmentation method which produces over 90,000 labeled images of single characters and train a GoogLeNet classifier as an OCR model. In addition, we create synthetic training data from character images extracted from Song-Ti fonts. Randomly augmented on the fly and used for pre-training, they increase OCR accuracy from 95.49% to 96.95% on our test set. Finally, we employ post-OCR correction based on a pre-trained masked language model and present heuristics to select the required hyperparameters, by which we are able to correct 16% of remaining classification errors, increasing accuracy on the test set to 97.44%.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt AVL
    Sprache: Englisch
    Medientyp: Bericht
    Format: Online
    DDC Klassifikation: Datenverarbeitung; Informatik (004); Bibliotheks- und Informationswissenschaften (020); Andere Sprachen (490); Literaturen anderer Sprachen (890); Geschichte Asiens; des Fernen Ostens (950)
    Lizenz:

    info:eu-repo/semantics/openAccess ; Please see front page of the work (Sorry, Dublin Core plugin does not recognise license id)