
Qiji-font (Qijiti) ist:
? Aussage: Meine Schriftarten wurden in letzter Zeit im Internet verbreitet, aber sie werden alle als "Ling" Dongqi Ji -Stil missverstanden. Mein Name ist Lingdong und die Schrift ist Qiji ; Wenn Sie der letzte sein möchten, sollten Sie auch " Lingdong Qiji -Stil " als das Wichtigste verwenden, also hoffe ich, dass Sie es wissen können. ? Eitung

| Einzigartige Glyphen | Abgedeckte Zeichen* | Bücher gescannt |
|---|---|---|
| 4569 | 5916 | Li Changjis Gedichte/Huainan Honglies Erklärung |
* Vereinfachte Formen greifen auf traditionelle Formen zurück, häufiger traditionelle Varianten fallen auf weniger häufige Variantenformen zurück.
Schritt I: Laden Sie hochauflösende PDFs (von shouge.org) herunter und teilen Sie die Seiten in Bilder auf.
Schritt II: Legen Sie manuell ein Raster auf jede Seite, um Begrenzungsboxen für Zeichen zu generieren (möglicherweise durch einen automatischen Eckerkennungsalgorithmus ersetzt).

Schritt III: Erzeugen Sie eine Maske mit niedrigem Polieren für jedes Zeichen im Netz und retten Sie die Miniaturansichten (unter Verwendung von OpenCV). Zunächst wird der rote Kanal von der Graustufe abgezogen, um die in roten Tinten gedruckten Anmerkungen zu reinigen. Als nächstes wird das Bild geschwmet und in den Kontur-Tracing-Algorithmus eingespeist. Eine Metrik wird dann verwendet, um Formen zu verwerfen, die wahrscheinlich nicht Teil des interessierenden Charakters sind. (Dieser Schritt erzeugt nicht die endgültige Glyphe, nur eine schnelle und schrägliche Extraktion für die Zwischenverarbeitung.)

Schritt IV: Füttern Sie jeden Vorschaubild einzeln in das chinesische OCR mit neuronalem Netz, um die Charaktere zu erkennen (derzeit mit chinesischer/darknet-OCR, niedrige Erkennungsrate, mittelmäßige Genauigkeit, sehr langsam für die CPU, die nach besseren Alternativen suchen).
Schritt V: Manuell beurteilen Sie die Ausgabe von OCR: Wählen Sie die am besten aussehende Instanz eines bestimmten Charakters aus und markieren Sie fälschlicherweise anerkannte Zeichen.

Schritt VI: Generieren Sie für das endgültige Zeichensatz automatisch feine Raster -Rendering jedes Zeichens. Jeder Charakter wird in seinem "visuellen" Zentrum platziert, indem Pixel von links und rechts sowie oben und unten kumulativ zählt, so dass das "Gewicht" des Charakters auf den Zentrumleitungen liegt, anstatt die Begrenzungsbox zu zentrieren. Es werden zwei Schwellenwertmethoden verwendet, die globale Schwelle wird erweitert und wirkt als Maske für den adaptiven Schwellenwert, wodurch Details beibehalten werden und gleichzeitig die umgebenden Boogers blockiert werden.

Schritt VII: Software-Potrace für Raster-zu-Vektor-Verfolgung wird verwendet, um die Raster-Renderings in SVGs umzuwandeln. Die Python -Bibliothek von Fontforge wird verwendet, um die endgültige Schriftart zu generieren. Erledigt!
Wenn die Anzahl der Zeichen wächst, wird die obige Prozedur immer weniger effizient sein, da neue, bisher unsichtbare Zeichen, die aus jedem verarbeiteten Buch erhalten wurden, seltener und seltener sein werden. Eine alternative Methode, bei der nur auf unsichtbare Zeichen klicken, um sie auszuwählen, ist im Aufbau.
Anforderungen:
pip3 install opencv-python )brew install fontforge ) Der Hauptcode ist in /workflow enthalten und entspricht den oben beschriebenen Schritten. Die Dokumentation für den Code muss noch (bald) durchgeführt werden. Wenn Sie sich bei Interesse befinden, können Sie es also gerne erkundigen. Wie Sie vielleicht bemerkt haben, gibt es eine Menge Arbeit an der Herstellung einer chinesischen Schriftart, daher ist der Beitrag sehr willkommen :)
Blatt aller einzigartigen Glyphen, die nach Unicode -Einstiegspunkt sortiert sind, klicken Sie, um zu vergrößern. (Dies ist Losty JPEG für vollständige PNG finden Sie hier, um SVG zu finden, node workflow/make_sheet.js ).
