Download cutlet - cutlet Source Code Download

cutlet

Anderer Quellcode

v0.3.0: Token-aligned romaji

Herunterladen

Kotelett

Schnitzel von Irasutoya

Cutlet ist ein Werkzeug, um Japanisch in Romaji zu konvertieren. Schauen Sie sich die interaktive Demo an! Siehe auch die Dokumente und den ursprünglichen Blog -Beitrag.

Ausgabe を英語で書く必要はありません。

Merkmale:

Unterstützung für modifizierte Hepburn, Kunreisiki, Nihonsiki Systems
Benutzerdefinierte Überschreibungen für einzelne Zuordnungen
Benutzerdefinierte Überschreibungen für bestimmte Wörter
Integrierte Ausnahmen Liste (Tokio, Osaka usw.)
Verwendet fremde Schreibweise, wenn sie auf Unidic verfügbar sind
Die richtigen Substantive werden aktiviert
Slug -Modus für die URL -Generation

Dinge nicht unterstützt:

Traditioneller Hepburn N-to-M: Shimbashi
Makrons oder Umfang: Tōkyō, Tôkyô
Passport Hepburn: Satoh (aber Sie können eine Ausnahme verwenden)
Hyphening Worte
Traditioneller Hepburn im Allgemeinen wird nicht unterstützt

Innen verwendet Cutlet Fugashi, sodass Sie das gleiche Wörterbuch verwenden können, das Sie für eine normale Tokenisierung verwenden.

Installation

Schnitzel kann wie gewohnt über PIP installiert werden.

 pip install cutlet

Beachten Sie, dass Sie auch eines installieren müssen, wenn Sie kein Mecab -Wörterbuch installiert haben. Wenn Sie gerade erst anfangen, ist Unidic-Lite eine gute Wahl.

 pip install unidic-lite

Verwendung

Für schnelle Tests ist ein Befehlszeilenskript enthalten. Verwenden Sie einfach cutlet und jede Stdinlinie wird als Satz behandelt. Sie können das zu verwendende System ( hepburn , kunrei , nippon oder nihon ) als erstes Argument angeben.

 $ cutlet
ローマ字変換プログラム作ってみた。
Roma ji henkan program tsukutte mita.

Im Code:

 import cutlet
katsu = cutlet . Cutlet ()
katsu . romaji ( "カツカレーは美味しい" )
# => 'Cutlet curry wa oishii'

# you can print a slug suitable for urls
katsu . slug ( "カツカレーは美味しい" )
# => 'cutlet-curry-wa-oishii'

# You can disable using foreign spelling too
katsu . use_foreign_spelling = False
katsu . romaji ( "カツカレーは美味しい" )
# => 'Katsu karee wa oishii'

# kunreisiki, nihonsiki work too
katu = cutlet . Cutlet ( 'kunrei' )
katu . romaji ( "富士山" )
# => 'Huzi yama'

# comparison
nkatu = cutlet . Cutlet ( 'nihon' )

sent = "彼女は王への手紙を読み上げた。"
katsu . romaji ( sent )
# => 'Kanojo wa ou e no tegami wo yomiageta.'
katu . romaji ( sent )
# => 'Kanozyo wa ou e no tegami o yomiageta.'
nkatu . romaji ( sent )
# => 'Kanozyo ha ou he no tegami wo yomiageta.'

Alternativen

Kakasi: Historisch wichtig, aber seit 2014 nicht aktualisiert.
Pykakasi: Selbstbehälter, es führt die Segmentierung selbst und verwendet ein eigenes Wörterbuch.
Kuroshiro: JavaScript basiert.
Kana: Go basiert.

Expandieren

Zusätzliche Informationen