YuzuMarker.FontDetection Download - YuzuMarker.FontDetection do download do código -fonte

título	Emoji	colorfrom	Colorto	sdk	app_port
Yuzumarker.FontDetecção	?	azul	amarelo	Docker	7860

Yuzumarker.FontDetecção

Modelo de reconhecimento de fonte CJK (chinês, japonês, coreano)

Notícias

[ATUALIZAÇÃO 2023/05/05] Projeto Recomendado em Ruanyifeng.com (阮一峰的网络日志-科技爱好者周刊): https://www.ruanyifeng.com/blog/2023/05/weekly-issue-253.html
[ATUALIZAÇÃO 2023/11/18] O conjunto de dados agora está OpenSource! Faça o download do Huggingface aqui: https://huggingface.co/datasets/gyrojeff/yuzumarker.fontdetection/tree/master

Geração de conjunto de dados de fontes de texto de cena

Esse repositório também contém dados para gerar automaticamente um conjunto de dados de imagens de texto da cena com fontes diferentes. O conjunto de dados é gerado usando o pacote de fontes CJK pelo VCB-Studio e milhares de imagem de fundo do Pixiv.net.

Os dados do PIXIV não serão compartilhados, pois são apenas raspados aleatoriamente. Você pode preparar seu próprio conjunto de dados em segundo plano que se encaixaria na sua distribuição de dados como desejar.

Para o corpus de texto,

O chinês é gerado aleatoriamente a partir de 3500 caracteres chineses comuns.
O japonês é gerado aleatoriamente a partir de uma lista de letras de https://www.uta-net.com.
O coreano é gerado aleatoriamente a partir de seu alfabeto.

Todo o texto também é misturado com texto em inglês para simular dados do mundo real.

Passo a passo da preparação de dados

Faça o download do pacote de fontes CJK e extrai -o para o diretório dataset/fonts .
Prepare os dados em segundo plano e coloque -os no diretório dataset/pixivimages .
Execute o script seguinte para limpar os nomes dos arquivos
```
python dataset_filename_preprocess.py
```

Passo a passo do script de geração

Agora a preparação está completa. O comando a seguir pode ser usado para gerar o conjunto de dados:

python font_ds_generate_script.py 1 1

Observe que o comando é seguido por dois parâmetros. O segundo é dividir a tarefa em várias partições, e a primeira é o índice da tarefa particionada a ser executada. Por exemplo, se você deseja executar a tarefa em 4 partições, poderá executar os seguintes comandos em paralelo para acelerar o processo:

python font_ds_generate_script.py 1 4
python font_ds_generate_script.py 2 4
python font_ds_generate_script.py 3 4
python font_ds_generate_script.py 4 4

O conjunto de dados gerado será salvo no diretório dataset/font_img .

Observe que batch_generate_script_cmd_32.bat e batch_generate_script_cmd_64.bat são scripts em lote para Windows que podem ser usados para gerar o conjunto de dados em paralelo com 32 partições e 64 partições.

Verificação final

Como a tarefa pode ser encerrada inesperadamente ou deliberadamente pelo usuário. O script possui um mecanismo de armazenamento em cache para evitar a re-geração da mesma imagem.

Nesse caso, o script pode não ser capaz de detectar a corrupção no cache (pode ser causada pelo término ao escrever em arquivos) durante essa tarefa, portanto, também fornecemos um script que verifica o conjunto de dados gerado e removendo as imagens e rótulos corrompidos.

python font_ds_detect_broken.py

Depois de executar o script, você pode executar executar o script de geração para preencher os orifícios dos arquivos corrompidos removidos.

(Opcional) Linux Cluster Generation Throughthrough

Se você deseja executar o script de geração em clusters Linux, também fornecemos o Script de configuração do ambiente linux_venv_setup.sh .

O pré-requisito é que você tem um cluster Linux com python3-venv instalado e python3 está disponível no caminho.

Para configurar o ambiente, execute o seguinte comando:

./linux_venv_setup.sh

O script criará um ambiente virtual no diretório venv e instalará todos os pacotes necessários. O script é necessário na maioria dos casos, pois o script também instalará libraqm necessário para a renderização de texto do PIL e geralmente não é instalado por padrão na maioria das distribuições do servidor Linux.

Após a configuração do ambiente, você pode compilar um agendador de tarefas para implantar a tarefa de geração em paralelo.

A idéia principal é semelhante ao uso direto do script, exceto que aqui aceitamos três parâmetros,

TOTAL_MISSION : o número total de partições da tarefa
MIN_MISSION : o índice de partição mínima da tarefa para executar
MAX_MISSION : o índice de partição máxima da tarefa para executar

e o comando de compilação é o seguinte:

gcc -D MIN_MISSION= < MIN_MISSION > 
    -D MAX_MISSION= < MAX_MISSION > 
    -D TOTAL_MISSION= < TOTAL_MISSION > 
    batch_generate_script_linux.c 
    -o < object-file-name > .out

Por exemplo, se você deseja executar a tarefa em 64 partições e deseja espalhar o trabalho em 4 máquinas, você pode compilar o seguinte comando em cada máquina:

 # Machine 1
gcc -D MIN_MISSION=1 
    -D MAX_MISSION=16 
    -D TOTAL_MISSION=64 
    batch_generate_script_linux.c 
    -o mission-1-16.out
# Machine 2
gcc -D MIN_MISSION=17 
    -D MAX_MISSION=32 
    -D TOTAL_MISSION=64 
    batch_generate_script_linux.c 
    -o mission-17-32.out
# Machine 3
gcc -D MIN_MISSION=33 
    -D MAX_MISSION=48 
    -D TOTAL_MISSION=64 
    batch_generate_script_linux.c 
    -o mission-33-48.out
# Machine 4
gcc -D MIN_MISSION=49 
    -D MAX_MISSION=64 
    -D TOTAL_MISSION=64 
    batch_generate_script_linux.c 
    -o mission-49-64.out

Em seguida, você pode executar o arquivo de objeto compilado em cada máquina para iniciar a tarefa de geração.

./mission-1-16.out # Machine 1
./mission-17-32.out # Machine 2
./mission-33-48.out # Machine 3
./mission-49-64.out # Machine 4

Há também outro script auxiliar para verificar o progresso da tarefa de geração. Pode ser usado como seguinte:

python font_ds_stat.py

Disc Informações do conjunto de dados

A geração é limitada à CPU e a velocidade de geração depende altamente dependente do desempenho da CPU. De fato, o trabalho em si é um problema de engenharia.

Algumas fontes são problemáticas durante o processo de geração. O script possui uma lista de exclusão manual em config/fonts.yml e também suporta detecção de fontes não qualificada em tempo real. O script pulará automaticamente as fontes problemáticas e as registrará para treinamento de modelos futuros.

Treinamento modelo

Tenha o conjunto de dados pronto no diretório dataset , você pode começar a treinar o modelo. Observe que você pode ter mais de uma pasta do conjunto de dados e o script o mesclará automaticamente, desde que você forneça o caminho para a pasta por argumentos da linha de comando.

$ python train.py -h
usage: train.py [-h] [-d [DEVICES ...]] [-b SINGLE_BATCH_SIZE] [-c CHECKPOINT] [-m {resnet18,resnet34,resnet50,resnet101,deepfont}] [-p] [-i] [-a {v1,v2,v3}]
                [-l LR] [-s [DATASETS ...]] [-n MODEL_NAME] [-f] [-z SIZE] [-t {medium,high,heighest}] [-r]

optional arguments:
  -h , --help            show this help message and exit
  -d [DEVICES ...], --devices [DEVICES ...]
                        GPU devices to use (default: [0])
  -b SINGLE_BATCH_SIZE, --single-batch-size SINGLE_BATCH_SIZE
                        Batch size of single device (default: 64)
  -c CHECKPOINT, --checkpoint CHECKPOINT
                        Trainer checkpoint path (default: None)
  -m {resnet18,resnet34,resnet50,resnet101,deepfont}, --model {resnet18,resnet34,resnet50,resnet101,deepfont}
                        Model to use (default: resnet18)
  -p , --pretrained      Use pretrained model for ResNet (default: False)
  -i, --crop-roi-bbox   Crop ROI bounding box (default: False)
  -a {v1,v2,v3}, --augmentation {v1,v2,v3}
                        Augmentation strategy to use (default: None)
  -l LR, --lr LR        Learning rate (default: 0.0001)
  -s [DATASETS ...], --datasets [DATASETS ...]
                        Datasets paths, seperated by space (default: [ ' ./dataset/font_img ' ])
  -n MODEL_NAME, --model-name MODEL_NAME
                        Model name (default: current tag)
  -f , --font-classification-only
                        Font classification only (default: False)
  -z SIZE, --size SIZE  Model feature image input size (default: 512)
  -t {medium,high,heighest}, --tensor-core {medium,high,heighest}
                        Tensor core precision (default: high)
  -r , --preserve-aspect-ratio-by-random-crop
                        Preserve aspect ratio (default: False)

Resultados do experimento de classificação de fonte

Em nosso conjunto de dados sintetizado,

Espinha dorsal	Dados Aug	Pré -terenciado	Cortar Texto Bbox	Preservar Aspecto Razão	Saída Norma	Tamanho de entrada	Hiper Param	Accur	Comprometer-se	Conjunto de dados	Precisão
DeepFont	✔️*		✅		Sigmóide	105x105	I ¹	[Não posso conversar]	665559f	I ⁵	bfloat16_3x
DeepFont	✔️*		✅		Sigmóide	105x105	Iv ⁴	[Não posso conversar]	665559f	EU	bfloat16_3x
Resnet-18					Sigmóide	512x512	EU	18,58%	5C43F60	EU	Float32
Resnet-18					Sigmóide	512x512	Ii ²	14,39%	5A85FD3	EU	bfloat16_3x
Resnet-18					Tanh	512x512	Ii	16,24%	FF82FE6	EU	bfloat16_3x
Resnet-18	✅* ⁸				Tanh	512x512	Ii	27,71%	A976004	EU	bfloat16_3x
Resnet-18	✅*				Tanh	512x512	EU	29,95%	8364103	EU	bfloat16_3x
Resnet-18	✅*				Sigmóide	512x512	EU	29,37% [parada antecipada]	8D2E833	EU	bfloat16_3x
Resnet-18	✅*				Sigmóide	416x416	EU	[Tendência mais baixa]	D5A3215	EU	bfloat16_3x
Resnet-18	✅*				Sigmóide	320x320	EU	[Tendência mais baixa]	AFCDD80	EU	bfloat16_3x
Resnet-18	✅*				Sigmóide	224x224	EU	[Tendência mais baixa]	8b9de80	EU	bfloat16_3x
Resnet-34	✅*				Sigmóide	512x512	EU	32,03%	912D566	EU	bfloat16_3x
Resnet-50	✅*				Sigmóide	512x512	EU	34,21%	E980B66	EU	bfloat16_3x
Resnet-18	✅*	✅			Sigmóide	512x512	EU	31,24%	416C7BB	EU	bfloat16_3x
Resnet-18	✅*	✅	✅		Sigmóide	512x512	EU	34,69%	855E240	EU	bfloat16_3x
Resnet-18	✔️* ⁹	✅	✅		Sigmóide	512x512	EU	38,32%	1750035	EU	bfloat16_3x
Resnet-18	✔️*	✅	✅		Sigmóide	512x512	Iii ³	38,87%	0693434	EU	bfloat16_3x
Resnet-50	✔️*	✅	✅		Sigmóide	512x512	Iii	48,99%	BC0F7FC	Ii ⁶	bfloat16_3x
Resnet-50	✔️	✅	✅		Sigmóide	512x512	Iii	48,45%	0F071A5	Ii	bfloat16_3x
Resnet-50	✔️	✅	✅	✅ ¹¹	Sigmóide	512x512	Iii	46,12%	0F071A5	Ii	BFLOAT16
Resnet-50	❕ ¹⁰	✅	✅		Sigmóide	512x512	Iii	43,86%	0F071A5	Ii	BFLOAT16
Resnet-50	❕	✅	✅	✅	Sigmóide	512x512	Iii	41,35%	0F071A5	Ii	BFLOAT16

* Bug na implementação
¹ learning rate = 0.0001, lambda = (2, 0.5, 1)
² learning rate = 0.00005, lambda = (4, 0.5, 1)
³ learning rate = 0.001, lambda = (2, 0.5, 1)
⁴ learning rate = 0.01, lambda = (2, 0.5, 1)
⁵ Versão inicial do conjunto de dados sintetizado
⁶ Diretor de dados sintetizados dobrados (2x)
⁷ Conjunto de dados sintetizados quádruplos (4x)
⁸ Aumentação de dados v1: Jitter de cor + colheita aleatória [81%-100%]
⁹ Dados Aumentação V2: Jitter de cor + Crop Random [30%-130%] + Blurs gaussiano aleatório + ruído gaussiano aleatório + rotação aleatória [-15 °, 15 °]
¹⁰ Dados Aumentação V3: Jitter de cor + Cultura aleatória [30%-130%] + Bluras gaussianas aleatórias + ruído gaussiano aleatório + rotação aleatória [-15 °, 15 °] + Flip horizontal aleatório + amostra aleatória [1, 2]
¹¹ Preserve a proporção de aspecto por cultivo aleatório

Modelos pré -teremam

Disponível em: https://huggingface.co/gyrojeff/yuzumarker.fontdetection/tree/main

Observe que, como eu treinei tudo no pytorch 2.0 com torch.compile , se você quiser usar o modelo pré -treinado, precisará instalar o Pytorch 2.0 e compilá -lo com torch.compile como no demo.py

Implantação de demonstração (Método 1)

Para implantar a demonstração, você precisaria de todo o conjunto de dados de fonte em ./dataset/fonts ou um arquivo de cache indicando fontes de modelo chamado font_demo_cache.bin . Isso será lançado posteriormente como recurso.

Para implantar, primeiro execute o script a seguir para gerar a imagem da fonte de demonstração (se você tiver o conjunto de dados das fontes):

python generate_font_sample_image.py

Em seguida, execute o script a seguir para iniciar o servidor de demonstração:

$ python demo.py -h
usage: demo.py [-h] [-d DEVICE] [-c CHECKPOINT] [-m {resnet18,resnet34,resnet50,resnet101,deepfont}] [-f] [-z SIZE] [-s] [-p PORT] [-a ADDRESS]

optional arguments:
  -h, --help            show this help message and exit
  -d DEVICE, --device DEVICE
                        GPU devices to use (default: 0), -1 for CPU
  -c CHECKPOINT, --checkpoint CHECKPOINT
                        Trainer checkpoint path (default: None). Use link as huggingface:// < user > / < repo > / < file > for huggingface.co models, currently only supports model file in the root
                        directory.
  -m {resnet18,resnet34,resnet50,resnet101,deepfont}, --model {resnet18,resnet34,resnet50,resnet101,deepfont}
                        Model to use (default: resnet18)
  -f, --font-classification-only
                        Font classification only (default: False)
  -z SIZE, --size SIZE  Model feature image input size (default: 512)
  -s, --share           Get public link via Gradio (default: False)
  -p PORT, --port PORT  Port to use for Gradio (default: 7860)
  -a ADDRESS, --address ADDRESS
                        Address to use for Gradio (default: 127.0.0.1)

Implantação de demonstração (Método 2)

Se o Docker estiver disponível em sua máquina, você poderá implantar diretamente pelo Docker como eu fiz o espaço do Hugging Space.

Você pode seguir o argumento da linha de comando fornecido na última seção para alterar a última linha do Dockerfile para acomodar suas necessidades.

Construa a imagem do Docker:

docker build -t yuzumarker.fontdetection .

Execute a imagem do Docker:

docker run -it -p 7860:7860 yuzumarker.fontdetection

Demonstração online

O projeto também é implantado no Hugging Space: https://huggingface.co/spaces/gyrojeff/yuzumarker.fontdetecção

Trabalhos e recursos relacionados

DeepFont: Identifique sua fonte de uma imagem: https://arxiv.org/abs/1507.03196
Identificação e recomendações de fontes: https://mangahelpers.com/forum/threads/font-identification-and-recommendations.35672/
Detecção de texto sem restrições no mangá: um novo conjunto de dados e linha de base: https://arxiv.org/pdf/2009.04042.pdf
SwordNet: Rede de Reconhecimento de Estilo da Fonte de Personagem Chinesa: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9682683

História da estrela

Citação

Se você usar este trabalho, cite da seguinte maneira. Obrigado.

 @misc{qin2023yuzumarkerfont,
  author       = {Haoyun Qin},
  title        = {YuzuMarker.FontDetection},
  year         = {2023},
  url          = {https://github.com/JeffersonQin/YuzuMarker.FontDetection},
  note         = {GitHub repository}
}

Expandir