Text2ImageDescription
1.0.0
프로젝트에는 두 가지 주요 부분이 있습니다.
프로젝트의 이미지 검색 부분은 미리 훈련 된 OpenAi 클립 모델 (https://github.com/openai/clip)을 사용하여 주어진 텍스트 쿼리와 관련된 데이터 세트에서 이미지를 검색합니다. 이 프로젝트에 사용 된 데이터 세트는 Pascal VOC 2012 데이터 세트입니다. 데이터 세트에는 약 3500 개의 이미지가 포함되어 있습니다 (Train + Validation). 클립 모델은 텍스트 쿼리와 데이터 세트의 이미지를 인코딩하는 데 사용됩니다. 텍스트 쿼리와 이미지 사이의 유사성은 코사인 유사성을 사용하여 계산됩니다. 그런 다음 이미지는 유사성 점수에 따라 순위가 매겨지고 상단 K 이미지가 반환됩니다.
프로젝트의 이미지 설명 생성 부분은 미리 훈련 된 미스 트랄 -7b (https://huggingface.co/thebloke/mistral-instral-v0.1-gguf) 모델을 사용하여 입력 쿼리에 대한 설명을 생성합니다.
프로젝트를 실행하려면 아래 단계를 따르십시오.
code.ipynb 실행하십시오 .ipynb Demo 비디오를 확인하려면 Text2imagedEscription 작업을 확인하십시오.
이 프로젝트는 MIT 라이센스에 따라 라이센스가 부여됩니다. 자세한 내용은 라이센스 파일을 참조하십시오.