인공 지능 기술의 빠른 개발로 개발자와 연구 기관은 높은 컴퓨팅 비용, 대기 시간 문제 및 진정으로 유연한 오픈 소스 모델의 부족을 포함하여 많은 어려움에 직면 해 있습니다. 이러한 문제는 기술 발전을 제한 할뿐만 아니라 실제 응용 분야에서 많은 기존 솔루션을 홍보하기가 어렵습니다. 특히 효율적인 컴퓨팅 및 낮은 대기 시간이 필요한 시나리오에서 기존 모델은 값 비싼 클라우드 인프라에 의존하거나 크기 때문에 로컬 장치에서 실행할 수없는 경향이 있습니다. 따라서 시장에는 효율적으로 작동하고 유연 할 수있는 새로운 모델이 시급히 필요합니다.
이 수요에 대처하기 위해 REKA AI는 21 억 개의 매개 변수로 처음부터 구축 된 추론 모델 인 REKA Flash3를 시작했습니다. 이 모델의 설계 목표는 일반적인 대화, 코딩 지원, 교육 후속 조치 및 기능 통화를 포함한 다양한 응용 시나리오를 지원하는 것입니다. REKA Flash3의 훈련 프로세스는 공개 데이터 세트와 합성 데이터 세트를 결합하며, 신중한 교육 튜닝 및 강화 Le-Out (RLO) 방법을 통해 강화 학습이 수행됩니다. 이 교육 방법을 사용하면 모델이 기능과 효율성 사이의 균형을 맞추고 많은 유사한 모델 중에서 눈에 띄게됩니다.
기술적 인 수준에서 REKA Flash3에는 유연성과 리소스 효율성이 뛰어난 몇 가지 혁신적인 기능이 있습니다. 첫째,이 모델은 최대 32k 토큰의 컨텍스트 길이를 처리 할 수 있으므로 시스템에 과부하하지 않고 더 긴 문서와 복잡한 작업을 쉽게 처리 할 수 있습니다. 둘째, REKA Flash3는 특정 <추론> 태그를 통해 "예산 필수"메커니즘을 소개합니다. 사용자는 모델의 사고 프로세스 단계를 제한하여 계산 간접비를 증가시키지 않으면 서 일관된 성능을 유지할 수 있습니다. 또한이 모델은 39GB (FP16)의 전체 정확도 크기로 장치에 배치에 이상적이며, 이는 4 비트 양자화로 11GB로 추가로 압축 될 수 있습니다. 이러한 유연성으로 인해 로컬로 배포 될 때 REKA Flash3가 더 유동적으로 만들어서 더 크고 리소스 집약적 인 모델보다 유리합니다.
평가 지표 및 성능 데이터로 판단하면 REKA Flash3는 실제 응용 분야에서 잘 수행됩니다. 예를 들어, MMLU-Pro 테스트에서 65.0 점을 얻었고 적당히 수행했지만 웹 검색과 같은 추가 지식 소스와 결합 한 후에는 경쟁력을 과소 평가할 수 없습니다. 또한 REKA Flash3는 다국어 기능에서 잘 수행되어 WMT'23 혜성 테스트에서 83.2 점을 획득하여 영어에 주로 초점을 맞추지 않지만 영어 이외의 입력에 대한 합리적인 지원을 보여주었습니다. 이러한 결과는 QWQ-32B와 같은 동료에 비해 효율적인 매개 변수의 수와 함께 실제 응용 분야에서 그들의 잠재력을 더욱 강조합니다.
요약하면, REKA Flash3는보다 접근 가능한 AI 솔루션을 나타냅니다. 성능과 효율성 사이의 영리한 균형을 통해이 모델은 일반 채팅, 코딩 및 교육 작업을위한 강력하고 유연한 옵션을 제공합니다. 컴팩트 한 디자인, 향상된 32k 토큰 컨텍스트 창 및 혁신적인 예산 필수 메커니즘은 장치 배포 및 저도 애플리케이션을위한 실용적인 옵션입니다. REKA Flash3는 의심 할 여지없이 유능하고 관리 가능한 모델을 찾는 연구원과 개발자에게 흥미로운 토대를 제공합니다.
REKA Flash3에 대한 자세한 내용은 다음 링크를 방문하십시오.
소개 : https://www.reka.ai/news/introducing-reka-flash
모델 : https://huggingface.co/rekaai/reka-flash-3