AGI Papers 다운로드 - AGI Papers 소스 코드 다운로드

AGI Papers

기타 소스코드

1.0.0

다운로드

? 애호가?

llm · nlp
Text2all · all2all
멀티 모달 · 멀티 태스크

_{최신 및 다양한 LLM 관련 논문을 찾아 봅시다. ? ‍♀ 대담추? ‍️ Stargazers}

새로운 논문

MOMA : 양식 인식 전문가의 혼합물과 효율적인 조기 퓨전 사전 훈련
MOVA : 비전 전문가의 혼합물을 멀티 모달 컨텍스트에 적용합니다
상상력, 검색 및 비판을 통해 LLM의 자기 개선을 향해
채팅 벡터 : 새로운 언어로 된 지시 및 모델 정렬을 LLM을 장비하는 간단한 접근
R에서 Q *로 : 언어 모델은 비밀리에 Q- 기능입니다.
Mamba : 선택적 상태 공간을 가진 선형 시간 시퀀스 모델링
PHI-3 기술 보고서 : 휴대 전화에서 현지에서 유능한 언어 모델
DORA : 체중 감량 저급 적응
많은 컨텍스트 학습

2024 년 이전

대형 언어 모델에서인지 시너지 방출 : 다중 페인즈 자체 확장을 통한 작업 해결 에이전트

인간 지능은인지 적 시너지의 개념에 대해 번성하며, 여기서 다양한인지 과정 간의 협업 및 정보 통합은 개별인지 과정에 비해 우수한 결과를 산출합니다. 대형 언어 모델 (LLMS)은 일반적인 작업 해결 에이전트로 유망한 성능을 보여 주었지만 여전히 집중적 인 도메인 지식과 복잡한 추론이 필요한 작업으로 어려움을 겪고 있습니다. 이 작업에서, 우리는 SPP (Solo Performance Prompting)를 제안합니다. SPP (Solo Performance Promping)는 여러 인물과의 다중 회전 자체 청구에 관여하여 단일 LLM을인지 상승 작사로 변환합니다. 인지 적 시너지 주의자는 복잡한 작업의 문제 해결 및 전반적인 성능을 향상시키기 위해 개별 강점과 지식을 결합하여 여러 마음과 협력하는 지능형 에이전트를 말합니다. 작업 입력을 기반으로 다양한 페르소나를 동적으로 식별하고 시뮬레이션함으로써 SPP는 LLM에서인지 적 시너지의 잠재력을 발휘합니다. 우리는 LLM에 여러 개의 세밀한 페르소나를 할당하면 단일 또는 고정 된 수의 페르소나를 사용하는 것과 비교하여 더 나은 문제 해결 능력을 이끌어냅니다. 우리는 Trivia Creative Writing, Codenames Collaborative 및 Logic Grid 퍼즐의 세 가지 도전적인 작업에 대한 SPP를 평가합니다. SPP는 LLM의 추론 능력만을 향상시킨 이전의 작품과는 달리 내부 지식 획득 능력을 효과적으로 이끌고 환각을 줄이며 강력한 추론 능력을 유지합니다. 코드, 데이터 및 프롬프트에서 찾을 수 있습니다 :이 HTTPS URL.

LLM 블렌더 : 쌍별 순위 및 생성 융합을 가진 대형 언어 모델을 앙상블

우리는 LLM (여러 개방 소스 대형 언어 모델)의 다양한 강점을 활용하여 일관되게 우수한 성능을 얻도록 설계된 앙상블 프레임 워크 인 LLM 블렌더를 제시합니다. 당사의 프레임 워크는 두 가지 모듈로 구성됩니다. Pairranker와 Genfuser는 다른 예제에 대한 최적의 LLM이 크게 다를 수 있다는 관찰을 해결합니다. Pairranker는 후보 출력 간의 미묘한 차이를 구별하기 위해 특수 쌍별 비교 방법을 사용합니다. 크로스 텍스트 인코더를 사용하여 우수한 것을 결정하기 위해 입력 텍스트와 후보 쌍을 공동으로 인코딩합니다. 우리의 결과는 Pairranker가 Chatgpt 기반 순위와 가장 높은 상관 관계를 보여줍니다. 그런 다음 Genfuser는 최고 등급 후보자를 병합하여 강점을 활용하고 약점을 완화하여 개선 된 출력을 생성하는 것을 목표로합니다. 대규모 평가를 용이하게하기 위해 Oracle Pairwise 비교를 특징으로하는 여러 명령 데이터 세트의 혼합 인 MixInstruct 인 벤치 마크 데이터 세트 인 MixInstruct를 소개합니다. 우리의 LLM 블렌더는 다양한 메트릭에서 개별 LLM 및 기준선 방법을 훨씬 능가하여 실질적인 성능 차이를 설정합니다.

Leandojo : 검색 된 언어 모델을 사용한 정리

대형 언어 모델 (LLM)은 Lean과 같은 증거 보조원을 사용하여 공식적인 정리를 증명할 수있는 약속을 보여주었습니다. 그러나 개인 코드, 데이터 및 대규모 컴퓨팅 요구 사항으로 인해 기존 방법을 재현하거나 구축하기가 어렵습니다. 이것은 정리 증명을위한 기계 학습 방법에 대한 연구에 상당한 장벽을 만들었습니다. 이 논문은 툴킷, 데이터, 모델 및 벤치 마크로 구성된 Open-Source Lean Playground를 소개하여 이러한 장벽을 제거합니다. Leandojo는 린에서 데이터를 추출하고 프로그래밍 방식으로 교정 환경과의 상호 작용을 가능하게합니다. 여기에는 증거에 구내에 대한 세밀한 구내 주석이 포함되어 있으며, 전제 선택을위한 귀중한 데이터, 즉 정리 증명의 주요 병목 현상을 제공합니다. 이 데이터를 사용하여, 우리는리스 버버 (검색-증거 구속)를 개발합니다 (방대한 수학 라이브러리에서 구내를 선택하기위한 검색으로 증강 된 최초의 LLM 기반 전공. 그것은 저렴하며 GPU 주간 훈련은 단 하나뿐입니다. 우리의 리트리버는 Leandojo의 프로그램 분석 기능을 활용하여 접근 가능한 구내 및 하드 부정적인 예를 식별하여 검색이 훨씬 더 효과적입니다. 또한, 우리는 Lean의 수학 라이브러리에서 추출한 96,962 개의 정리와 증거로 구성된 새로운 벤치 마크를 구성합니다. 그것은 어려운 데이터 분할을 특징으로하여, 전문가가 훈련에 사용되지 않는 새로운 건물에 의존하는 이론으로 일반화 해야하는 도전적인 데이터 분할을 특징으로합니다. 우리는이 벤치 마크를 훈련 및 평가에 사용하고 실험 결과는 비 재조정 기준 및 GPT-4에 대한 억제의 효과를 보여줍니다. 따라서 우리는 독점적 인 데이터 세트없이 첫 번째 오픈 소스 LLM 기반 정리 속담 세트를 제공하고 추가 연구를 용이하게하기 위해 허용 된 MIT 라이센스에 따라 해제합니다.

VIPERGPT : 추론을위한 Python 실행을 통한 시각적 추론

시각적 쿼리에 응답하는 것은 시각적 처리와 추론이 필요한 복잡한 작업입니다. 이 작업에 대한 지배적 인 접근법 인 엔드 투 엔드 모델은 해석 성과 일반화를 제한하는 두 가지를 명시 적으로 구별하지 않습니다. 학습 모듈 식 프로그램은 유망한 대안을 제시하지만 프로그램과 모듈을 동시에 학습하기가 어렵 기 때문에 어려운 것으로 입증되었습니다. 우리는 코드 생성 모델을 활용하여 비전 및 언어 모델을 서브 루틴으로 구성하여 쿼리에 대한 결과를 생성하는 프레임 워크 인 Vipergpt를 소개합니다. VIPERGPT는 제공된 API를 사용하여 사용 가능한 모듈에 액세스하고 나중에 실행되는 Python 코드를 생성하여이를 구성합니다. 이 간단한 접근 방식은 더 이상 교육이 필요하지 않으며 다양한 복잡한 시각적 작업에서 최첨단 결과를 달성합니다.

Longnet : 변압기를 1,000,000,000 토큰으로 스케일링합니다

스케일링 시퀀스 길이는 큰 언어 모델 시대에 중요한 수요가되었습니다. 그러나 기존의 방법은 계산 복잡성 또는 모델 표현성으로 어려움을 겪고 최대 시퀀스 길이가 제한됩니다. 이 작업에서, 우리는 더 짧은 시퀀스에서 성능을 희생하지 않고 서열 길이를 10 억 개 이상의 토큰으로 확장 할 수있는 변압기 변형 인 Longnet을 소개합니다. 구체적으로, 우리는 확장 된주의를 제안하는데, 이는 거리가 커짐에 따라 세심한 분야를 기하 급수적으로 확대합니다. Longnet은 상당한 장점이 있습니다. 1) 선형 계산 복잡성과 토큰 간의 로그 의존성이 있습니다. 2) 매우 긴 시퀀스를위한 분산 트레이너 역할을 할 수 있습니다. 3) 확장 된주의는 기존 변압기 기반 최적화와 원활하게 통합 될 수있는 표준주의를위한 드롭 인 대체입니다. 실험 결과에 따르면 Longnet은 Long-Sectence 모델링 및 일반적인 언어 작업 모두에서 강력한 성능을 산출 함을 보여줍니다. 우리의 작업은 전체 코퍼스 또는 전체 인터넷을 시퀀스로 취급하는 매우 긴 시퀀스를 모델링 할 수있는 새로운 가능성을 열어줍니다.

외국어로서의 이미지 : 모든 비전 및 비전 언어 작업에 대한 사전 조정

언어, 비전 및 멀티 모달 전 사전 조정의 큰 수렴이 떠오르고 있습니다. 이 작업에서 우리는 일반적인 목적 멀티 모달 파운데이션 모델 BEIT-3을 소개하여 비전 및 비전 언어 작업 모두에서 최첨단 전이 성과를 달성합니다. 구체적으로, 우리는 백본 아키텍처, 사전 조정 작업 및 모델 스케일링의 세 가지 측면에서 큰 수렴을 발전시킵니다. 우리는 일반적인 목적 모델링을위한 멀티 웨이 변압기를 소개합니다. 여기서 모듈 식 아키텍처는 깊은 융합 및 양식 별 인코딩을 모두 가능하게합니다. 공유 백본을 기반으로, 우리는 이미지 (imglish), 텍스트 (영어) 및 이미지 텍스트 쌍 ( "병렬 문장")에서 마스킹 된 "언어"모델링을 통일 된 방식으로 수행합니다. 실험 결과 BEIT-3은 객체 감지 (COCO), 시맨틱 세분화 (ADE20K), 이미지 분류 (이미지 분류), 시각적 추론 (NLVR2), 시각적 질문 응답 (VQAV2), 이미지 캡션 (CoCO) 및 크로스 모달 리트리브 (Flickr30, Coco)에서 최첨단 성능을 얻는 것으로 나타났습니다.

? 고릴라 : 대규모 API와 연결된 대형 언어 모델

대형 언어 모델 (LLM)은 최근 수학적 추론 및 프로그램 합성과 같은 다양한 작업에서 모델이 뛰어나면서 최근 인상적인 발전을 보았습니다. 그러나 API 통화를 통해 효과적으로 도구를 사용할 수있는 잠재력은 여전히 충만하지 않습니다. 이는 GPT-4와 같은 오늘날의 최첨단 LLM에도 도전적인 작업입니다. 크게 정확한 입력 인수를 생성 할 수없고 API 호출의 잘못된 사용을 환각시키는 경향이 크기 때문입니다. 우리는 API 통화 작성에 대한 GPT-4의 성능을 능가하는 Finetuned Llama 기반 모델 인 Gorilla를 발표합니다. 문서 리트리버와 결합하면 Gorilla는 테스트 시간 문서 변경에 적응할 수있는 강력한 기능을 보여 주므로 유연한 사용자 업데이트 또는 버전 변경이 가능합니다. 또한 LLM을 직접 송금 할 때 일반적으로 발생하는 환각 문제를 실질적으로 완화시킵니다. 모델의 능력을 평가하기 위해 Huggingface, Torchhub 및 Tensorhub API로 구성된 포괄적 인 데이터 세트 인 Apibench를 소개합니다. 검색 시스템과 Gorilla와의 성공적인 통합은 LLM이 도구를보다 정확하게 사용할 수있는 잠재력을 보여주고, 자주 업데이트되는 문서를 유지하며, 결과적으로 출력의 신뢰성과 적용 가능성을 증가시킵니다. 고릴라 모델과 코드는 https://github.com/shishirpatil/gorilla에서 구입할 수 있습니다.

÷? 카멜레온 : GPT-4를 사용한 플러그 앤 플레이 구성 추론

LLM (Lange Language Models)은 출현 능력을 가진 다양한 자연어 처리 작업에서 놀라운 진전을 달성했습니다. 그러나 최신 정보에 액세스 할 수 없거나 외부 도구를 활용하거나 정확한 수학적 추론을 수행 할 수없는 것과 같은 고유 한 한계에 직면 해 있습니다. 이 논문에서는 이러한 과제를 해결하기 위해 LLM을 강화하는 플러그 앤 플레이 구성 추론 프레임 워크 인 Chameleon을 소개합니다. 카멜레온은 LLM 모델, 상용 비전 모델, 웹 검색 엔진, 파이썬 기능 및 사용자 관심사에 맞게 조정 된 규칙 기반 모듈을 포함한 다양한 도구를 작성하는 프로그램을 종합합니다. 자연 언어 플래너로서 LLM 위에 구축 된 Chameleon은 최종 응답을 생성하기 위해 작성하고 실행할 수있는 적절한 일련의 도구를 유추합니다. 우리는 ScienceQA와 Tabmwp의 두 가지 작업에 대해 카멜레온의 적응성과 효과를 보여줍니다. 특히, GPT-4를 가진 카멜레온은 ScienceQA에서 86.54% 정확도를 달성하여 가장 출판 된 소수의 소수 모델을 11.37%로 크게 향상시켰다. Chameleon은 기본 LLM으로 GPT-4를 사용하여 최첨단 모델에 비해 17.8% 증가하여 TABMWP의 전반적인 정확도를 98.78%로 이끌었습니다. 추가 연구에 따르면 GPT-4를 플래너로 사용하는 것은보다 일관되고 합리적인 도구 선택을 보여 주며 Chatgpt와 같은 다른 LLM에 비해 지침을 고려할 때 잠재적 인 제약을 유추 할 수 있다고합니다.

LLAMA-ADAPTER v2 : 매개 변수 효율적인 시각적 명령 모델

대형 언어 모델 (LLM)을 효율적으로 전환하는 방법은 최근에 인기있는 연구 방향으로, 다중 모달 추론을위한 LLM을 훈련시키는 방법은 여전히 덜 탐구됩니다. 최근의 LLAMA-ADAPTER는 LLM으로 시각적 입력을 처리 할 수있는 잠재력을 보여 주지만 여전히 개방형 시각 지침 및 GPT-4 뒤의 지연에 대해 일반화 할 수는 없습니다. 이 논문에서는 매개 변수 효율적인 시각적 지침 모델 인 Llama-Adapter v2를 제시합니다. 구체적으로, 우리는 먼저 학습 가능한 매개 변수 (예 : Norm, Bias 및 Scale)를 잠금 해제하여 Llama-Adapter를 향상시켜 어댑터 외에 LLAMA 모델 전체에 명령을 따르는 능력을 배포합니다. 둘째, 우리는 초기 LLM 층에만 시각적 토큰을 공급하기위한 초기 퓨전 전략을 제안하여 더 나은 시각적 지식 통합에 기여합니다. 셋째, 이미지-텍스트 쌍 및 명령어 팔로우링 데이터의 공동 훈련 패러다임은 학습 가능한 매개 변수의 분리 그룹을 최적화함으로써 도입됩니다. 이 전략은 이미지 텍스트 정렬의 두 가지 작업과 명령에 따른 간섭을 효과적으로 완화시키고 소규모 이미지 텍스트 및 명령 데이터 세트만으로 강력한 멀티 모달 추론을 달성합니다. 추론하는 동안, 우리는 추가 전문가 모델 (예 : 캡션/OCR 시스템)을 LLAMA-ADAPTER에 통합하여 교육 비용을 발생시키지 않고 이미지 이해 기능을 더욱 향상시킵니다. 원래의 Llama-Adapter와 비교할 때 Llama-Adapter V2는 LLAMA보다 14m 매개 변수를 도입하여 개방형 멀티 모달 지침을 수행 할 수 있습니다. 새로 설계된 프레임 워크는 또한 더 강력한 언어 전용 교육 기능을 보여주고 채팅 상호 작용에도 탁월합니다. 우리의 코드와 모델은이 HTTPS URL에서 사용할 수 있습니다.

생성제 : 인간 행동의 대화식 시뮬 라 크라

인간 행동의 믿을만한 프록시는 몰입 형 환경에서 대인 관계 커뮤니케이션을위한 프로토 타이핑 도구에 이르기까지 리허설 공간에 이르는 대화식 응용 프로그램을 강화할 수 있습니다. 이 논문에서, 우리는 믿을 수있는 인간 행동을 시뮬레이션하는 연합 소프트웨어 에이전트 인 생성 에이전트를 소개합니다. 생성 요원이 일어나서 아침 식사를 요리하고 일하러 가십시오. 작가는 글을 쓰는 동안 아티스트는 페인트 칠합니다. 그들은 의견을 형성하고 서로를 알아 차리고 대화를 시작합니다. 그들은 다음날 계획을 세울 때 과거를 기억하고 반영합니다. 생성 에이전트를 가능하게하기 위해, 우리는 대형 언어 모델을 확장하여 자연 언어를 사용하여 에이전트의 경험에 대한 완전한 기록을 저장하고 시간이 지남에 따라 이러한 기억을 더 높은 수준의 반사로 합성하고 행동을 계획하기 위해 역동적으로 검색하는 아키텍처를 설명합니다. 우리는 생성 에이전트를 인스턴스화하여 SIMS에서 영감을 얻은 대화식 샌드 박스 환경을 채우기 위해 최종 사용자가 자연 언어를 사용하여 25 개의 에이전트와 상호 작용할 수있는 SIMS에서 영감을 얻은 대화식 샌드 박스 환경을 채 웁니다. 평가에서,이 생성 에이전트는 믿을 수있는 개인적이고 출현하는 사회적 행동을 생성합니다. 예를 들어, 한 명의 에이전트가 발렌타인 데이 파티를 던지기를 원한다는 단일 사용자 지정 개념으로 시작하여 에이전트는 다음 이틀 동안 파티에 자율적으로 초대를 전파하고, 새로운 지인을 만들고, 파티를 마시고, 파티를 조정하여 올바른시기에 모여 들었습니다. 우리는 절제를 통해 에이전트 아키텍처의 구성 요소 (관찰, 계획 및 반사)가 대리인 행동의 믿음에 비판적으로 기여한다는 것을 보여줍니다. 이 작품은 계산, 대화식 에이전트로 대형 언어 모델을 융합시킴으로써 인간 행동의 믿을 수있는 시뮬레이션을 가능하게하기위한 건축 및 상호 작용 패턴을 소개합니다.

반사 : 역동적 인 기억과 자기 반성을 가진 자율 제

LLM (Login Language Model)의 의사 결정의 최근 발전은 다양한 벤치 마크에서 인상적인 성능을 보여주었습니다. 그러나 이러한 최첨단 접근 방식은 일반적으로 정의 된 상태 공간에 대한 내부 모델 미세 조정, 외부 모델 미세 조정 또는 정책 최적화가 필요합니다. 이러한 방법을 구현하면 고품질 교육 데이터의 부족 또는 잘 정의 된 상태 공간이 부족하여 어려운 점이 입증 될 수 있습니다. 더욱이,이 에이전트는 인간의 의사 결정 과정에 내재 된 특정 자질, 특히 실수로부터 배우는 능력을 가지고 있지 않습니다. 자기 반성을 통해 인간은 시행 착오 과정을 통해 새로운 문제를 효율적으로 해결할 수 있습니다. 최근의 연구를 바탕으로, 우리는 기존 추론 추적 및 작업 별 행동 선택 능력을 향상시키기 위해 역동적 인 메모리 및 자기 반성 기능을 갖춘 에이전트를 부여하는 접근법 인 반사를 제안합니다. 전체 자동화를 달성하기 위해, 우리는 에이전트가 환각 인스턴스를 정확히 지적하고, 행동 순서의 반복을 피하고, 일부 환경에서 주어진 환경의 내부 메모리 맵을 구성 할 수 있도록 간단하지만 효과적인 휴리스틱을 소개합니다. 우리의 접근 방식을 평가하기 위해, 우리는 Alfworld 환경에서 의사 결정 작업을 완료하는 에이전트의 능력과 Hotpotqa 환경에서 지식 집약적 인 검색 기반 질문 및 응답 작업을 평가합니다. 우리는 각각 97%와 51%의 성공률을 관찰하고, 자기 반성의 출현 속성에 대한 논의를 제공합니다.

자기 반주 : 자기 피드백으로 반복적 인 정제

사람들과 마찬가지로 LLM은 첫 번째 시도 (예 : 요약, 답변, 설명)에서 주어진 세대 문제에 대한 최상의 텍스트를 항상 생성하지는 않습니다. 사람들이 텍스트를 개선하는 것처럼, 우리는 반복적 인 피드백과 개선을 통해 LLM의 초기 출력을 유사하게 개선하기위한 프레임 워크 인 Self-Refine을 소개합니다. 주요 아이디어는 LLM을 사용하여 출력을 생성 한 다음 동일한 모델이 자체 출력에 대한 다중 관점 피드백을 제공하는 것입니다. 마지막으로, 동일한 모델은 자체 피드백이 주어지면 이전에 생성 된 출력을 개선합니다. 이전 작업과 달리, 우리의 반복 정제 프레임 워크는 감독 된 교육 데이터 나 강화 학습이 필요하지 않으며 단일 LLM과 함께 작동합니다. 우리는 검토 재 작성에서 수학 추론에 이르기까지 7 가지 다양한 작업을 실험하여 접근 방식이 직접 생성보다 우수하다는 것을 보여줍니다. 모든 작업에서,자가 반응으로 생성 된 출력은 인간과 GPT-3.5 및 GPT-4로 직접 생성 된 것보다 자동 메트릭에 의해 선호되며, 작업에 대한 절대 20%만큼 평균적으로 향상됩니다.

Hugginggpt : Huggingface에서 Chatgpt 및 친구들과 AI 작업 해결

다른 도메인과 양식으로 복잡한 AI 작업을 해결하는 것은 고급 인공 지능을위한 핵심 단계입니다. 다양한 도메인과 양식에 사용할 수있는 풍부한 AI 모델이 있지만 복잡한 AI 작업을 처리 할 수 없습니다. LLM (Lange Language Model)을 고려할 때 언어 이해, 생성, 상호 작용 및 추론에 탁월한 능력을 보여 주었을 때, 우리는 LLM이 복잡한 AI 작업을 해결하기 위해 기존 AI 모델을 관리하는 컨트롤러 역할을 할 수 있으며 언어는이를 강화하기위한 일반적인 인터페이스가 될 수 있다고 주장합니다. 이 철학을 바탕으로 우리는 LLM (예 : ChatGpt)을 활용하여 기계 학습 커뮤니티 (예 : Hugging Face)에 다양한 AI 모델을 연결하여 AI 작업을 해결하는 프레임 워크 인 HuggingGpt를 제시합니다. 구체적으로, 우리는 ChatGpt를 사용하여 사용자 요청을받을 때 작업 계획을 수행하고, 포옹에 사용 가능한 기능 설명에 따라 모델을 선택하고, 선택한 AI 모델로 각 하위 작업을 실행하고, 실행 결과에 따라 응답을 요약합니다. HuggingGpt는 얼굴에 chatgpt 및 풍부한 AI 모델의 강력한 언어 기능을 활용함으로써 다양한 양식과 영역에서 수많은 정교한 AI 작업을 다룰 수 있으며 언어, 비전, 언어 및 기타 도전적인 작업에서 인상적인 결과를 얻을 수 있으며, 이는 고급 인공 지능에 대한 새로운 방법을 포장합니다.

Auto-Gpt : 자율 GPT-4 실험

Auto-Gpt는 GPT-4 언어 모델의 기능을 보여주는 실험적인 오픈 소스 응용 프로그램입니다. GPT-4에 의해 주도되는이 프로그램은 LLM "생각"을 함께 체인하여 설정 한 목표를 자율적으로 달성합니다. 자율적으로 실행되는 GPT-4의 첫 번째 예 중 하나 인 Auto-Gpt는 AI와 함께 가능한 것의 경계를 푸시합니다.

Frugalgpt : 비용을 줄이고 성능 향상으로 큰 언어 모델을 사용하는 방법

사용자가 수수료로 쿼리 할 수있는 LLM (Locky Lange Language Model)이 급격히 증가하고 있습니다. 우리는 인기있는 LLM API (예 : GPT-4, Chatgpt, J1-Jumbo 쿼리와 관련된 비용을 검토하고,이 모델에는 이질적인 가격 구조가 있으며 두 배의 순서가 다를 수있는 수수료가 있음을 발견했습니다. 특히, 쿼리와 텍스트의 큰 컬렉션에서 LLM을 사용하는 데 비용이 많이들 수 있습니다. 이에 의해 동기를 부여하면서, 우리는 사용자가 LLM 사용과 관련된 추론 비용을 줄이기 위해 이용할 수있는 세 가지 유형의 전략을 설명하고 논의합니다. 1) 프롬프트 적응, 2) LLM 근사 및 3) LLM 캐스케이드. 예를 들어, 우리는 LLM 캐스케이드의 간단하면서도 유연한 인스턴스화 인 Frugalgpt를 제안하여 비용을 줄이고 정확도를 향상시키기 위해 다른 쿼리에 사용할 LLM의 조합을 배우는 것을 제안합니다. 우리의 실험에 따르면 Frugalgpt는 최대 98%의 비용 절감과 동일한 비용으로 최대 98%의 비용 절감 또는 GPT-4의 정확도를 4% 향상시킬 수있는 최고의 개별 LLM (예 : GPT-4)의 성능과 일치 할 수 있음을 보여줍니다. 여기에 제시된 아이디어와 발견은 LLM을 지속 가능하고 효율적으로 사용하기위한 토대를 마련했습니다.

Leandojo : 검색 된 언어 모델을 사용한 정리

대형 언어 모델 (LLM)은 Lean과 같은 증거 보조원을 사용하여 공식적인 정리를 증명할 수있는 약속을 보여주었습니다. 그러나 개인 코드, 데이터 및 대규모 컴퓨팅 요구 사항으로 인해 기존 방법을 재현하거나 구축하기가 어렵습니다. 이것은 정리 증명을위한 기계 학습 방법에 대한 연구에 상당한 장벽을 만들었습니다. 이 논문은 툴킷, 데이터, 모델 및 벤치 마크로 구성된 Open-Source Lean Playground를 소개하여 이러한 장벽을 제거합니다. Leandojo는 린에서 데이터를 추출하고 프로그래밍 방식으로 교정 환경과의 상호 작용을 가능하게합니다. 여기에는 증거에 구내에 대한 세밀한 구내 주석이 포함되어 있으며, 전제 선택을위한 귀중한 데이터, 즉 정리 증명의 주요 병목 현상을 제공합니다. 이 데이터를 사용하여, 우리는리스 버버 (검색-증거 구속)를 개발합니다 (방대한 수학 라이브러리에서 구내를 선택하기위한 검색으로 증강 된 최초의 LLM 기반 전공. 그것은 저렴하며 GPU 주간 훈련은 단 하나뿐입니다. 우리의 리트리버는 Leandojo의 프로그램 분석 기능을 활용하여 접근 가능한 구내 및 하드 부정적인 예를 식별하여 검색이 훨씬 더 효과적입니다. 또한, 우리는 Lean의 수학 라이브러리에서 추출한 96,962 개의 정리와 증거로 구성된 새로운 벤치 마크를 구성합니다. 그것은 어려운 데이터 분할을 특징으로하여, 전문가가 훈련에 사용되지 않는 새로운 건물에 의존하는 이론으로 일반화 해야하는 도전적인 데이터 분할을 특징으로합니다. 우리는이 벤치 마크를 훈련 및 평가에 사용하고 실험 결과는 비 재조정 기준 및 GPT-4에 대한 억제의 효과를 보여줍니다. 따라서 우리는 독점적 인 데이터 세트없이 첫 번째 오픈 소스 LLM 기반 정리 속담 세트를 제공하고 추가 연구를 용이하게하기 위해 허용 된 MIT 라이센스에 따라 해제합니다.

코드 프롬프트의 호기심 많은 사례 탐색

최근의 연구는 자연 언어의 코드와 같은 표현을 갖춘 언어 모델을 촉구하는 것으로 나타났습니다. 그러나 이러한 작업은 모든 자연 언어 작업의 작은 부분 집합만으로 구성됩니다. 우리의 작업에서, 우리는 코드 램프가 일반적으로 언어 모델과 상호 작용하는 선호하는 방법인지 여부에 답하려고합니다. 우리는 세 가지 인기있는 GPT 모델 (Davinci, Code-Davinci-002 및 Text-Davinci-002)에서 코드 및 텍스트 프롬프트를 비교하여 광범위한 작업 (예 : QA, 감정, 요약)에서 코드 프롬프트가 지속적으로 텍스트 프롬프트를 능가하지 않는다는 것을 발견합니다. 또한 코드 프롬프트 스타일은 일부 작업에 대한 성능에 큰 영향을 미치지 만 텍스트 지침에 대한 미세 조정이 코드 프롬프트의 상대적인 성능을 향상 시킨다는 것을 보여줍니다.

언어 모델이 약한 에이전트를 가르 칠 수 있습니까? 교사 설명은 마음의 이론을 통해 학생들을 향상시킵니다

대형 언어 모델 (LLMS)은 예측에 대한 설명을 생성하여 복잡한 추론을 수행합니다. 그러나 설명의 보완적인 목표는 또한 약한 요원을 향상시키는 유용한 지식을 전달하는 것입니다. 따라서 우리는 LLM이 약한 요원을위한 훌륭한 교사를 만드는지 여부를 조사합니다. 특히, 우리는 두 LLM 에이전트 사이의 학생-교사 프레임 워크를 고려하고 교사가 자연 언어 설명에 개입하여 학생의 성과를 향상시켜야하는 경우, 언제, 그리고 어떻게 연구 해야하는지 연구합니다. 커뮤니케이션은 비싸기 때문에 교사가 데이터의 일부에 대한 설명 만 의사 소통 할 수 있도록 예산을 정의하고, 그 후에는 학생이 자체적으로 잘 수행해야합니다. (1) 교사의 시험 시간 개입이 학생 예측을 개선하는 경우, (2) 데이터 포인트를 설명 할 가치가있는 경우 (3) 교사가 학생을 더 잘 가르치기 위해 설명을 개인화 해야하는 방법 및 (4) 교사 설명이 미래의 설명되지 않은 데이터에서 학생의 성과를 향상시키는 경우. 우리는 먼저 교사 LLM이 실제로 학생의 추론에 개입하여 성과를 향상시킬 수 있음을 보여줍니다. 다음으로, 우리는 교사가 학생의 두 개의 샷 정신 모델을 구축하는 마음의 이론 접근법을 제안합니다. 첫 번째 모델은 중재의 유용성을 시뮬레이션하는 중재 함수를 정의 하여이 유틸리티가 가장 높고 예산이 낮을 때 교사가 개입 할 수 있도록합니다. 두 번째 모델을 사용하면 교사는 특정 학생에 대한 설명을 개인화하고 비 개인 교사를 능가 할 수 있습니다. 또한 다중 회전 상호 작용에서 교사 설명이 일반화되고 설명 된 데이터로부터 학습하면 미래의 설명 할 수없는 데이터에서 학생의 성과가 향상됨을 보여줍니다. 마지막으로, 우리는 잘못 정렬 된 교사가 의도적으로 오해의 소지가있어 학생의 성과를 무작위로 낮출 수 있음을 확인합니다.

[Kosmos-2 : 세계 대형 언어 모델 접지]

우리는 MLLM (Multimodal Lange Language Model) 인 Kosmos-2를 소개하여 객체 설명 (예 : 경계 박스)을 인식하는 새로운 기능과 시각 세계에 대한 접지 텍스트를 가능하게합니다. 구체적으로, 우리는 객체 설명이 위치 토큰 시퀀스 인 Markdown, 즉``[텍스트 스팬] (경계 박스) '의 링크로 표현식을 나타냅니다. 멀티 모달 Corpora와 함께, 우리는 모델을 훈련시키기 위해 접지 된 이미지 텍스트 쌍 (그릿이라고 함)의 대규모 데이터를 구성합니다. KOSMOS-2는 MLLM의 기존 기능 (예 : 일반 양식, 지침에 따라 일반적인 양식을 인식하고 텍스트 내 학습을 수행 함) 외에도 접지 기능을 다운 스트림 애플리케이션에 통합합니다. 우리는 (i) 표현 이해력, 구절 접지, (ii) 표현 생성 참조, (iii) 인식 언어 작업, (iv) 언어 이해 및 생성과 같은 멀티 모달 참조와 같은 멀티 모드 접지를 포함하여 광범위한 작업에 대해 Kosmos-2를 평가합니다. 이 작업은 구체화 AI의 개발을위한 토대를 마련하고 언어, 멀티 모달 인식, 행동 및 세계 모델링의 큰 수렴에 대한 빛을 비추는데, 이는 인공 일반 지능을 향한 핵심 단계입니다. 이 HTTPS URL에서 코드 및 사전 처리 된 모델을 사용할 수 있습니다.

Palm 2 기술 보고서

우리는 다국어 및 추론 기능이 우수하고 전임자 Palm보다 컴퓨팅 효율적인 새로운 최첨단 언어 모델 인 Palm 2를 소개합니다. Palm 2는 목표의 혼합을 사용하여 훈련 된 변압기 기반 모델입니다. 영어 및 다국어 언어 및 추론 작업에 대한 광범위한 평가를 통해 Palm 2는 다양한 모델 크기의 다운 스트림 작업에서 품질을 크게 향상 시켰으며 동시에 Palm에 비해 더 빠르고 효율적인 추론을 보여줍니다. 이 개선 된 효율성은 더 넓은 배포를 가능하게하는 동시에보다 자연스러운 상호 작용 속도를 위해 모델이 더 빠르게 반응 할 수 있습니다. Palm 2는 Big-Bench 및 기타 추론 작업에서 Palm보다 큰 개선으로 예시 된 강력한 추론 능력을 보여줍니다. Palm 2는 책임있는 AI 평가 제품군에서 안정적인 성능을 보여 주며, 다른 기능에 대한 추가 오버 헤드 나 영향없이 독성에 대한 추론 시간 제어를 가능하게합니다. 전반적으로 Palm 2는 다양한 작업과 기능에서 최첨단 성과를 달성합니다.

MotionGpt : Finetuned LLM은 일반 목적 모션 생성기입니다

주어진 행동 설명에서 현실적인 인간 운동을 생성하는 것은 디지털 인간의 새로운 요구 사항으로 인해 상당한 발전을 경험했습니다. 최근의 작품은 텍스트 동작 설명에서 직접 움직임을 생성하는 데 인상적인 결과를 얻었지만 종종 실제 디지털 인간 산업에서의 응용을 제한하는 제어 신호의 단일 양식 만 지원합니다. 이 논문은 다중 모드 신호를 대형 언어 모델 (LLM)의 특수 입력 토큰으로 처리하여 연속적인 인간 운동을 생성하기 위해 멀티 모달 제어 신호 (예 : 텍스트 및 단일 프레임 포즈)를 사용할 수있는 모션 일반 목적 발전기 (MotionGPT)를 제시합니다. 구체적으로, 먼저 멀티 모달 제어 신호를 개별 코드로 정량화 한 다음 통합 된 프롬프트 명령으로 LLMS에 모션 답변을 생성하도록 요청합니다. MotionGpt는 0.4%의 LLM 매개 변수를 조정하여 멀티 모달 제어 신호를 가진 통합 인간 모션 생성 모델을 보여줍니다. 우리가 아는 한, MotionGpt는 멀티 모달 제어 신호에 의해 인간 운동을 생성하는 첫 번째 방법이며,이 새로운 방향을 밝힐 수 있기를 바랍니다. 코드는 수락시 공개되어야한다.

언어 모델에서 멀티 모달 추론 추론

대형 언어 모델 (LLMS)은 중간 추론 체인을 해답을 유추하기위한 이론적으로 생성하라는 프롬프트 (COT)를 활용하여 복잡한 추론에 대한 인상적인 성능을 보여주었습니다. 그러나 기존 COT 연구는 언어 양식에 중점을 두었습니다. 우리는 언어 (텍스트) 및 비전 (이미지) 양식을 통합하는 멀티 모달 코트를 이론적 생성과 답변 추론을 분리하는 2 단계 프레임 워크에 통합하는 것을 제안합니다. 이러한 방식으로 답변 추론은 멀티 모달 정보를 기반으로 한 더 나은 생성 된 이론적 근거를 활용할 수 있습니다. Multimodal-Cot을 사용하여 10 억 개의 매개 변수 미만의 모델은 ScienceQA 벤치 마크에서 이전 최신 LLM (GPT-3.5)을 16% 포인트 (75.17%-> 91.68% 정확도)보다 우수하며 인간의 성능을 능가합니다. 코드는이 HTTPS URL에서 공개적으로 사용할 수 있습니다.

LLAMA 2 : 오픈 파운데이션 및 미세 조정 된 채팅 모델
UNILM : 작업, 언어 및 양식에 걸친 대규모 자체 감독 사전 훈련
엄청나게 큰 신경 네트워크 : 드물게 게재 된 혼합 층
GLAM : 믹스 엑스 퍼트로 언어 모델의 효율적인 스케일링
전문가의 희소 혼합으로 비전을 스케일링합니다
"저주 자원"텍스트 분류 : 압축기가있는 매개 변수가없는 분류 방법
AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model
Goat: Fine-tuned LLaMA Outperforms GPT-4 on Arithmetic Tasks
Textbooks Are All You Need
Model Card and Evaluations for Claude Models
Full Parameter Fine-tuning for Large Language Models with Limited Resources
Augmenting Language Models with Long-Term Memory
Unifying Large Language Models and Knowledge Graphs: A Roadmap
Knowledge Distillation of Large Language Models
SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression
QLoRA: Efficient Finetuning of Quantized LLMs
LIMA: Less Is More for Alignment
Orca: Progressive Learning from Complex Explanation Traces of GPT-4
RWKV: Reinventing RNNs for the Transformer Era
Dr. LLaMA: Improving Small Language Models Through Generative Data Augmentation
The FLAN Instruction Tuning Repository
Phoenix: Democratizing ChatGPT across Languages
Long Sequence Modeling with XGen: A 7B LLM Trained on 8K Input Sequence Length
RedPajama-INCITE
China's Baidu claims its Ernie Bot beats ChatGPT on key tests as AI race heats up
BLOOM: A 176B-Parameter Open-Access Multilingual Language Model
LTM-1: an LLM with a 5,000,000 token context window
Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM
StarCoder: may the source be with you!
Cross-lingual Language Model Pretraining
Language Is Not All You Need: Aligning Perception with Language Models
Tackling multiple tasks with a single visual language model
Large Language Models are Zero-Shot Reasoners
Larger language models do in-context learning differently
GPT Understands, Too
P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks
Do Prompt-Based Models Really Understand the Meaning of their Prompts?
∞-former: Infinite Memory Transformer
Improving language models by retrieving from trillions of tokens
Augmented Language Models: a Survey
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
Structure and Content-Guided Video Synthesis with Diffusion Models
MusicLM: Generating Music From Text
InstructGPT : Training language models to follow instructions with human feedback
BioGPT: Generative Pre-trained Transformer for Biomedical Text Generation and Mining
Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback
Multimodal Chain-of-Thought Reasoning in Language Models
Constitutional AI: Harmlessness from AI Feedback
Provable Copyright Protection for Generative Models
What learning algorithm is in-context learning? Investigations with linear models
A Path Towards Autonomous Machine Intelligence
PAL: Program-aided Language Models
Toolformer: Language Models Can Teach Themselves to Use Tools
LLaMA: Open and Efficient Foundation Language Models
Improving alignment of dialogue agents via targeted human judgements
Training Compute-Optimal Large Language Models
LLaMA-based ChatGPT training, ChatLLaMA
RLHF: Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback
BaGuaLu: Targeting Brain Scale Pretrained Models with over 37 Million Cores
LLaMA-7B, LLAMA Up-data, LLaMA: INT8 edition, UForm
Flamingo: a Visual Language Model for Few-Shot Learning, Blog
Multimodal Chain-of-Thought Reasoning in Language Models
How to use UForm
How to create KoChatLLaMA
Competition-Level Code Generation with AlphaCode
Scaling Language Models: Methods, Analysis & Insights from Training Gopher
GPU and learning method required for KoChatLlaMA fine-tuning
Advantages and Problems of UForm
GPT-4 is coming next week – and it will be multimodal, says Microsoft Germany
MuAViC: A Multilingual Audio-Visual Corpus for Robust Speech Recognition and Robust Speech-to-Text Translation
Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages
PaLM-E: An Embodied Multimodal Language Model
Tightly-Integrated Generative Encoder-Decoder Representation
Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
PaLM: Scaling Language Modeling with Pathways
SpikeGPT: Generative Pre-trained Language Model with Spiking Neural Networks
LoRA: Low-Rank Adaptation of Large Language Models
Language Models are Few-Shot Learners
Low-rank Adaptation for Fast Text-to-Image Diffusion Fine-tuning
Improving language models by retrieving from trillions of tokens
FLAN: Finetuned Language Models Are Zero-Shot Learners
T0: Multitask Prompted Training Enables Zero-Shot Task Generalization
The Flan Collection: Designing Data and Methods for Effective Instruction Tuning
The Wisdom of Hindsight Makes Language Models Better Instruction Followers
Exploring the Benefits of Training Expert Language Models over Instruction Tuning
Unsupervised Imputation of Non-ignorably Missing Data Using Importance-Weighted Autoencoders
The Power of Scale for Parameter-Efficient Prompt Tuning
Constitutional AI: Harmlessness from AI Feedback
Deep reinforcement learning from human preferences
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
Large Language Models with Controllable Working Memory
Do Prompt-Based Models Really Understand the Meaning of their Prompts?
Muse: Text-To-Image Generation via Masked Generative Transformers
Structure and Content-Guided Video Synthesis with Diffusion Models
Generative Pretraining from Pixels
A hunt for the Snark: Annotator Diversity in Data Practices
Accurate global machine learning force fields for molecules with hundreds of atoms
Algorithms with More Granular Differential Privacy Guarantees
Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly Types
Are we cobblers without shoes? Making Computer Science data FAIR
Code Generation for In-Place Stencils
Creating, Calibrating, and Validating Large-Scale Microscopic Traffic Simulation
Increasing Impact of Mobile Health Programs: SAHELI for Maternal and Child Care
Designing Responsible AI: Adaptations of UX Practice to Meet Responsible AI Challenges
Developer Productivity for Humans: A Human-Centered Approach to Developer Productivity
Development of a Machine Learning Model for Sonographic Assessment of Gestational Age
Drug Design on Quantum Computers
Estimates of broadband upwelling irradiance from GOES-16 ABI
Information Processing and Management
Flake Aware Culprit Finding
Flexible Budgets in Restless Bandits: A Primal-Dual Algorithm for Efficient Budget Allocation
Helpful Neighbors: Leveraging Neighbors in Geographic Feature Pronunciation
High-Performance GPU-to-CPU Transpilation and Optimization via High-Level Parallel Constructs
Helpful Neighbors: Leveraging Neighbors in Geographic Feature Pronunciation
Infrastructuring Care: How Trans and Non-Binary People Meet Health and Well-Being Needs through Technology
KwikBucks: Correlation Clustering with Cheap-Weak and Expensive-Strong Signals
Learning to Bid in Contextual First Price Auctions
Machine Learning for Healthcare: A Bibliometric Study of Contributions from Africa
Scalable Decision-Focused Learning in Restless Multi-Armed Bandits with Application to Maternal and Child Health
Robust Planning over Restless Groups: Engagement Interventions for a Large-Scale Maternal Telehealth Program
Recitation-Augmented Language Models
RL4ReAl: Reinforcement Learning for Register Allocation
Quantum Simulation of Exact Electron Dynamics can be more Efficient than Classical Mean-Field Methods
Quantum simulation of exact electron dynamics can be more efficient than classical mean-field methods
Propeller: A Profile Guided, Relinking Optimizer for Warehouse-Scale Applications
Deepmind: Improving language models by retrieving from trillions of tokens
Deepmind: Building safer dialogue agents
Deepmind: Competitive programming with AlphaCode
Deepmind: Mastering Stratego, the classic game of imperfect information
Deepmind: DeepMind's latest research at NeurIPS 2022
Deepmind: Building interactive agents in video game worlds
Deepmind: Discovering novel algorithms with AlphaTensor
Deepmind: AlphaFold reveals the structure of the protein universe
Deepmind: Exploring the beauty of pure mathematics in novel ways
Deepmind: Nowcasting the next hour of rain
Deepmind: Putting the power of AlphaFold into the world's hands
Google Research: Deciphering clinical abbreviations with privacy protecting ML
Google Research: Google Research, 2022 & beyond: Language, vision and generative models
Google Research: Google Research, 2022 & beyond: Responsible AI
Google Research: Learning with queried hints
Google Research: Open Source Vizier: Towards reliable and flexible hyperparameter and blackbox optimization
Google Research: Google Research, 2022 & beyond: ML & computer systems
Google Research: Real-time tracking of wildfire boundaries using satellite imagery
Google Research: Breaching the 2 LMP Approximation Barrier for Facility Location with Applications to k-Median
Google Research: Chimane-Mosetén
Google Research: Differentially Private All-Pairs Shortest Path Distances: Improved Algorithms and Lower Bounds
Google Research: Differentially Private Fair Division
Google Research: DiffQG: Generating Questions on Paired Sentences
Google Research: Assessment of Security Defense of Native Programs Against Software Faults
Google Research: Adaptive mixing of auxiliary losses in supervised learning
OpenAI: Multimodal Neurons in Artificial Neural Networks
OpenAI: DALL·E: Creating Images from Text
OpenAI: CLIP: Connecting Text and Images
OpenAI: Image GPT
OpenAI: Jukebox
OpenAI: Solving Rubik's Cube with a Robot Hand
OpenAI: Multimodal Neurons in Artificial Neural Networks
OpenAI: CLIP: Connecting Text and Images
OpenAI: Image GPT
OpenAI: MuseNet
OpenAI: Emergent Tool Use from Multi-Agent Interaction

before 2023

[2013/01] Efficient Estimation of Word Representations in Vector Space
[2014/12] Dependency-Based Word Embeddings
[2015/07] Neural Machine Translation of Rare Words with Subword Units
[2014/07] GloVe: Global Vectors for Word Representation : GloVe
[2016/06] Siamese CBOW: Optimizing Word Embeddings for Sentence Representations : Siamese CBOW
[2016/07] Enriching Word Vectors with Subword Information : fastText
[2014/09] Sequence to Sequence Learningwith Neural Networks : seq2seq
[2017/07] Attention Is All You Need : Transformer
[2017/08] Learned in Translation: Contextualized Word Vectors : CoVe
[2018/01] Universal Language Model Fine-tuning for Text Classification : ULMFIT
[2018/02] Deep contextualized word representations : ELMo
[2018/06] Improving Language Understanding by Generative Pre-Training : GPT-1
[2018/10] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding : BERT
[2019/02] Language Models are Unsupervised Multitask Learners : GPT-2
[2019/04] Language Models with Transformers
[2019/08] Neural Text Generation with Unlikelihood Training
[2019/01] Cross-lingual Language Model Pretraining XLM
[2019/01] Multi-Task Deep Neural Networks for Natural Language Understanding : MT-DNN
[2019/01] Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context : Transformer-XL
[2019/06] XLNet: Generalized Autoregressive Pretraining for Language Understanding : XLNet
[2019/04] The Curious Case of Neural Text Degeneration
[2019/09] Fine-Tuning Language Models from Human Preferences
[2019/01] BioBERT: a pre-trained biomedical language representation model for biomedical text mining : BioBERT
[2019/03] SciBERT: A Pretrained Language Model for Scientific Text : SciBERT
[2019/04] ClinicalBERT: Modeling Clinical Notes and Predicting Hospital Readmission : ClinicalBERT
[2019/06] HIBERT: Document Level Pre-training of Hierarchical Bidirectional Transformers for Document Summarization : HIBERT
[2019/07] SpanBERT: Improving Pre-training by Representing and Predicting Spans : SpanBERT
[2019/04] Publicly Available Clinical BERT Embeddings
[2019/08] Pre-Training with Whole Word Masking for Chinese BERT
[2019/07] Is BERT Really Robust? A Strong Baseline for Natural Language Attack on Text Classification and Entailment
[2019/07] R-Transformer: Recurrent Neural Network Enhanced Transformer : R-Transformer
[2019/09] FREELB: ENHANCED ADVERSARIAL TRAINING FOR LANGUAGE UNDERSTANDING : FREELB
[2019/09] Mixup Inference: Better Exploiting Mixup to Defend Adversarial Attacks
[2019/10] Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer : T5
[2018/07] Subword-level Word Vector Representations for Korean
[2019/08] Zero-shot Word Sense Disambiguation using Sense Definition Embeddings
[2019/06] Bridging the Gap between Training and Inference for Neural Machine Translation
[2019/06] Emotion-Cause Pair Extraction: A New Task to Emotion Analysis in Texts
[2019/07] A Simple Theoretical Model of Importance for Summarization
[2019/05] Transferable Multi-Domain State Generator for Task-Oriented Dialogue Systems
[2019/07] We need to talk about standard splits
[2019/07] ERNIE 2.0: A Continual Pre-training Framework for Language Understanding : ERNIE 2.0
[2019/05] SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems : SuperGLUE
[2020/01] Towards a Human-like Open-Domain Chatbot + Google AI Blog
[2020/03] ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators : ELECTRA
[2019/04] Mask-Predict: Parallel Decoding of Conditional Masked Language Models : Mask-Predict
[2020/01] Reformer: The Efficient Transformer : Reformer
[2020/04] Longformer: The Long-Document Transformer : Longformer
[2019/11] DialoGPT: Large-Scale Generative Pre-training for Conversational Response Generation : DialoGPT
[2020/01] Towards a Human-like Open-Domain Chatbot
[2020/04] You Impress Me: Dialogue Generation via Mutual Persona Perception
[2020/04] Recipes for building an open-domain chatbot
[2020/04] ToD-BERT: Pre-trained Natural Language Understanding for Task-Oriented Dialogues : ToD-BERT
[2020/04] SOLOIST: Few-shot Task-Oriented Dialog with A Single Pre-trained Auto-regressive Model : SOLOIST
[2020/05] A Simple Language Model for Task-Oriented Dialogue
[2019/07] ReCoSa: Detecting the Relevant Contexts with Self-Attention for Multi-turn Dialogue Generation : ReCoSa
[2020/04] FastBERT: a Self-distilling BERT with Adaptive Inference Time : FastBERT
[2020/01] PoWER-BERT: Accelerating BERT inference for Classification Tasks : PoWER-BERT
[2019/10] DistillBERT, a distilled version of BERT: smaller, faster, cheaper and lighter : DistillBERT
[2019/10] TinyBERT: Distilling BERT for Natural Language Understanding : TinyBERT
[2019/11] Not Enough Data? Deep Learning to the Rescue!
[2018/12] Conditional BERT Contextual Augmentation
[2020/03] Data Augmentation using Pre-trained Transformer Models
[2020/04] FLAT: Chinese NER Using Flat-Lattice Transformer : FLAT
[2019/12] Big Transfer (BiT): General Visual Representation Learning : BiT
[2019/04] ERNIE: Enhanced Representation through Knowledge Integration : ERNIE
[2019/07] ERNIE 2.0: A Continual Pre-training Framework for Language Understanding : ERNIE 2.0
[2020/06] ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph : ERNIE-ViL
[2020/12] ERNIE-Doc: A Retrospective Long-Document Modeling Transformer : ERNIE-Doc
[2021/07] ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation : ERNIE 3.0
[2022/10] Beyond English-Centric Bitexts for Better Multilingual Language Representation Learning
[2017/03] Distilling Task-Specific Knowledge from BERT into Simple Neural Networks
[2020/10] DiPair: Fast and Accurate Distillation for Trillion-Scale Text Matching and Pair Modeling : DiPair
[2021/08] Distilling Transformers for Neural Cross-Domain Search
[2020/06] DeBERTa: Decoding-enhanced BERT with Disentangled Attention : DeBERTa
[2020/11] VEGA: Towards an End-to-End Configurable AutoML Pipeline : VEGA
[2020/12] FILTER: An Enhanced Fusion Method for Cross-lingual Language Understanding : FILTER
[2019/12] StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding : StructBERT
[2019/04] Improving Multi-Task Deep Neural Networks via Knowledge Distillation for Natural Language Understanding : MT-DNN
[2021/05] Comparing Kullback-Leibler Divergence and Mean Squared Error Loss in Knowledge Distillation

중지

MLLMArxivTalk

최신 MLLM 관련 스터디. 기본 오후에 진행. 논문, 강의, 코드, 뉴스, 블로그 등 다양한 자료로 학습.

MLLM, LLM, NLG, Dialogue, Reinforcement learning, Distillation, Efficient, Sentence similarity, multiple tasks, multimodal, Stable diffusion, TTS, Text-To-Video, All-To-All, 우주, 생명, 지능, 윤리, 규제, 법, 노화, 의학, 투자, 개발, 인프라, 디자인, 경영, ETC...

유망 스타트업 C레벨, 국내외 탑티어 연구자, 국내외 탑티어 대학, 대학원 재학생과 졸업생, 석학, 교수 등 A급 인재들이 최신 논문, 강의 등 스터디 및 프로젝트 진행.

기본 매주 수요일 오후 7시반. 사전 학습 없이 논문 읽기 최대 20분, 토론 최대 40분. 한 번에 1 ~ 10개 논문, 강의 등 진행. 지금까지는 항상 3개. 주제 논문 선정은 자유. 탑티어 학회 논문 및 프로젝트 제작 예정.

주말을 포함하여, 거의 매일 추가 스터디 존재. 흥미로운 주제거나 참여 되는 날만 중간에 들어와서 중간에 나가도 무관. 모든 규칙은 협의 가능. 오프라인 모임도 예정. 자율 참여.

스터디 규칙

영어만 사용은 금지. 한국어 중심 사용. 특수 용어는 영어 사용.
1주일에 논문 2개 이상 스터디. 되는 사람은 10개 이상.
3분에서 20분 현장에서 논문 읽기. 5분에서 30분 토론.
1시간 스터디 시, 바로 나가도 됨. 원할 때 10분 이하 참여도 무관. 자유롭게 진행. 2시간 매일도 가능.
각자 더 뛰어난 게 있다는 것을 인지. 다들 대단한 분들이니 질문 많이 하고, 정보 공유 자주.
본인이 하기로 한 일만은 수행. 한다고 말하고, 안 하는 것은 민폐다.
기본적으로 녹화 후 내부 공유.
정보를 혼자 알게 쓰지 말고, 다 같이 알게 말하기.
개인 사정으로 스터디 탈퇴 시, 자기소개에 인사 작성.
여러 기관 좋은 규칙 붙여넣기.
팀에 도움이 된다고 판단하면, 위 규칙을 모두 무시하고 행동.
추가.

Basic knowledge

수학	기계 학습	변신 로봇	포옹 얼굴

mathematics for machine learning	Pattern Recognition and Machine Learning	Getting Started with Google BERT	Natural Language Processing with Transformers