llm·nlp
text2All·All2All
多模式·多任務
人類智能在認知協同的概念上蓬勃發展,與孤立的個人認知過程相比,不同認知過程之間的協作和信息整合產生了較高的結果。儘管大型語言模型(LLMS)表現出有希望的表現作為一般任務解決代理,但他們仍然在需要密集的領域知識和復雜推理的任務上掙扎。在這項工作中,我們提出了獨奏績效提示(SPP),它通過與多個角色從事多轉變自我合作來將單個LLM轉化為認知協同作用。認知協同作用是指與多種思維合作的智能代理,結合了他們的個人優勢和知識,以增強問題解決問題和整體績效。通過基於任務輸入來動態識別和模擬不同角色,SPP釋放了LLMS認知協同作用的潛力。我們發現,與使用單個或固定數量的角色相比,在LLMS中分配多個,精細的角色可以更好地解決問題的能力。我們在三個具有挑戰性的任務上評估了SPP:Trivia創意寫作,代號協作和邏輯網格拼圖,包括知識密集型和推理密集型類型。與以前的著作(例如,經過思考鏈)不同,它僅增強了LLM的推理能力,SPP有效地引起了內部知識的獲取能力,降低了幻覺並保持強大的推理能力。代碼,數據和提示可以在以下位置找到:此HTTPS URL。
我們提出了LLM-Blender,這是一個結合框架,旨在通過利用多種開源大型語言模型(LLMS)的多樣性優勢來始終如一地實現卓越的性能。我們的框架由兩個模塊組成:Pairranker和Genfuser,解決了以下觀察結果:不同示例的最佳LLM可能會大大變化。 Pairranker採用專門的成對比較方法來區分候選輸出之間的細微差異。它共同編碼輸入文本和一對候選物,並使用交叉注意編碼來確定上級。我們的結果表明,Pairranker與基於CHATGPT的排名表現出最高的相關性。然後,Genfuser的目標是合併排名最高的候選人,通過利用其優勢並減輕其弱點來提高產出。為了促進大規模評估,我們介紹了一個基準數據集MixinStruct,該數據集是多個指令數據集的混合物,其中包含Oracle成對比較。我們的LLM-Blender在各種指標上的表現明顯優於單個LLM和基線方法,建立了巨大的性能差距。
大型語言模型(LLMS)在使用諸如精益之類的證明助理證明正式定理方面表現出了希望。但是,由於私人代碼,數據和龐大的計算要求,現有方法難以復製或構建。這為研究定理證明的機器學習方法的研究造成了重大障礙。本文通過引入LeanDojo:一個由工具包,數據,模型和基準組成的開源精益遊樂場來消除這些障礙。 LeanDojo從Lean中提取數據,並可以通過編程方式與證明環境進行互動。它包含證據中前提的細粒度註釋,提供了有價值的數據以進行前提選擇,這是定理中的關鍵瓶頸。使用此數據,我們開發了Reprover(檢索儀式的供奉獻者):第一個基於LLM的供者,該攤子可通過檢索進行增強,以從龐大的數學庫中選擇場所。它很便宜,只需要一個GPU週的培訓。我們的檢索員利用LeanDojo的計劃分析能力來識別可訪問的前提和硬性否定示例,這使得檢索更加有效。此外,我們構建了一個新的基準測試,該基準由從Lean的數學庫中提取的96,962個定理和證明組成。它具有挑戰性數據拆分的具有挑戰性,要求供者推廣到依靠從未在培訓中使用的新型前提的定理。我們使用此基准進行培訓和評估,實驗結果證明了rebrover對非回歸基準和GPT-4的有效性。因此,我們在沒有任何專有數據集的情況下提供了第一組開源LLM定理拋棄,並根據寬鬆的MIT許可將其釋放,以促進進一步的研究。
回答視覺查詢是一項複雜的任務,需要視覺處理和推理。端到端模型是該任務的主要方法,不能明確區分兩者,從而限制了解釋性和概括。學習模塊化程序提出了一個有希望的替代方案,但由於難以同時學習程序和模塊,因此被證明是具有挑戰性的。我們介紹了Vipergpt,該框架利用代碼生成模型將視覺和語言模型構成子例程,以產生任何查詢的結果。 Vipergpt利用提供的API訪問可用的模塊,並通過生成後來執行的Python代碼來組成它們。這種簡單的方法不需要進一步的培訓,並且可以在各種複雜的視覺任務中實現最先進的結果。
在大型語言模型時代,縮放順序長度已成為關鍵需求。但是,現有方法在計算複雜性或模型表達性方面遇到困難,從而限制了最大序列長度。在這項工作中,我們介紹了Longnet,這是一種可以將序列長度擴展到超過10億代幣的變壓器變體,而無需犧牲較短序列的性能。具體而言,我們提出了擴張的注意力,隨著距離的增長,該注意力會呈指數增長。長網具有顯著的優勢:1)它具有線性計算的複雜性和令牌之間的對數依賴性; 2)可以用作非常長的序列的分佈式教練; 3)其擴張的注意力是標準注意力的置換替代品,可以將其與現有的基於變壓器的優化無縫集成。實驗結果表明,長網絡在長期序列建模和一般語言任務上都產生了強勁的性能。我們的工作為建模很長的序列,例如,將整個語料庫甚至整個互聯網視為序列開闢了新的可能性。
語言,視覺和多模式預處理的大量融合正在出現。在這項工作中,我們介紹了通用多模式基礎模型BEIT-3,該模型BEIT-3,該模型在視覺和視覺任務上都實現了最先進的轉移性能。具體來說,我們從三個方面提出了很大的融合:骨乾架構,預處理任務和模型擴展。我們介紹了多道路變壓器進行通用建模,其中模塊化體系結構可以實現深融合和模態特定的編碼。基於共享的骨幹,我們以統一的方式對圖像(Imglish),文本(英語)和圖像文本對(“平行句子”)進行蒙版的“語言”建模。實驗結果表明,BEIT-3在對象檢測(COCO),語義細分(ADE20K),圖像分類(ImagEnet),視覺推理(NLVR2),視覺詢問答錄(VQAV2),圖像字幕(COCO)(COCO)和交叉模式檢索(Flickr30k,coco,coco,coco,coco)中獲得最先進的性能。
大型語言模型(LLM)最近看到了令人印象深刻的進步浪潮,現在模型在各種任務中都表現出色,例如數學推理和程序綜合。但是,他們通過API調用有效使用工具的潛力仍然無法實現。即使對於當今最先進的LLM,例如GPT-4,這也是一項艱鉅的任務,這主要是由於它們無法產生準確的輸入論點及其傾向於幻覺API呼叫的錯誤用法。我們發布了Gorilla,這是一種基於Llama的易遍性模型,它超過了GPT-4在編寫API呼叫方面的性能。當與文檔提帶器結合使用時,大猩猩表現出強大的功能,可以適應測試時間文檔更改,從而實現靈活的用戶更新或版本更改。它還大大減輕了幻覺的問題,這通常是直接提示LLM時遇到的。為了評估模型的能力,我們介紹了APIBENCH,這是一個由擁抱面,Torchhub和Tensorhub API組成的綜合數據集。將檢索系統與大猩猩的成功集成在一起,證明了LLM可以更準確地使用工具,跟上經常更新的文檔,並因此提高其產出的可靠性和適用性。大猩猩的模型和代碼可在https://github.com/shishirpatil/gorilla上找到。
大型語言模型(LLM)在具有緊急能力的各種自然語言處理任務中取得了顯著進步。但是,他們面臨固有的局限性,例如無法訪問最新信息,使用外部工具或執行精確的數學推理。在本文中,我們介紹了Chameleon,這是一個插件的構圖推理框架,可增強LLMS以幫助應對這些挑戰。 Chameleon合成了編寫各種工具的程序,包括LLM型號,現成的視覺模型,Web搜索引擎,Python功能以及針對用戶興趣的基於規則的模塊。 Chameleon建立在LLM之上,作為自然語言規劃師,它滲透了適當的工具序列,以創建和執行以產生最終響應。我們展示了變色龍對兩個任務的適應性和有效性:ScienceQA和TABMWP。值得注意的是,具有GPT-4的變色龍在ScienceQA上的精度達到了86.54%,在最佳發表的幾桿模型上顯著提高了11.37%; Chameleon使用GPT-4作為基礎LLM,比最先進的模型增長了17.8%,導致TABMWP的總體準確性為98.78%。進一步的研究表明,與其他LLM相比,使用GPT-4作為計劃者表現出更加一致,更合理的工具選擇,並能夠推斷出潛在的限制。
最近,如何有效地將大型語言模型(LLM)轉變為指導關注者是一個流行的研究方向,而培訓LLM用於多模式推理的培訓仍然較少探索。儘管最近的Llama-Audapter證明了使用LLMS處理視覺輸入的潛力,但它仍然無法很好地推廣到GPT-4後面的開放式視覺說明和滯後。在本文中,我們介紹了Llama-Adapter V2,這是一種參數有效的視覺指導模型。具體而言,我們首先通過解鎖更多可學習的參數(例如,規範,偏見和比例)來增強駱駝適配器,該參數除了適配器以外,在整個Llama模型上分佈了指令跟隨能力。其次,我們提出了一種早期的融合策略,僅將視覺令牌饋入早期的LLM層,從而有助於更好的視覺知識融合。第三,通過優化可學習參數的不連接組,引入了圖像文本對和指導跟隨數據的聯合訓練範式。該策略有效地減輕了圖像文本對齊的兩個任務和隨後的兩項任務之間的干擾,並僅使用一個小規模的圖像文本和指令數據集實現了強大的多模式推理。在推斷期間,我們將其他專家模型(例如字幕/OCR系統)納入Llama-Adapter,以進一步增強其圖像理解能力而不會導致培訓成本。與原始的駱駝適配器相比,我們的駱駝適配器V2可以通過僅在駱駝上引入1400萬參數來執行開放式的多模式指令。新設計的框架還表現出更強大的語言指導遵循功能,甚至表現出擅長聊天互動。我們的代碼和模型可在此HTTPS URL上找到。
可信的人類行為的代理可以增強從沉浸式環境到練習空間的交互式應用,以進行人際交流,再到原型工具。在本文中,我們介紹了生成劑 - 模擬可信人類行為的競爭軟件代理。生成的特工醒來,煮早餐,然後上班;藝術家繪畫,而作者寫道;他們形成意見,互相注意並發起對話;他們記得第二天計劃過去的幾天。為了啟用生成代理,我們描述了一種擴展大型語言模型的體系結構,以使用自然語言來存儲代理商的經歷,將這些記憶隨時間綜合為高級反射,並動態地檢索它們以計劃行為。我們實例化生成代理,以填充受模擬人生啟發的交互式沙盒環境,最終用戶可以使用自然語言與一個25個代理商的小鎮進行互動。在評估中,這些生成的代理人產生了可信的個人和新興的社交行為:例如,首先要從一個用戶指定的觀念開始,即一個代理商想舉辦情人節聚會,代理商在接下來的兩天內自主向聚會自主傳播邀請,在接下來的兩天內,結識新的熟人,在派對上互相求婚,並為派對搭檔,並在派對上齊心協力。我們通過消融證明,我們的代理體系結構的組成部分 - 觀察,計劃和反思 - 都為代理行為的可信度做出了巨大貢獻。通過將大型語言模型與計算,互動代理融合在一起,這項工作引入了建築和互動模式,以實現可信的人類行為模擬。
決策大語模型(LLM)代理商的最新進步表現出了各種基準的令人印象深刻的表現。但是,這些最先進的方法通常需要內部模型微調,外部模型微調或對定義狀態空間的策略優化。由於缺乏高質量的培訓數據或缺乏定義明確的狀態空間,實施這些方法可能會挑戰。此外,這些代理人沒有人類決策過程固有的某些品質,特別是從錯誤中學習的能力。自我反射使人類可以通過反複試驗的過程有效地解決新的問題。在最新研究的基礎上,我們提出了反射,這種方法賦予了代理具有動態記憶和自我反射能力的方法,以增強其現有的推理痕跡和特定於任務的動作選擇能力。為了實現完整的自動化,我們引入了一種直接而有效的啟發式措施,該啟發式使代理商能夠查明幻覺實例,避免在動作序列中重複重複,並且在某些環境中,構建了給定環境的內部記憶圖。為了評估我們的方法,我們評估了代理在ALFWORLD環境中完成決策任務的能力,以及在HOTPOTQA環境中的知識密集型,基於搜索的問答任務。我們分別觀察到97%和51%的成功率,並就自我反省的新興特性提供了討論。
像人們一樣,LLM並不總是在第一次嘗試時為給定一代問題生成最佳文本(例如,摘要,答案,解釋)。正如人們然後完善文本一樣,我們引入了自我申請,這是一個框架,用於通過迭代反饋和改進來改善LLM的初始輸出。主要思想是使用LLM生成輸出,然後允許相同的模型為其自己的輸出提供多光值反饋;最後,相同的模型根據自己的反饋來完善其先前生成的輸出。與較早的工作不同,我們的迭代改進框架不需要監督的培訓數據或強化學習,並且可以與單個LLM合作。我們嘗試了7項不同的任務,從評論重寫到數學推理,表明我們的方法表現優於直接生成。在所有任務中,用自我申請產生的輸出受到人類的首選,自動化指標比直接使用GPT-3.5和GPT-4生成的指標首選,在整個任務中,絕對20%的量平均提高了20%。
解決具有不同領域和方式的複雜的AI任務是邁向高級人工智能的關鍵步驟。儘管有大量的AI模型可用於不同的域和模式,但它們無法處理複雜的AI任務。考慮到大型語言模型(LLM)在語言理解,產生,互動和推理方面表現出了非凡的能力,我們提倡LLM可以充當控制現有的AI模型來解決複雜的AI任務和語言的控制器,這可能是一種通用界面,可以增強此功能。基於這種理念,我們提出了HuggingGpt,該框架利用LLMS(例如ChatGpt)將機器學習社區中的各種AI模型(例如,擁抱面孔)連接起來解決AI任務。具體來說,我們使用CHATGPT在接收用戶請求時進行任務計劃,請根據其功能描述在擁抱面中可用的功能描述,使用選定的AI模型執行每個子任務,並根據執行結果匯總響應。通過利用Chatgpt和豐富的AI模型的強大語言能力來擁抱面孔,HuggingGpt能夠涵蓋不同方式和領域中的許多複雜的AI任務,並在語言,願景,語音和其他具有挑戰性的任務中取得了令人印象深刻的成果,這為高級人工智能鋪平了新的方式。
Auto-GPT是一個實驗性開源應用程序,展示了GPT-4語言模型的功能。該程序由GPT-4驅動,將LLM“ Thought”鏈接在一起,以自主實現您設定的任何目標。作為GPT-4完全自動運行的第一個示例之一,Auto-GPT推動了AI可能的邊界。
用戶可以收取費用迅速增長的大型語言模型(LLM)。我們回顧了與查詢流行的LLM API相關的成本,例如GPT-4,CHATGPT,J1-JUMBO,發現這些模型具有異質定價結構,費用可能會通過兩個數量級而有所不同。特別是,在大量查詢和文本中使用LLM可能很昂貴。在此激勵的情況下,我們概述並討論了用戶可以利用的三種策略,以減少與使用LLMS相關的推理成本:1)及時適應,2)LLM近似和3)LLM Cascade。例如,我們提出了Frugalgpt,這是LLM Cascade的簡單而靈活的實例化,它了解了用於不同查詢的LLM的組合,以降低成本並提高準確性。我們的實驗表明,Frugalgpt可以匹配最佳個人LLM(例如GPT-4)的性能,其成本降低高達98%,或者以相同的成本提高了GPT-4的準確性4%。這裡提出的思想和發現為可持續有效地使用LLM的基礎。
大型語言模型(LLMS)在使用諸如精益之類的證明助理證明正式定理方面表現出了希望。但是,由於私人代碼,數據和龐大的計算要求,現有方法難以復製或構建。這為研究定理證明的機器學習方法的研究造成了重大障礙。本文通過引入LeanDojo:一個由工具包,數據,模型和基準組成的開源精益遊樂場來消除這些障礙。 LeanDojo從Lean中提取數據,並可以通過編程方式與證明環境進行互動。它包含證據中前提的細粒度註釋,提供了有價值的數據以進行前提選擇,這是定理中的關鍵瓶頸。使用此數據,我們開發了Reprover(檢索儀式的供奉獻者):第一個基於LLM的供者,該攤子可通過檢索進行增強,以從龐大的數學庫中選擇場所。它很便宜,只需要一個GPU週的培訓。我們的檢索員利用LeanDojo的計劃分析能力來識別可訪問的前提和硬性否定示例,這使得檢索更加有效。此外,我們構建了一個新的基準測試,該基準由從Lean的數學庫中提取的96,962個定理和證明組成。它具有挑戰性數據拆分的具有挑戰性,要求供者推廣到依靠從未在培訓中使用的新型前提的定理。我們使用此基准進行培訓和評估,實驗結果證明了rebrover對非回歸基準和GPT-4的有效性。因此,我們在沒有任何專有數據集的情況下提供了第一組開源LLM定理拋棄,並根據寬鬆的MIT許可將其釋放,以促進進一步的研究。
最近的工作表明,促使語言模型具有自然語言的類似代碼的表示,從而在結構化推理任務上改善了性能。但是,這些任務僅包含所有自然語言任務的一小部分。在我們的工作中,我們試圖回答是否是與語言模型進行交互的首選方式。我們在更廣泛的任務選擇(例如,QA,情感,摘要)中比較了三種流行的GPT模型(Davinci,Code-Davinci-002和Text-Davinci-002)的代碼和文本提示,並發現少數例外,代碼提示並不能始終如一地均優於文本提示。此外,我們表明,代碼提示的樣式對某些但所有任務的性能都有很大的影響,並且對文本說明的微調會導致代碼提示的相對性能更好。
大型語言模型(LLMS)通過為其預測產生解釋來執行複雜的推理。但是,解釋的互補目標是傳達有用的知識,以改善弱者。因此,我們研究了LLM是否也為較弱的代理人做好教師。特別是,我們考慮了兩個LLM代理商之間的學生教師框架,並研究了何時,何時以及如何干預自然語言解釋以改善學生的表現。由於溝通很昂貴,我們定義了一個預算,使教師僅通過一小部分數據傳達解釋,然後學生應該自己表現良好。我們沿著四個軸分解了教學問題:(1)如果教師的測試時間干預改善了學生的預測,(2)值得解釋數據點時,(3)教師應如何個性化解釋以更好地教學學生,以及(4)教師解釋還提高了學生對未來未解釋的數據的績效。我們首先表明LLM老師確實可以乾預學生的推理以提高其表現。接下來,我們提出了一種心理理論方法,其中教師建立了兩個學生的兩個精神模型。第一個模型定義了一個乾預功能,該功能模擬了乾預措施的實用性,從而使教師在該效用是最高的,並且在較低預算下的學生績效時可以進行干預。第二個模型使教師可以個性化特定學生的解釋,並且表現優於不人道的老師。我們還證明,在多轉變的互動中,教師解釋概括和從解釋中學習可以提高學生對未來無法解釋的數據的績效。最後,我們還驗證了錯過的老師可以通過故意誤導他們的誤解來將學生的表現降低到隨機的機會。
我們介紹了Kosmos-2,這是一種多模式的大語言模型(MLLM),使感知對象描述的新功能(例如,邊界框)和將文本接地到視覺世界。具體來說,我們將表達式指定為Markdown中的鏈接,即,``[text Span](邊界框)'',其中對象描述是位置令牌的序列。我們與多模式的語料庫一起構建了接地圖像文本對(稱為砂紙)的大規模數據,以訓練模型。除了MLLM的現有功能(例如,按照說明感知一般模式,並執行中文學習)之外,KOSMOS-2還將接地能力集成到下游應用程序中。我們在多種任務上評估KOSMOS-2,包括(i)多模式接地,例如參考表達理解和短語接地,(ii)多模式參考,例如參考表達產生,(iii)感知語言任務,以及(iv)語言理解和產生。這項工作為實施體AI的開發奠定了基礎,並闡明了語言,多模式感知,行動和世界建模的巨大融合,這是邁向人工通用情報的關鍵一步。該HTTPS URL可用代碼和預估計的模型。
我們介紹了Palm 2,這是一種新的最先進的語言模型,具有更好的多語言和推理功能,並且比其前身Palm更有效率。 Palm 2是一種基於變壓器的模型,該模型使用目標混合物訓練。通過對英語和多語言語言以及推理任務的廣泛評估,我們證明了Palm 2在不同型號尺寸的下游任務上的質量顯著提高,同時表現出與Palm相比的更快,更有效的推斷。這種提高的效率使得更廣泛的部署,同時還可以使模型更快地響應,以更自然的交互作用。 Palm 2展示了強大的推理能力,例如在大板凳和其他推理任務上對Palm的大幅度改進來體現。 Palm 2在一系列負責的AI評估中表現出穩定的性能,並可以對毒性進行推理時間控制,而無需額外的開銷或對其他功能的影響。總體而言,Palm 2在各種任務和功能中實現了最先進的表現。
由於數字人類的新需求,從給定的動作描述中產生現實的人類運動已經取得了重大進步。儘管最近的作品在直接從文本動作描述中產生運動方面取得了令人印象深刻的結果,但它們通常僅支持控制信號的單一模式,這限制了他們在實際數字人類工業中的應用。本文提出了一種運動通用發電機(Motiongpt),該發電機可以使用多模式控制信號,例如,文本和單幀姿勢,通過將多模態信號作為大語言模型(LLMS)中的特殊輸入標記來生成連續的人類運動。具體而言,我們首先將多模式控制信號量化為離散代碼,然後在統一的提示指令中製定它們,要求LLMS生成運動答案。我們的Motiongpt通過僅調諧0.4%的LLM參數,展示了具有多模式控制信號的統一人類運動產生模型。據我們所知,MotionGpt是通過多模式控制信號產生人類運動的第一種方法,我們希望這可以闡明這個新方向。代碼應在接受後釋放。
大型語言模型(LLMS)通過利用思想鏈(COT)提示產生中間推理鏈作為推斷答案的基本原理,在復雜的推理上表現出了令人印象深刻的表現。但是,現有的COT研究集中在語言方式上。我們建議將語言(文本)和視覺(圖像)模態納入一個兩階段的框架,將基本原理生成和回答推理分開。這樣,答案推理可以利用基於多模式信息的更好生成的理由。借助多模式-COT,我們的10億個參數的模型優於先前的最先前的LLM(GPT-3.5),在ScienceQA基准上的模型高於16個百分點(75.17% - > 91.68%的準確性),甚至超過了人類績效。代碼可在此HTTPS URL上公開可用。
駱駝2:開放基礎和微調聊天模型
UNILM:跨任務,語言和方式的大規模自我監管的預訓練
較大的大神經網絡:稀疏門控的混合物層
Glam:具有專家混合物的語言模型的有效縮放
縮放視力與專家的稀疏混合物
“低資源”文本分類:帶有壓縮機的無參數分類方法
AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model
Goat: Fine-tuned LLaMA Outperforms GPT-4 on Arithmetic Tasks
Textbooks Are All You Need
Model Card and Evaluations for Claude Models
Full Parameter Fine-tuning for Large Language Models with Limited Resources
Augmenting Language Models with Long-Term Memory
Unifying Large Language Models and Knowledge Graphs: A Roadmap
Knowledge Distillation of Large Language Models
SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression
QLoRA: Efficient Finetuning of Quantized LLMs
LIMA: Less Is More for Alignment
Orca: Progressive Learning from Complex Explanation Traces of GPT-4
RWKV: Reinventing RNNs for the Transformer Era
Dr. LLaMA: Improving Small Language Models Through Generative Data Augmentation
The FLAN Instruction Tuning Repository
Phoenix: Democratizing ChatGPT across Languages
Long Sequence Modeling with XGen: A 7B LLM Trained on 8K Input Sequence Length
RedPajama-INCITE
China's Baidu claims its Ernie Bot beats ChatGPT on key tests as AI race heats up
BLOOM: A 176B-Parameter Open-Access Multilingual Language Model
LTM-1: an LLM with a 5,000,000 token context window
Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM
StarCoder: may the source be with you!
Cross-lingual Language Model Pretraining
Language Is Not All You Need: Aligning Perception with Language Models
Tackling multiple tasks with a single visual language model
Large Language Models are Zero-Shot Reasoners
Larger language models do in-context learning differently
GPT Understands, Too
P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks
基於及時的模型是否真的了解其提示的含義?
∞-former: Infinite Memory Transformer
Improving language models by retrieving from trillions of tokens
Augmented Language Models: a Survey
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
Structure and Content-Guided Video Synthesis with Diffusion Models
MusicLM: Generating Music From Text
InstructGPT : Training language models to follow instructions with human feedback
BioGPT: Generative Pre-trained Transformer for Biomedical Text Generation and Mining
Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback
Multimodal Chain-of-Thought Reasoning in Language Models
Constitutional AI: Harmlessness from AI Feedback
Provable Copyright Protection for Generative Models
What learning algorithm is in-context learning? Investigations with linear models
A Path Towards Autonomous Machine Intelligence
PAL: Program-aided Language Models
Toolformer: Language Models Can Teach Themselves to Use Tools
LLaMA: Open and Efficient Foundation Language Models
Improving alignment of dialogue agents via targeted human judgements
Training Compute-Optimal Large Language Models
LLaMA-based ChatGPT training, ChatLLaMA
RLHF: Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback
BaGuaLu: Targeting Brain Scale Pretrained Models with over 37 Million Cores
LLaMA-7B, LLAMA Up-data, LLaMA: INT8 edition, UForm
Flamingo: a Visual Language Model for Few-Shot Learning, Blog
Multimodal Chain-of-Thought Reasoning in Language Models
How to use UForm
How to create KoChatLLaMA
Competition-Level Code Generation with AlphaCode
Scaling Language Models: Methods, Analysis & Insights from Training Gopher
GPU and learning method required for KoChatLlaMA fine-tuning
Advantages and Problems of UForm
GPT-4 is coming next week – and it will be multimodal, says Microsoft Germany
MuAViC: A Multilingual Audio-Visual Corpus for Robust Speech Recognition and Robust Speech-to-Text Translation
Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages
PaLM-E: An Embodied Multimodal Language Model
Tightly-Integrated Generative Encoder-Decoder Representation
Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
PaLM: Scaling Language Modeling with Pathways
SpikeGPT: Generative Pre-trained Language Model with Spiking Neural Networks
LoRA: Low-Rank Adaptation of Large Language Models
Language Models are Few-Shot Learners
Low-rank Adaptation for Fast Text-to-Image Diffusion Fine-tuning
Improving language models by retrieving from trillions of tokens
FLAN: Finetuned Language Models Are Zero-Shot Learners
T0: Multitask Prompted Training Enables Zero-Shot Task Generalization
The Flan Collection: Designing Data and Methods for Effective Instruction Tuning
The Wisdom of Hindsight Makes Language Models Better Instruction Followers
Exploring the Benefits of Training Expert Language Models over Instruction Tuning
Unsupervised Imputation of Non-ignorably Missing Data Using Importance-Weighted Autoencoders
The Power of Scale for Parameter-Efficient Prompt Tuning
Constitutional AI: Harmlessness from AI Feedback
Deep reinforcement learning from human preferences
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
Large Language Models with Controllable Working Memory
基於及時的模型是否真的了解其提示的含義?
Muse: Text-To-Image Generation via Masked Generative Transformers
Structure and Content-Guided Video Synthesis with Diffusion Models
Generative Pretraining from Pixels
A hunt for the Snark: Annotator Diversity in Data Practices
Accurate global machine learning force fields for molecules with hundreds of atoms
Algorithms with More Granular Differential Privacy Guarantees
Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly Types
Are we cobblers without shoes? Making Computer Science data FAIR
Code Generation for In-Place Stencils
Creating, Calibrating, and Validating Large-Scale Microscopic Traffic Simulation
Increasing Impact of Mobile Health Programs: SAHELI for Maternal and Child Care
Designing Responsible AI: Adaptations of UX Practice to Meet Responsible AI Challenges
Developer Productivity for Humans: A Human-Centered Approach to Developer Productivity
Development of a Machine Learning Model for Sonographic Assessment of Gestational Age
Drug Design on Quantum Computers
Estimates of broadband upwelling irradiance from GOES-16 ABI
Information Processing and Management
Flake Aware Culprit Finding
Flexible Budgets in Restless Bandits: A Primal-Dual Algorithm for Efficient Budget Allocation
Helpful Neighbors: Leveraging Neighbors in Geographic Feature Pronunciation
High-Performance GPU-to-CPU Transpilation and Optimization via High-Level Parallel Constructs
Helpful Neighbors: Leveraging Neighbors in Geographic Feature Pronunciation
Infrastructuring Care: How Trans and Non-Binary People Meet Health and Well-Being Needs through Technology
KwikBucks: Correlation Clustering with Cheap-Weak and Expensive-Strong Signals
Learning to Bid in Contextual First Price Auctions
Machine Learning for Healthcare: A Bibliometric Study of Contributions from Africa
Scalable Decision-Focused Learning in Restless Multi-Armed Bandits with Application to Maternal and Child Health
Robust Planning over Restless Groups: Engagement Interventions for a Large-Scale Maternal Telehealth Program
Recitation-Augmented Language Models
RL4ReAl: Reinforcement Learning for Register Allocation
Quantum Simulation of Exact Electron Dynamics can be more Efficient than Classical Mean-Field Methods
Quantum simulation of exact electron dynamics can be more efficient than classical mean-field methods
Propeller: A Profile Guided, Relinking Optimizer for Warehouse-Scale Applications
Deepmind: Improving language models by retrieving from trillions of tokens
Deepmind: Building safer dialogue agents
Deepmind: Competitive programming with AlphaCode
Deepmind: Mastering Stratego, the classic game of imperfect information
Deepmind: DeepMind's latest research at NeurIPS 2022
Deepmind: Building interactive agents in video game worlds
Deepmind: Discovering novel algorithms with AlphaTensor
Deepmind: AlphaFold reveals the structure of the protein universe
Deepmind: Exploring the beauty of pure mathematics in novel ways
Deepmind: Nowcasting the next hour of rain
Deepmind: Putting the power of AlphaFold into the world's hands
Google Research: Deciphering clinical abbreviations with privacy protecting ML
Google Research: Google Research, 2022 & beyond: Language, vision and generative models
Google Research: Google Research, 2022 & beyond: Responsible AI
Google Research: Learning with queried hints
Google Research: Open Source Vizier: Towards reliable and flexible hyperparameter and blackbox optimization
Google Research: Google Research, 2022 & beyond: ML & computer systems
Google Research: Real-time tracking of wildfire boundaries using satellite imagery
Google Research: Breaching the 2 LMP Approximation Barrier for Facility Location with Applications to k-Median
Google Research: Chimane-Mosetén
Google Research: Differentially Private All-Pairs Shortest Path Distances: Improved Algorithms and Lower Bounds
Google Research: Differentially Private Fair Division
Google Research: DiffQG: Generating Questions on Paired Sentences
Google Research: Assessment of Security Defense of Native Programs Against Software Faults
Google Research: Adaptive mixing of auxiliary losses in supervised learning
OpenAI: Multimodal Neurons in Artificial Neural Networks
OpenAI: DALL·E: Creating Images from Text
OpenAI: CLIP: Connecting Text and Images
OpenAI: Image GPT
OpenAI: Jukebox
OpenAI: Solving Rubik's Cube with a Robot Hand
OpenAI: Multimodal Neurons in Artificial Neural Networks
OpenAI: CLIP: Connecting Text and Images
OpenAI: Image GPT
OpenAI: MuseNet
OpenAI: Emergent Tool Use from Multi-Agent Interaction
[2013/01] Efficient Estimation of Word Representations in Vector Space
[2014/12] Dependency-Based Word Embeddings
[2015/07] Neural Machine Translation of Rare Words with Subword Units
[2014/07] GloVe: Global Vectors for Word Representation : GloVe
[2016/06] Siamese CBOW: Optimizing Word Embeddings for Sentence Representations : Siamese CBOW
[2016/07] Enriching Word Vectors with Subword Information : fastText
[2014/09] Sequence to Sequence Learningwith Neural Networks : seq2seq
[2017/07] Attention Is All You Need : Transformer
[2017/08] Learned in Translation: Contextualized Word Vectors : CoVe
[2018/01] Universal Language Model Fine-tuning for Text Classification : ULMFIT
[2018/02] Deep contextualized word representations : ELMo
[2018/06] Improving Language Understanding by Generative Pre-Training : GPT-1
[2018/10] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding : BERT
[2019/02] Language Models are Unsupervised Multitask Learners : GPT-2
[2019/04] Language Models with Transformers
[2019/08] Neural Text Generation with Unlikelihood Training
[2019/01] Cross-lingual Language Model Pretraining XLM
[2019/01] Multi-Task Deep Neural Networks for Natural Language Understanding : MT-DNN
[2019/01] Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context : Transformer-XL
[2019/06] XLNet: Generalized Autoregressive Pretraining for Language Understanding : XLNet
[2019/04] The Curious Case of Neural Text Degeneration
[2019/09] Fine-Tuning Language Models from Human Preferences
[2019/01] BioBERT: a pre-trained biomedical language representation model for biomedical text mining : BioBERT
[2019/03] SciBERT: A Pretrained Language Model for Scientific Text : SciBERT
[2019/04] ClinicalBERT: Modeling Clinical Notes and Predicting Hospital Readmission : ClinicalBERT
[2019/06] HIBERT: Document Level Pre-training of Hierarchical Bidirectional Transformers for Document Summarization : HIBERT
[2019/07] SpanBERT: Improving Pre-training by Representing and Predicting Spans : SpanBERT
[2019/04] Publicly Available Clinical BERT Embeddings
[2019/08] Pre-Training with Whole Word Masking for Chinese BERT
[2019/07] Is BERT Really Robust? A Strong Baseline for Natural Language Attack on Text Classification and Entailment
[2019/07] R-Transformer: Recurrent Neural Network Enhanced Transformer : R-Transformer
[2019/09] FREELB: ENHANCED ADVERSARIAL TRAINING FOR LANGUAGE UNDERSTANDING : FREELB
[2019/09] Mixup Inference: Better Exploiting Mixup to Defend Adversarial Attacks
[2019/10] Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer : T5
[2018/07] Subword-level Word Vector Representations for Korean
[2019/08] Zero-shot Word Sense Disambiguation using Sense Definition Embeddings
[2019/06] Bridging the Gap between Training and Inference for Neural Machine Translation
[2019/06] Emotion-Cause Pair Extraction: A New Task to Emotion Analysis in Texts
[2019/07] A Simple Theoretical Model of Importance for Summarization
[2019/05] Transferable Multi-Domain State Generator for Task-Oriented Dialogue Systems
[2019/07] We need to talk about standard splits
[2019/07] ERNIE 2.0: A Continual Pre-training Framework for Language Understanding : ERNIE 2.0
[2019/05] SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems : SuperGLUE
[2020/01] Towards a Human-like Open-Domain Chatbot + Google AI Blog
[2020/03] ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators : ELECTRA
[2019/04] Mask-Predict: Parallel Decoding of Conditional Masked Language Models : Mask-Predict
[2020/01] Reformer: The Efficient Transformer : Reformer
[2020/04] Longformer: The Long-Document Transformer : Longformer
[2019/11] DialoGPT: Large-Scale Generative Pre-training for Conversational Response Generation : DialoGPT
[2020/01] Towards a Human-like Open-Domain Chatbot
[2020/04] You Impress Me: Dialogue Generation via Mutual Persona Perception
[2020/04] Recipes for building an open-domain chatbot
[2020/04] ToD-BERT: Pre-trained Natural Language Understanding for Task-Oriented Dialogues : ToD-BERT
[2020/04] SOLOIST: Few-shot Task-Oriented Dialog with A Single Pre-trained Auto-regressive Model : SOLOIST
[2020/05] A Simple Language Model for Task-Oriented Dialogue
[2019/07] ReCoSa: Detecting the Relevant Contexts with Self-Attention for Multi-turn Dialogue Generation : ReCoSa
[2020/04] FastBERT: a Self-distilling BERT with Adaptive Inference Time : FastBERT
[2020/01] PoWER-BERT: Accelerating BERT inference for Classification Tasks : PoWER-BERT
[2019/10] DistillBERT, a distilled version of BERT: smaller, faster, cheaper and lighter : DistillBERT
[2019/10] TinyBERT: Distilling BERT for Natural Language Understanding : TinyBERT
[2019/11] Not Enough Data? Deep Learning to the Rescue!
[2018/12] Conditional BERT Contextual Augmentation
[2020/03] Data Augmentation using Pre-trained Transformer Models
[2020/04] FLAT: Chinese NER Using Flat-Lattice Transformer : FLAT
[2019/12] Big Transfer (BiT): General Visual Representation Learning : BiT
[2019/04] ERNIE: Enhanced Representation through Knowledge Integration : ERNIE
[2019/07] ERNIE 2.0: A Continual Pre-training Framework for Language Understanding : ERNIE 2.0
[2020/06] ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph : ERNIE-ViL
[2020/12] ERNIE-Doc: A Retrospective Long-Document Modeling Transformer : ERNIE-Doc
[2021/07] ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation : ERNIE 3.0
[2022/10] Beyond English-Centric Bitexts for Better Multilingual Language Representation Learning
[2017/03] Distilling Task-Specific Knowledge from BERT into Simple Neural Networks
[2020/10] DiPair: Fast and Accurate Distillation for Trillion-Scale Text Matching and Pair Modeling : DiPair
[2021/08] Distilling Transformers for Neural Cross-Domain Search
[2020/06] DeBERTa: Decoding-enhanced BERT with Disentangled Attention : DeBERTa
[2020/11] VEGA: Towards an End-to-End Configurable AutoML Pipeline : VEGA
[2020/12] FILTER: An Enhanced Fusion Method for Cross-lingual Language Understanding : FILTER
[2019/12] StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding : StructBERT
[2019/04] Improving Multi-Task Deep Neural Networks via Knowledge Distillation for Natural Language Understanding : MT-DNN
[2021/05] Comparing Kullback-Leibler Divergence and Mean Squared Error Loss in Knowledge Distillation
중지
최신 MLLM 관련 스터디. 기본 오후에 진행. 논문, 강의, 코드, 뉴스, 블로그 등 다양한 자료로 학습.
MLLM, LLM, NLG, Dialogue, Reinforcement learning, Distillation, Efficient, Sentence similarity, multiple tasks, multimodal, Stable diffusion, TTS, Text-To-Video, All-To-All, 우주, 생명, 지능, 윤리, 규제, 법, 노화, 의학, 투자, 개발, 인프라, 디자인, 경영, ETC...
유망 스타트업 C레벨, 국내외 탑티어 연구자, 국내외 탑티어 대학, 대학원 재학생과 졸업생, 석학, 교수 등 A급 인재들이 최신 논문, 강의 등 스터디 및 프로젝트 진행.
기본 매주 수요일 오후 7시반. 사전 학습 없이 논문 읽기 최대 20분, 토론 최대 40분. 한 번에 1 ~ 10개 논문, 강의 등 진행. 지금까지는 항상 3개. 주제 논문 선정은 자유. 탑티어 학회 논문 및 프로젝트 제작 예정.
주말을 포함하여, 거의 매일 추가 스터디 존재. 흥미로운 주제거나 참여 되는 날만 중간에 들어와서 중간에 나가도 무관. 모든 규칙은 협의 가능. 오프라인 모임도 예정. 자율 참여.
| 數學 | 機器學習 | 變壓器 | 擁抱臉 |
|---|---|---|---|
![]() | ![]() | ![]() | |
| mathematics for machine learning | Pattern Recognition and Machine Learning | Getting Started with Google BERT | 使用變壓器的自然語言處理 |