一個輕量級的小框架,如果喜歡的話歡迎star~ 謝謝謝謝。如果遇到問題也可以提issue,保證會回复。
目前重構了一版分佈式訓練的版本,改下參數即可直接進行多GPU的訓練,而不需要額外的命令,不需要添加額外的代碼!歡迎前往https://github.com/920232796/bert_seq2seq_DDP 詳細了解
加載不同模型通過設置“model_name”參數實現,不同任務通過設置“model_class”參數實現,具體可以去看examples裡面的各種例子。
部分代碼參考了https://github.com/huggingface/transformers/ 和https://github.com/bojone/bert4keras 非常感謝! ! !
今天天氣好
,就和寶貝們一起去那裡看電影了,真的好好哦!環境什麼的都是沒得說的,電影很精緻,音效也很不錯,不知道這家店還開著沒有,希望有空的話可以經常去看看
輸入:
輸出: 
輸出:
如與其他藥物同時使用可能會發生藥物相互作用,詳情請諮詢醫師或藥師。 開水沖服,一次14克,一日3次。 養血,調經,止痛。用於月經量少、後錯,經期腹痛健民集團葉開泰國藥(隨州)有限公司1,忌食生冷食物。 2,患有其他疾病者,應在醫師指導下服用。 3,平素月經正常,突然出現月經過少,或經期錯後,應去醫院就診。 4,治療痛經,宜在經前3~5天開始服藥,連服一周,如有生育要求應在醫師指導下服用。 5,服藥後痛經不減輕,或重度痛經者,應到醫院診治。 6,服藥2週症狀無緩解,應去醫院就診。 7,對本品過敏者禁用,過敏體質者慎用。 8,本品性狀發生改變時禁止使用。 9,請將本品放在兒童不能接觸的地方。 10,如正在使用其他藥品,使用本品前請諮詢醫師或藥師。 本品為婦科月經不調類非處方藥藥品。 養血,調經,止痛。用於月經量少、後錯,經期腹痛。 養血,調經,止痛。用於月經量少、後錯,經期腹痛14g*5袋非處方藥物(乙類),國家醫保目錄(乙類) 孕婦禁用。糖尿病者禁服。


pip install bert-seq2seqpip install tqdm加載bert模型,model_name參數指定了用哪種bert,目前支持bert、roberta、nezha;model_class指定了使用bert做哪種任務,seq2seq表示生成任務,cls表示文本分類任務......
加載bert模型參數,注意,只是加載編碼器的參數,也就是從網上下載好的預訓練模型的參數;例如seq2seq模型包括了bert模型的參數+全連接層,此函數只是加載第一部分參數。
加載全部模型參數,當你訓練了部分時間,保存了模型以後,通過此函數便可以加載上次模型訓練結果,繼續訓練或者進行測試。
想看各種文章,可以去我網站~ http://www.blog.zhxing.online/#/ 搜索寫詩或者對聯或者NER或者新聞摘要文本分類即可找到對應文章。 多謝支持。
2021.11.12: 優化代碼,支持了roberta-large模型。
2021.10.12: 優化了ner的解碼方法,以前粗粒度的解碼方式存在bug。
2021.08.18: 優化了大量代碼,目前框架代碼看起來更加清晰了,刪除了大量冗餘的代碼。
2021.08.17: 支持了華為的nezha模型,很簡單,改一下model_name參數即可,歡迎測試效果。
2021.08.15: 添加了分詞的例子,tokenizer中添加了rematch代碼。
2021.07.29: 優化部分代碼,更簡潔了。
2021.07.20: 復現了SimBert模型,可以進行相似句的輸出,不過由於數據量太少,還有待測試。
2021.03.19: 支持模型擴展,可以不僅僅使用框架自帶的模型了,可以直接加載hugging face上面的模型進行訓練預測。
2021.03.12: 添加了gpt2中文訓練的例子,周公解夢。
2021.03.11: 添加了gpt2例子,可以進行文章的續寫。
2021.03.11: 添加了一個隨機生成的解碼方式,生成更加多樣了。
2021.03.08: beam search 返回n個結果,隨機取某個作為輸出。
2021.02.25: 添加了一個語義匹配的例子。
2021.02.06: 調整了device的設置方式,現在更加的方便了。
2021.1.27: 調整了框架的代碼結構,改動較多,如果有bug,歡迎提issue。
2021.1.21: 添加了一個新的例子,人物關係提取分類。
2020.12.02: 調整了一些代碼,並且添加了幾個測試的文件,可以很方便的加載已經訓練好的模型,進行對應任務的測試。
2020.11.20: 添加了一個例子,三元組抽取f1目前能到0.7。添加了新聞摘要文本分類的測試代碼。
2020.11.04: 跑了跑bert-crf做普通ner任務的例子,效果不錯。
2020.10.24: 調整了大量代碼,添加了THUCNews數據集的自動摘要例子~現在的話,訓練應該效果很好了,以前可能出現預訓練參數加載不上的情況,效果有時會很差。
2020.10.23: 調整了一些代碼結構,把每個例子裡面的一些變量寫為全局變量了,改了下beam-search的代碼,更精簡了。不過暫時不支持寫詩裡面的押韻了。以後補上。
2020.09.29: 新增了天池醫學ner比賽的訓練例子(醫學ner_train.py),詳情可見比賽界面:https://tianchi.aliyun.com/competition/entrance/531824/information
2020.08.16: 新增了詩詞對聯聯合訓練的例子(詩詞對聯_train.py),可以同時寫詩寫詞作對聯了;另外新增了詩詞的測試代碼,模型訓練好了可以進行測試。
2020.08.08: 本次更新的內容較多,1. 添加了自動摘要的例子(auto_title.py) 2. 添加了精簡詞表的代碼,原本3W個字縮減為1W多(因為某些字永遠不會出現) 3. 修改了部分beam-search代碼,效果更好了。 4. 細粒度ner暫時不能使用了,數據有點問題,因此暫時放入test文件夾,如果找到合適的數據,可以使用5. 新增test文件夾,訓練好的模型可以在裡面進行測試,看看效果。
2020.06.22: 補充了Conditional Layer Norm 的一篇文章。解釋了部分代碼。 http://www.blog.zhxing.online/#/readBlog?blogId=347
2020.06.21: 更新了很多代碼,復現了一個三元組抽取的例子(三元組抽取_train.py)~
2020.06.02: 最近一直在忙畢業的事情,還有個比賽,暫時不更新了,以後會一直更新噠。
2020.04.18: 訓練了bert+crf模型,crf層學習率好像不夠高,還需要改善(現在已經可以單獨設置crf層學習率了,一般設為0.01)。
2020.04.13: 添加了NER任務+ CRF層Loss,跑通了訓練例子,但是還沒有添加維特比算法。
2020.04.11: 計劃給NER任務添加一個CRF層。
2020.04.07: 添加了一個ner的example。
2020.04.07: 更新了pypi,並且加入了ner等序列標註任務的模型。
2020.04.04: 更新了pypi上面的代碼,目前最新版本0.0.6,請用最新版本,bug會比較少。
2020.04.04: 修復了部分bug,添加了新聞標題文本分類的例子
2020.04.02: 修改了beam-search中對於寫詩的重複字和押韻懲罰程度,可能效果會更好。
2020.04.02: 添加了周公解夢的task
2020.04.02: 添加了對對聯的task
2020.04.01: 添加了寫詩的task
2020.04.01: 重構了代碼,開始訓練一個新的任務花費時間更少。
python setup.py sdist twine upload dist/bert_seq2seq-2.3.5.tar.gz