artificial self AMLD 2020
1.0.0
该存储库包含用于应用机器学习日工作坊的所有资源。
在此研讨会中,参与者的任务是下载自己的聊天日志,并构建一个聊天机器人,该聊天机器人会生成类似于其写作的文本。作为使用聊天日志的替代方法,我们在此存储库中提供了许多其他对话(和非转换数据集)数据集。
在研讨会期间随时加入我们的吉特:
在这里找到车间幻灯片。
研讨会分为三个任务。您可以在本地运行每个任务(通过克隆此存储库)或运行COLAB笔记本(请参见下面的链接)。如果您在本地运行,请确保您可以访问GPU(S),并且正在运行Python 3.6+(还要确保您有足够的存储空间)。不同的子文件夹中提供了更详细的说明。
各种数据集上的微调GPT-2(包括推文,诗歌,编程代码,国际象棋,音乐等!)。感谢@Manueth编译数据集!
➡️阅读更多
我们使用相同的样式转移方法来训练我们的聊天日志中的对话模型。您可以使用chandistics解析自己的聊天日志,也可以使用一些提供的资源。感谢@masterscrat编译对话数据集!
➡️阅读更多
我们通过引入多任务学习,改进数据预处理并添加令牌类型来扩展任务2中的方法。
➡️阅读更多