IBM 在五月份迈出了重要一步,宣布开源其适用于企业应用场景的 Granite13B 大语言模型(LLM)。这一举措不仅展示了IBM在人工智能领域的领先地位,也为企业用户提供了强大的工具,帮助他们更好地应对复杂的业务需求。近日,IBM AI 平台产品副总裁阿曼德・鲁伊兹(Armand Ruiz)进一步公开了用于训练 Granite13B 的完整数据集,该数据集总量高达6.48TB,涵盖了多个领域的丰富信息。

值得注意的是,这个庞大的数据集经过严格的预处理后,缩减至2.07TB,减少了68%。鲁伊兹在公开数据时强调,这一预处理步骤对于确保数据集的高质量、无偏见以及符合伦理和法律要求至关重要。企业应用场景对数据的准确性和可靠性有着极高的要求,因此IBM在这一过程中投入了大量资源,确保最终的数据集能够满足这些需求。
数据集的内容来源广泛,涵盖了多个领域的权威数据。其中包括来自arXiv的超过240万篇科学论文预印本,Common Crawl的开放网络抓取数据,以及DeepMind Mathematics的数学问答对。此外,数据集还包含了来自美国法院的公共领域法律意见(Free Law)、CodeParrot提供的GitHub Clean代码数据,以及2007年至2018年间的Hacker News计算机科学和企业家新闻。
其他重要的数据来源还包括OpenWeb Text(OpenAI Web Text语料库的开源版本)、Project Gutenberg(专注于早期作品的免费电子书)、Pubmed Central的生物医学和生命科学论文,以及美国证券交易委员会(SEC)的10-K/Q提交文件(1934-2022年)。此外,数据集还纳入了Stack Exchange网络上的用户贡献内容、1975年至2023年5月间授予的美国专利(USPTO)、Webhose提供的非结构化网络内容,以及八个英文维基媒体项目的内容。
在预处理过程中,IBM采用了多种技术手段,包括文本提取、去重、语言识别、句子分割,以及对仇恨、滥用和粗话的标注。此外,文档质量标注、URL屏蔽标注、过滤和标记化等步骤也被应用于数据集中。这些步骤确保了数据集的纯净性和高质量,为模型的训练奠定了坚实的基础。
IBM不仅公开了数据集,还发布了Granite代码模型的四个版本,参数范围从30亿到340亿不等。这些模型在一系列基准测试中表现出色,并在许多任务中超越了其他可比模型,如Code Llama和Llama3。这一成就进一步证明了IBM在人工智能领域的技术实力和创新能力。
总结来说,IBM的这一系列举措不仅为企业用户提供了强大的工具,也为人工智能领域的发展做出了重要贡献。通过公开高质量的数据集和性能卓越的模型,IBM正在推动AI技术在企业应用中的广泛普及,并为未来的创新铺平道路。