瑞士和德國的學(xué)者在ECHA的REACH注冊物質(zhì)數據庫中分析了8,590種物質(zhì),發(fā)現其中4.3%的物質(zhì),基于分子結構的化學(xué)身份信息存在不一致的情況。這樣的信息可能會(huì )導致對化學(xué)風(fēng)險得出錯誤的結論,特別是當風(fēng)險評估依賴(lài)于群組或QSAR結果時(shí),因此,正確的化學(xué)結構至關(guān)重要。
研究人員對以下三個(gè)數據庫進(jìn)行了對比分析:
1. ECHA數據庫,涵蓋了23,000多種物質(zhì);
2. 由美國國家衛生研究院運營(yíng)的開(kāi)放式化學(xué)數據庫PubChem,包含1.1億個(gè)獨立的化學(xué)結構;
3. 由美國環(huán)境保護局運營(yíng)的CompTox化學(xué)品指示板,包含900,000多種化學(xué)物質(zhì)。
他們重點(diǎn)關(guān)注了ECHA數據庫中37%的有機單組分物質(zhì),不包括中間體和卷宗中沒(méi)有來(lái)源或成分信息的物質(zhì),研究人員在其他數據庫中查詢(xún)相同的物質(zhì)進(jìn)行了比較。在這三個(gè)數據庫中,共有736個(gè)不一致的條目,還有48個(gè)條目的物質(zhì)身份不明確。根據簡(jiǎn)化分子線(xiàn)性輸入規范(SMILES)字符串,這些條目是不一致的,該字符串通過(guò)一行文本描述了化合物的完整分子結構。
在ECHA數據庫中,不一致的條目數量占4.3%,在CompTox化學(xué)品指示板中占3%,在PubChem中占2.8%。如果SMILES字符串中的單個(gè)原子、分子的部分或整個(gè)物質(zhì)是不正確的,可能會(huì )導致QSAR建模的預測出現“重大錯誤”,將會(huì )導致風(fēng)險評估結果出現極大的不確定性。因此,不一致的條目數量表明數據庫中的數據篩選工作進(jìn)行得仍然不夠充分,還需要進(jìn)行更多的工作。