Международен химичен идентификатор
From Wikipedia, the free encyclopedia
Международният химичен идентификатор (на английски: International Chemical Identifier, InChI) е текстов идентификатор за химични вещества, предназначен да предостави стандартен начин за кодиране на молекулярна информация и да улесни търсене на такава информация в бази данни и в мрежата. Първоначално разработенr от Международния съюз за чиста и приложна химия (IUPAC) и Националния институт за стандарти и технологии (NIST) от 2000 до 2005 г., форматът и алгоритмите не са патентовани. От май 2009 г. идентификаторът се разработва от InChI Trust, благотворителна организация с нестопанска цел от Обединеното кралство, която работи за внедряване и насърчаване на използването на InChI.[3]
Международен химичен идентификатор International Chemical Identifier | |
Информация | |
---|---|
Разработчик | InChI Trust |
Начална версия | април 15, 2005 (2005-04-15)[1][2] |
Последна версия | 1.06 |
Операционна система | Microsoft Windows и Unix-like |
Платформа | IA-32 и x86-64 |
Език на интерфейса | en |
Лиценз | IUPAC / InChI Trust Licence |
Уебсайт | www.inchi-trust.org |
Идентификаторите описват химичните вещества от гледна точка на слоеве информация — атомите и тяхната свързаност на връзките, тавтомерна информация, изотопна информация, стереохимия и информация за електронен заряд.[4] Не трябва да се предоставят всички слоеве; например тавтомерният слой може да бъде пропуснат, ако този тип информация не е от значение за конкретното приложение. Алгоритъмът InChI преобразува входната структурна информация в уникален InChI идентификатор в процес от три стъпки: нормализация (за премахване на излишната информация), канонизация (за генериране на уникален етикет с номер за всеки атом) и сериализация (за даване на низ от знаци).
Идентификаторите InChI се различават от широко използваните регистрационни номера CAS в три аспекта: първо, те са свободно използваеми и не са частни; второ, могат да бъдат изчислени от структурна информация и не е необходимо да бъдат присвоени от някаква организация; и трето, по-голямата част от информацията в InChI е четима от човека (с практика). Следователно идентификаторите InChI могат да се разглеждат като подобни на общата и изключително формализирана версия на номенклатурата по IUPAC. Те могат да изразят повече информация от по-простата нотация SMILES и, за разлика от низовете SMILES, всяка структура има уникален низ InChI, което е важно в приложенията за бази данни.
InChIKey, понякога наричан хеширан InChI, е съкратено цифрово представяне на InChI с фиксирана дължина (27 знака), което не е разбираемо от хората. Спецификацията InChIKey е пусната през септември 2007 г., за да улесни търсенето в мрежата на химични съединения, тъй като те са проблематични с пълната дължина на InChI.[5] За разлика от InChI, InChIKey не е уникален: въпреки че се очаква конфликтите да бъдат изключително редки (ако изобщо съществуват), има известни конфликти.[6]