База данни с патенти за 15 милиона химични структури стана публична
Наскоро запасът в интернет от безплатна информация, свързана с химията се увеличи значително. Европейският институт по биоинформатика (EBI) е пуснал уеб сайта www.surechembl.org, който позволява на всяко лице да търси сред 15 милиона химични структури, извличани автоматично чрез софтуер за извличане на данни от патенти, публикувани по цял свят.
Инициативата прави обществено достъпна база данни с обем 4 терабайта, която до момента е била продавана с търговска цел от софтуерната компания SureChem. SureChem са се съгласили да прехвърлят информацията си към EBI и да позволят на института да използва софтуера, за да продължи извличането на данни от патентите.
“За пръв път световна колекция от химични патенти се прави публично достояние, отбелязвайки значителен напредък в предоставянето на информация за използване при откриването на лекарства,” се казва в изявление на Digital Science – компанията, доскорошен притежател на SureChem.
Съгласно сключеното споразумение, Digital Science ще се въздържа от използването на софтуера на SureChem; компанията е в процес на закриване, тъй като собствениците и искат да се фокусират върху подпомагането на изследователи, а не на търговски клиенти като фармацевтичните фирми.
Според Джон Оувърингтън, ръководител изчислителна химична биология в EBI “Учените са свикнали да правят своите търсения в научната литература, но патентната литература е мястото, където често лежат истинските съкровища, особено при транслационна наука”. Той посочва, че публикуваните документи изостават от патентната литература с около две години. EBI планира да обедини информацията за химични съединения от различни обществено достъпни източници. Например, търсене за дадено съединение ще разкрие наличието му в патенти (от SureChemBL), както и взаимодействия с потенциални протеинови лекарствени мишени (от бази данни като ChemBL на EBI, която каталогизира експерименти, извършени върху съединения).
Оувърингтън се надява да започне прилагането на софтуера на SureChem, за да извлича информация за структури от научни статии, започвайки от статиите за свободно ползване, намиращи се в хранилища като Europe PubMed Central. Но възстановяването на информация от документи е по-трудно, тъй като структурите често не са посочени или изобразени точно, а само се споменават като варианти на по-обща молекулна структура.
Исторически погледнато, химиците досега не са се възползвали от безплатен онлайн достъп до информация, а е трябвало да плащат, за да я получат от частни бази данни.
Източник: Nature Publishing Group