Como supercomputadores podem acelerar pesquisas clínicas

Lightspeed é o nome de um projeto que lançou no mercado uma vacina contra a Covid-19 em velocidade recorde. No entanto projetos excepcionais desse tipo não devem esconder o fato de que o desenvolvimento de novos medicamentos geralmente tem um ritmo muito lento, demorando, em média, 13 anos desde a ideia até a primeira aprovação. Um dos desafios aqui, são as enormes quantidade e variedade de dados descentralizados que precisam ser analisados em estudos clínicos de medicamentos. Todos estritamente regulamentados por leis e padrões da indústria.

O desafio da Análise de Dados

O volume de dados em empresas farmacêuticas baseados em pesquisa há muito atingiu dimensões de petabyte. Além do volume absoluto, é um conjunto de dados extremamente heterogêneo: há dados estruturados na forma de medições farmacodinâmicas (dosagem, valores sanguíneos, valores hepáticos etc.) ao lado de dados não estruturados (fotos, raios x, varreduras de tomografias computadorizadas etc.). Além dos resultados dos testes dos ciclos interativos de um ensaio, há informações pessoais sobre sujeitos e pacientes, dados organizacionais e a comparação com resultados de pesquisas existentes - e isso, dependendo do programa de estudo, para centenas ou mesmo milhares de sujeitos. Em estudos de fase IV, que visam detectar efeitos colaterais muito raros depois que um medicamento é lançado no mercado, pode haver dezenas ou centenas de milhares de participantes.

Esses dados são gerados em várias organizações. Nos testes, as empresas farmacêuticas cooperam com parceiros, como universidades e organizações de pesquisa contratadas. Como consequência, existem requisitos extraordinários com relação a armazenamento, acesso, distribuição e análise de dados. As empresas e instituições pesquisadoras devem ser capazes de trabalhar com os dados coletivamente - às vezes, além das fronteiras nacionais - e em conformidade com os regulamentos de proteção de dados.

Além disso, é crucial avaliar os massivos dados o mais rápido possível, para acelerar o tempo de lançamento no mercado. Entretanto nenhuma plataforma de computação é igualmente adequada a todas as cargas de trabalho. Um sistema de Computação de Alto Desempenho (HPC ou High Performance Computing) com processadores convencionais (CPU) poderia, por exemplo, ser ideal para modelagem farmacocinética; já uma análise de aprendizado de máquina roda significativamente mais rápido com processadores gráficos (GPU).

Nova arquitetura de dados necessária

As organizações de pesquisa, portanto, precisam de uma arquitetura de dados que seja projetada para emparelhar uma enorme quantidade de dados de forma flexível com a capacidade de computação mais adequada - tanto CPU quanto GPU, seja no data center de uma empresa farmacêutica, seja em empresa parceira, seja na nuvem.

A arquitetura de dados deve ser altamente escalável e capaz de mesclar logicamente bancos de dados heterogêneos e globalmente distribuídos em um data lake - com um Namespace uniforme entre os locais (veja imagem abaixo). Isso permite que equipes de pesquisa de diferentes organizações acessem conjuntamente os pools de dados - mas apenas aqueles que são aprovados para eles. O pré-requisito para isso é a multilocação e um modelo de segurança uniforme. Isso é necessário para garantir a conformidade com padrões como GxP, que são diretrizes de boas práticas estabelecidas pela Food and Drug Administration dos EUA. A flexibilidade multiplataforma só é possível se os dados forem seguros, rastreáveis e íntegros.

Uma chamada malha de dados unifica fontes de dados distribuídas e heterogêneas em um único namespace. É o centro por meio do qual os locais de pesquisa, serviços em nuvem e empresas parceiras são integrados em um ciclo de dados - como fornecedores ou como destinatários de dados e análises. (Fonte: HPE)

A capacidade de mover aplicativos entre ambientes HPC, por exemplo, para poder terceirizá-los durante cargas de pico, também traz enormes vantagens. O método escolhido aqui é a conteinerização, no qual os aplicativos são executados em ambientes protegidos (contêineres) próximos ao sistema operacional. Isso permite que os ambientes sejam configurados e desmontados rapidamente, e possibilita a migração de cargas de trabalho sem problemas, por exemplo, para a nuvem e vice-versa. Em um ambiente de contêiner, você tem acesso uniforme a todas as bibliotecas e dependências sem ter que gerenciar cada plataforma individualmente - isso é particularmente útil, se elas forem criadas dinamicamente na nuvem e, em seguida, removidas.

Em termos de custos, outro fator representa um grande progresso para as empresas farmacêuticas: os provedores de TI estão mudando a fim de fornecer recursos de hardware (computadores, armazenamento, redes) como um serviço, não apenas através da nuvem, mas nas instalações do cliente. Os modelos de licença sob demanda permitem que o cliente obtenha recursos em curto prazo e pague por eles com base no uso real (veja a imagem abaixo). Isso estende a agilidade da Nuvem Pública para o data center corporativo.

Os provedores de TI estão mudando para fornecer infraestrutura de TI como um serviço, não apenas por meio da nuvem, mas também localmente nas instalações do cliente. Os recursos podem ser obtidos em curto prazo e são pagos com base no uso. Isso estende a agilidade da Nuvem Pública para o data center corporativo. (Fonte: HPE)

Exemplo prático

Na pesquisa cotidiana, poderia ser assim: para a terceira fase de um estudo clínico duplo-cego com 2.000 sujeitos de teste, uma clínica universitária usa o cluster HPC interno, que é otimizado para seus aplicativos de análise interna. Vários laboratórios especializados recebem autorização para enriquecer determinados pools de dados com os seus próprios resultados laboratoriais via acesso remoto. Para a avaliação baseada em IA de varreduras de tomografia computadorizada, a clínica usa capacidades ativadas temporariamente de sistemas baseados em GPU. No entanto, para comparação estatística com os resultados da segunda fase de teste e busca de anormalidades, ela executa o aplicativo de aprendizado de máquina em uma Nuvem Privada hospedada em um provedor de serviços local.

Nesse cenário, dois fatores economizam um tempo valioso no caminho para o lançamento no mercado da nova droga: em primeiro lugar, a utilização do ambiente computacional mais adequado em cada caso e, em segundo lugar, a capacidade de realizar etapas de trabalho externamente e, portanto, em paralelo, sem perdas por atrito e de acordo com as normas e regulamentos. Um efeito colateral positivo: graças ao licenciamento sob demanda dos pools de recursos, a empresa sempre mantém o controle sobre os custos - sem ter que investir pesado em sistemas HPC com antecedência, como acontecia anteriormente.

Disponibilidade de mercado mais rápida

A arquitetura de dados certa pode reduzir significativamente o tempo de lançamento no mercado - de preferência em combinação com três outros fatores. Em primeiro lugar, com a conteinerização para disponibilizar os aplicativos no local necessário e evitar sobrecarregar os sistemas HPC locais. Segundo, com uma arquitetura de segurança multilocatária para colaboração compatível entre a comunidade de pesquisa. Em terceiro lugar, com pagamento baseado no consumo para recursos de computação, armazenamento e rede. Com essa abordagem, uma empresa farmacêutica pode monetizar os resultados de seu trabalho de pesquisa mais cedo - e por mais tempo, à medida que aumenta a vida útil até o vencimento da patente. O lançamento mais rápido de novos medicamentos no mercado não é uma ciência espacial, mas simplesmente o resultado de conceitos de sourcing inovadores e uma arquitetura de dados inteligente.