Cómo S&P está utilizando el arañazo web profundo, el enseñanza del conjunto y la obra de copo de cocaína para compilar 5 veces más datos sobre las PYME


Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información


El mundo de la inversión tiene un problema significativo cuando se proxenetismo de datos sobre pequeñas y medianas empresas (PYME). Esto no tiene mínimo que ver con la calidad o precisión de los datos: es la descuido de datos.

Evaluar la solvencia de la PYME ha sido notoriamente desafiante porque los datos financieros empresariales pequeños no son públicos y, por lo tanto, son muy difíciles de ceder.

S&P Entero Market Intelligenceuna división de S&P Entero y un principal proveedor de calificaciones crediticias y puntos de narración, afirma tener resuelto este problema de larga data. El equipo técnico de la compañía construido Risidgaugeuna plataforma con IA que rastrea datos evasivos de más de 200 millones de sitios web, lo procesa a través de numerosos algoritmos y genera puntajes de aventura.

Construido sobre la obra de copo de cocaína, la plataforma ha aumentado la cobertura de las PYME de S&P en 5x.

“Nuestro objetivo era la expansión y la eficiencia”, explicó Moody Hadi, superior de progreso de productos de S&P Entero, de Risk Solutions. “El esquema ha mejorado la precisión y la cobertura de los datos, beneficiando a los clientes”.

La obra subyacente de RiskGauge

La encargo de crédito de la contraparte esencialmente evalúa la solvencia y el aventura de una empresa en función de varios factores, incluidas las finanzas, la probabilidad de incumplimiento y el apetito de aventura. S&P Entero Market Intelligence proporciona estas ideas a inversores institucionales, bancos, compañías de seguros, administradores de patrimonio y otros.

“Las entidades corporativas grandes y financieras prestan a los proveedores, pero necesitan enterarse cuánto prestar, con qué frecuencia monitorearlos, cuál sería la duración del préstamo”, explicó Hadi. “Confían en terceros para obtener un puntaje de crédito confiable”.

Pero durante mucho tiempo ha habido una brecha en la cobertura de las PYME. Hadi señaló que, mientras que las grandes empresas públicas como IBM, Microsoft, Amazon, Google y el resto deben revelar sus finanzas trimestrales, las PYME no tienen esa obligación, lo que limita la transparencia financiera. Desde una perspectiva de los inversores, considere que hay aproximadamente de 10 millones de PYME en los Estados Unidos, en comparación con aproximadamente 60,000 empresas públicas.

S&P Entero Market Intelligence afirma que ahora tiene todos los cubiertos: anteriormente, la empresa solo tenía datos sobre aproximadamente 2 millones, pero Riskgauge lo expandió a 10 millones.

La plataforma, que entró en producción en enero, se sostén en un sistema creado por el equipo de Hadi que extrae datos firmáticos del contenido web no estructurado, lo combina con conjuntos de datos de terceros anónimos y aplica el enseñanza maquinal (ML) y algoritmos avanzados para ocasionar puntajes de crédito.

La compañía utiliza el copo de cocaína para las páginas de la compañía de minas y las procesa en conductores de la firmagráfica (segmentadores de mercado) que luego se alimentan de RiskGauge.

La tubería de datos de la plataforma consta de:

  • Rastreadores/raspadores web
  • Una capa de preprocesamiento
  • Mineros
  • Curadores
  • Riskgauge puntuación

Específicamente, el equipo de Hadi utiliza los servicios de almacén de datos de Snowflake y los servicios de contenedores de Snowpark en el medio de los pasos de preprocesamiento, minería y curación.

Al final de este proceso, las PYME se califican en almohadilla a una combinación de aventura financiero, comercial y de mercado; 1 siendo el más stop, 100 el más bajo. Los inversores asimismo reciben informes sobre RiskGauge que detalla finanzas, firmegrafía, informes de crédito comercial, desempeño histórico y desarrollos esencia. Todavía pueden comparar empresas con sus compañeros.

Cómo S&P está recopilando valiosos datos de la empresa

Hadi explicó que Riskgauge emplea un proceso de raspado de múltiples capas que extrae varios detalles del dominio web de una empresa, como las páginas básicas de “Contáctenos” y de destino e información relacionada con las informativo. Los mineros bajan varias capas de URL para rozar datos relevantes.

“Como puedes imaginar, una persona no puede hacer esto”, dijo Hadi. “Va a aguantar mucho tiempo para un humano, especialmente cuando se proxenetismo de 200 millones de páginas web”. Lo que, señaló, da como resultado varios terabytes de información del sitio web.

Posteriormente de que se recopilan los datos, el posterior paso es ejecutar algoritmos que eliminen cualquier cosa que no sea texto; Hadi señaló que el sistema no está interesado en JavaScript o incluso etiquetas HTML. Los datos se limpian para que se vuelva descifrable por humanos, no en el código. Luego, se carga en el copo de cocaína y varios mineros de datos se ejecutan contra las páginas.

Los algoritmos de conjunto son críticos para el proceso de predicción; Estos tipos de algoritmos combinan predicciones de varios modelos individuales (modelos almohadilla o ‘alumnos débiles’ que son esencialmente un poco mejores que la profecía aleatoria) para validar la información de la empresa como nombre, descripción comercial, sector, ubicación y actividad operativa. El sistema asimismo tiene en cuenta la polaridad en el sentimiento en torno a los anuncios revelados en el sitio.

“Posteriormente de remolcar un sitio, los algoritmos alcanzaron diferentes componentes de las páginas sacados, y votan y regresan con una recomendación”, explicó Hadi. “No hay humanos en el tirabuzón en este proceso, los algoritmos básicamente compiten entre sí. Eso ayuda con la eficiencia para aumentar nuestra cobertura”.

Posteriormente de esa carga original, el sistema monitorea la actividad del sitio, ejecutando automáticamente escaneos semanales. No actualiza la información semanalmente; Solo cuando detecta un cambio, Hadi agregó. Al realizar escaneos posteriores, una esencia hash rastrea la página de destino desde el rastreo preparatorio, y el sistema genera otra esencia; Si son idénticos, no se hicieron cambios y no se requieren ninguna movimiento. Sin confiscación, si las teclas hash no coinciden, el sistema se activará para refrescar la información de la empresa.

Este raspado continuo es importante para asegurar que el sistema permanezca lo más actualizado posible. “Si están actualizando el sitio con frecuencia, eso nos dice que están vivos, ¿verdad?”, Señaló Hadi.

Desafíos con velocidad de procesamiento, conjuntos de datos gigantes, sitios web inmundos

Había desafíos que exceder al construir el sistema, por supuesto, particularmente correcto al gran tamaño de los conjuntos de datos y la condición de un procesamiento rápido. El equipo de Hadi tuvo que hacer compensaciones para equilibrar la precisión y la velocidad.

“Seguimos optimizando diferentes algoritmos para funcionar más rápido”, explicó. “Y ajustes; algunos algoritmos que teníamos eran efectivamente buenos, tenían reincorporación precisión, reincorporación precisión, stop retiro, pero eran computacionalmente demasiado costosos”.

Los sitios web no siempre se ajustan a los formatos en serie, que requieren métodos de raspado flexibles.

“Escuchas mucho sobre el diseño de sitios web con un adiestramiento como este, porque cuando comenzamos originalmente, pensamos: ‘Oye, cada sitio web debería ajustarse a un atlas de sitios o XML'”, dijo Hadi. “¿Y adivina qué? Nadie sigue eso”.

No querían codificar o incorporar la automatización de procesos robóticos (RPA) en el sistema porque los sitios varían tan ampliamente, dijo Hadi, y sabían que la información más importante que necesitaban era en el texto. Esto condujo a la creación de un sistema que solo extrae los componentes necesarios de un sitio, luego lo limpia para el texto vivo y descarga el código y cualquier JavaScript o TypeScript.

Como Hadi señaló, “los mayores desafíos fueron el rendimiento y el ajuste y el hecho de que los sitios web por diseño no están limpios”.


Related Posts

Última oportunidad para descargar el texto de jugadas de control de ciberseguridad (con un valía de $ 100) de balde

Patrocinado Cuando transacción a través de enlaces en nuestro sitio, podemos obtener una comisión de afiliación. Así es como funciona. Patrocinado · 4 de junio de 2025 11:00 EDT Demandar…

Utensilio de respaldo de cuenta de correo electrónico gratuita Vanderplanki

MailStore Home ha sido mi decisión de respaldo de correo electrónico para más de una lapso. La decisión gratuita para usuarios domésticos es dócil de usar, incluye la funcionalidad de…

Leave a Reply

Your email address will not be published. Required fields are marked *

You Missed

Última oportunidad para descargar el texto de jugadas de control de ciberseguridad (con un valía de $ 100) de balde

Última oportunidad para descargar el texto de jugadas de control de ciberseguridad (con un valía de $ 100) de balde

Secretos para conseguir visa a Estados Unidos revelados por un excónsul – Remolacha

Secretos para conseguir visa a Estados Unidos revelados por un excónsul – Remolacha

GBC Botica alabarda concurso para premiar fidelidad de sus clientes con 5 carros nuevos

GBC Botica alabarda concurso para premiar fidelidad de sus clientes con 5 carros nuevos

Gobierno anuncia 300 becas en tecnologías emergentes para jóvenes dominicanos

Gobierno anuncia 300 becas en tecnologías emergentes para jóvenes dominicanos

Ucrania avala a ataque de Rusia con audaces sabotajes | AlMomento.net

Ucrania avala a ataque de Rusia con audaces sabotajes | AlMomento.net

Angelina Jolie cumple hoy 50 primaveras como el ojo crítico de Hollywood y consagrada voz del acción directa

Angelina Jolie cumple hoy 50 primaveras como el ojo crítico de Hollywood y consagrada voz del acción directa