La inteligencia artificial china cautiva a Silicon Valley
De la versión impresa del WSJ página B1 y B4 del 27 de enero del 2025
Por Rafaele Huang
Singapur—Una empresa china de inteligencia artificial
ha dejado a Silicon Valley maravillada
por cómo sus programadores casi
igualan a sus rivales estadounidenses a pesar de utilizar chips inferiores.
Los modelos de IA de DeepSeek, la empresa china, han
ascendido al top 10 mundial en
rendimiento, según una clasificación
popular, lo que sugiere que las restricciones a las exportaciones de Washington están teniendo
dificultades para bloquear los rápidos
avances en China.
..........................................................................................
Las empresas podrían reducir
la brecha con EE.UU. Los especialistas dijeron que la tecnología de DeepSeek
aún está por detrás de la de OpenAI
y Google. Pero es un rival cercano a pesar de utilizar menos chips y
menos avanzados, y en
algunos casos saltándose pasos que los desarrolladores estadounidenses consideraban esenciales.
............................................
DeepSeek dijo que entrenar uno
de sus últimos modelos costó 5,6
millones de dólares, en comparación con el rango de 100 millones a 1.000 millones de dólares que citó el año pasado Dario
Amodei, director ejecutivo del desarrollador de
IA Anthropic, como el costo de construir un modelo.
Barrett Woodside, cofundador de la empresa de hardware de IA Positron de San Francisco, dijo que él y sus colegas
han estado entusiasmados con DeepSeek. "Es muy bueno", dijo
Woodside, señalando los modelos de código abierto de DeepSeek, en los que el código de software detrás del modelo de IA está disponible
gratuitamente.
Los usuarios de los últimos modelos de DeepSeek
................................................
El modelo insignia, llamado V3 y
lanzado en diciembre, ha notado que se niega a responder
preguntas políticas delicadas
sobre China y el líder Xi Jinping. En algunos casos, el producto da respuestas en línea con la
propaganda oficial de Beijing en lugar de incluir
la perspectiva de los críticos del gobierno, como lo hace ChatGPT.
“El único punto en su contra es
una censura a medias de la República Popular China”, dijo Woodside, refiriéndose
a la República Popular de China, pero dijo que esto podría
eliminarse, ya que otros desarrolladores pueden modificar libremente el código.
DeepSeek dijo que R1 y V3
ambos funcionaron mejor o casi tan bien como los principales modelos occidentales. Hasta el sábado, los
dos se clasificaron entre los 10 primeros en
Chatbot Arena, una plataforma
alojada por investigadores de la Universidad de California, Berkeley, que
evalúa el rendimiento de los chatbots. Un
modelo de Google Gemini
estuvo en el primer puesto, mientras que DeepSeek
superó a Claude de Anthropic y
a Grok de xAI de Elon Musk.
DeepSeek surgió de la unidad de
investigación de IA de High-Flyer, un
gestor de fondos de cobertura con $8
Pase a la página B4
..........................................................
mil millones en activos que es conocido
por aprovechar la IA para operar.
“Cuando los humanos toman decisiones de inversión, es un arte,
y lo hacen simplemente por intuición. Cuando los programas
de computadora toman tales decisiones, es una ciencia, y tiene la
solución óptima”, dijo Liang en
un discurso de 2019.
Nacido en 1985, Liang creció
en la provincia de Guangdong y se
especializó en visión artificial
en la prestigiosa Universidad de Zhejiang de China. Fundó High-
Flyer con dos amigos de la universidad
en 2015.
Liang prefiere ser visto como
un ingeniero en lugar de un
comerciante, según personas
cercanas a él. High-Flyer fue
pionero en China en la aplicación del aprendizaje profundo al
comercio computarizado. La técnica, modelada en el cerebro humano, permite a las computadoras analizar
,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
tipos de datos más diversos.
Si bien el modelo insignia de DeepSeek es gratuito, la empresa cobra a los usuarios por conectar sus propias aplicaciones al modelo y la infraestructura informática de DeepSeek. Un ejemplo es una empresa que desea aprovechar la tecnología para dar respuestas de IA a las consultas de los clientes.
A principios del año pasado, DeepSeek
redujo sus precios para este servicio a una fracción de lo que cobraban otros proveedores, lo que provocó una
batalla de precios en China.
Anthony Poo, cofundador de una empresa emergente con sede en Silicon Valley
que utiliza IA generativa para predecir los retornos financieros, dijo que su empresa pasó de Claude de Anthropic a DeepSeek en septiembre. Las pruebas mostraron un rendimiento similar por aproximadamente una cuarta parte del costo.
“El modelo de OpenAI es el mejor en rendimiento, pero tampoco queremos pagar por capacidades que no necesitamos”, dijo Poo.
En su reunión del 20 de enero, Liang, de DeepSeek, le dijo al primer ministro chino, Li Qiang, que mientras las empresas chinas estaban trabajando para ponerse al día, las estadounidenses estaban perdiendo terreno.
......................................
Las restricciones a la exportación de chips avanzados a China seguían siendo un cuello de botella, según personas familiarizadas con la reunión.
En 2019, High-Flyer comenzó a construir un grupo de chips para
la investigación de IA, en parte con fondos
generados por su negocio financiero. La empresa ha dicho que
más tarde construyó un grupo más grande de alrededor de 10.000 unidades de procesamiento
gráfico de Nvidia que pueden usarse para entrenar modelos
de lenguaje grandes.
Solo un puñado de empresas
en China tenían una infraestructura informática lo
suficientemente potente para desarrollar dichos modelos a fines de 2022, cuando OpenAI lanzó ChatGPT.
DeepSeek dijo en un informe
técnico que utilizó un grupo de más de 2000 chips Nvidia
para entrenar su modelo V3, en comparación con decenas de miles
para entrenar otros modelos de tamaño similar. Algunos especialistas estadounidenses en inteligencia artificial han cuestionado recientemente si High-Flyer y DeepSeek están accediendo a una potencia informática superior a la que han anunciado. Algunos investigadores externos afirmaron que el modelo DeepSeek carece de ciertas capacidades de sus rivales, que requieren un entrenamiento más costoso, por ejemplo, para realizar un seguimiento de los datos.
.....................................
El contexto de las largas conversaciones.
Para su último modelo de razonamiento, publicado el 20 de enero, DeepSeek se saltó un proceso conocido como ajuste fino supervisado, en el que los programadores introducen el conocimiento de expertos humanos para darle al modelo una ventaja. DeepSeek dijo que su modelo, diseñado para resolver problemas mundiales complicados en matemáticas y desafíos similares, era comparable al modelo de razonamiento de OpenAI o1
aunque omitió el ajuste fino supervisado y se centró en el aprendizaje de refuerzo, esencialmente ensayo y error dirigido.
Jim Fan, un científico investigador senior de Nvidia, aclamó como un gran avance el artículo de DeepSeek que informa los resultados. Dijo en X que le recordaba a programas de IA pioneros anteriores
que dominaban juegos de mesa como el ajedrez “desde cero,
sin imitar primero a los grandes maestros humanos”.
Zack Kass, ex ejecutivo de OpenAI, dijo que los avances de DeepSeek a pesar de las restricciones de Estados Unidos “subrayan una lección más amplia: las limitaciones de recursos a menudo impulsan la creatividad”.
—Stu Woo
No hay comentarios:
Publicar un comentario