Una disciplina científica de reciente creación es la culturomía, que puede definirse como el análisis cuantitativo de millones de textos, usando herramientas informáticas, con el fin de extraer información relevante y fiable. Volumen de información y automatización del proceso son las características que distinguen la culturomía de la estrategia tradicional basada en el estudio minucioso de textos seminales. Erez Lieberman Aiden y Jean-Baptiste Michel son los fundadores de esta disciplina, que se aplica en campos donde se utiliza el análisis cuantitativo de textos digitalizados para generar datos empíricos sobre las tendencias históricas, culturales y lingüísticas. Es una nueva manera de reunir información sobre la cultura, más que una nueva forma de pensar acerca de ello o de entenderlo, que son las formas en las que aún siguen confiando las humanidades.
En 2010, con el patrocinio de Google, ambos autores crearon un visor de n-gramas, https://books.google.com/ngrams/, esencialmente una aplicación gráfica que mide, en un período establecido, las veces que aparece de una palabra o frase (en la terminología de la lingüística computacionalo, un n- grama) en el medio centenar de libros que Google ha escaneado hasta ahora. Pruebe la herramienta y comprobará que es lo suficientemente adictiva como para que sea probable que a partir de ahora la utilice de vez en cuando.
Pongamos un ejemplo, introduciendo „Garcia Lorca“ y „Almudena Grandes“ como n-gramas. Observará el gráfico siguiente. Como puede comprobarse, las apariciones del nombre de Almudena Grandes comienza a despuntar a mediados de los 80 -recuérdese que Las edades de Lulú se publica en 1989- y crece constantemente hasta una estabilización y descenso en los últimos años. Resulta llamativo que, en comparación, Almudena Grandes es 7 veces más popular en las publicaciones de los últimos tiempos que Federico García Lorca
El argumento de Michel-Aiden para acometer esta neodisciplina fue que la cultura y los cambios sociales se expresan en las palabras. Es posible, siguiendo esta hipótesis, realizar un estudio riguroso a gran escala de la evolución de la cultura mediante el análisis de la aparición, crecimiento, cambios de uso y declive, en su caso, de las palabras publicadas a lo largo de los siglos.
Schroeder y su equipo presentan esta disciplina dentro de un contexto de exploración de nuevas herramientas que aseguren el carácter científico de la investigación social. Aunque desde hace más de un siglo se asegura dicho carácter, no son pocos los autores que duden de que sea apropiado denominarlas Ciencias Sociales. Sin embargo, la culturomía y otros desarrollos basados en el tratamiento masivo de texto digitalizado proporpionan técnicas de manipulación de los símbolos formares que son representativos de las clases de operaciones comunicativas. Las propiedades de
replicación, sistematización y conectividad con otras áreas científicas, intrínsecas en la culturomía, son coadyuvantes en la plena „cientificidad“ de las denominadas Ciencias Sociales.
La metodología de la culturomía para el análisis utiliza una unidad denominada n-grama. Un 1-grama, unidad básica, consiste en una secuencia continua de caracteres. En la práctica, n-gramas significa n palabras. Se calcula la frecuencia dividiendo el número de instancias de un n-grama en un año dado por el número total de palabras en la base de datos para ese año. La base de datos que se utiliza son los libros que Google ha digitalizado, desde el año 1800 hasta ahora, aproximadamente un 5% del total de libros producidos en este período, pero que supone una muestra suficientemente significativa, relevante y confiable desde el punto de vista estadístico.
La culturomía también puede usarse de forma cuantitativa para analizar fenómenos socioeconómicos que, por su misma naturaleza, son difíciles de medir. En este caso, la estrategia es usar las frecuencias de aparición de ciertas palabras como indicadores de los fenómenos sociológicos que se quiere medir, de forma que las palabras se usan como medida de la realidad social. Hay dos factores básicos que contribuyen a establecer esta relación: primero, el cambio cultural, ligado a ideas y conceptos que pueden ser analizados. El segundo factor es el cambio lingüístico, que afecta a las palabras utilizadas en las ideas y conceptos. Un ejemplo puede darnos idea del potencial de este tipo de análisis:
En el gráfico se observa que el concepto „violencia de género“ es de reciente aparición, probablemente relacionado con las iniciativas políticas para la discriminación positiva de la mujer. Por otro lado, puede sorprender que en la producción bibliográfica el término „paro“ tenga un declive a partir de los años 80, pero una perspectiva histórico-económica nos ayudaría a percibir la crisis económica de los 70, „la crisis del petróleo“, tuvo mayor incidencia social que la crisis económica actual vivida en la mayoria de los países desarrollados. Finalmente, resulta significativo que la corrupción sea un tema más relevante que el paro en las publicaciones. Incidentalmente, el súbito crecimiento a partir de los años 90 puede estar ligado con persistentes escándalos de corrupción en las esferas políticas, especialmente en España.
El análisis de libros digitales permite estudiar la difusión de las teorías científicas, cómo las ideas evolucionan a lo largo del tiempo y la incidencia de las formas de pensamiento en la sociedad. Más aún, permite estudiar los cambios en las ideas políticas y en el clima de opinión, incluso relacionarlo con las transformaciones en las instituciones políticas y sociales. En un trabajo reciente, Klaas Willems ha demostrado la influencia de la ideología nazi en la producción textual de los libros alemanes en los años 30 del siglo XX. Para ello, utilizó 50 términos significativos extraidos del vocabulario del III Reich que forman parte del „Kulturbode“ nacionalsocialista.
También se puede analizar el tono de las publicaciones, los sentimientos y el dramatismo en las expresiones culturales de la sociedad. Una aplicación específica apoyada en la culturomía es Culturomics 2.0, un desarrollo de Kalev H. Leetaru que demuestra cómo los textos son indicadores estadísticos de la inestabilidad social y el descontento de la población, que pueden anticipar cambios legislativos, conflictos sociales o transformaciones institucionales. Leetaru trabaja con dos técnicas: primero, la asociación de valores positivos o negativos a las palabras de un diccionario contruido con una idea. Esta asociación permite dar un valor de densidad de los textos. Segundo, se determina la geocodificación de las palabras claves, para extrapolar las menciones significativas a un ámbito socio-geográfico.
La culturomía se inicia con buen pie pero su bondad no está exenta de contoversia, especialmente entre los investigadores de las ciencias sociales. Llevará tiempo acotar los ámbitos de aplicación, mejorar los procedimientos para garantizar la fiabilidad y establecer puentes con otras disciplinas que ayuden a definir claramente el contexto de sus resultados. Por ahora, se alzan voces para oponerse a esta disciplina, al menos a título personal.
No hay sólo un tipo de historia o, más ampliamente, no hay un sólo tipo de humanidades como los autores de la Culturomía parecen pensar. No todo el mundo rastrealas ideas a través del tiempo. Algunos de nosotros miramos a las personas que tenían esas ideas y los lugares donde vivían y trabajaban, y la gente que conocían, y la forma en que vivían. Todo esto no se puede encontrar en los libros, sino que debe rastrearse a partir de otros medios materiales, manuscritos y otras variantes de publicaciones. Aunque las personas culturómicas están seguras de que pueden aplicar sus métodos a los manuscritos y a los mapas, yo no voy a esperar a que esa posibilidad. (A. Guerrini)
En favor del trabajo pionero de Michel y Aiden se constata el apoyo explícito de muchos científicos. Aún más, siguiendo su estela y un enfoque evolucionista, el equipo encabezado por Pedro C. Marijuán ha propuesto el término Scientomics, análogo a culturomics, para una nueva disciplina que ayude a comprender y dar sentido a los procesos históricos de la ciencia, y al conocimiento humano en acción.
Referencias
Anita Guerrini (2011). “Analyzing culture with Google Books: is it a social science?” http://www.psmag.com/media/culturomics-an-idea-whose-time-has-come-34742/, acceso 24.03.2014
Kalev H. Leetaru, (2011) “Culturomics 2.0: Forecasting large–scale human behavior using global news media tone in time and space”, First Monday, 16, Número 9
Jean-Baptiste Michel et al. (2010) “Quantitative Analysis of Culture Using Millions of Digitized Books”, Science, 331, pag. 176-182
Raquel del Moral, Jorge Navarro y Pedro C. Marijuán /2014) “New Times and New Challenges for Information Science: From Cellular Systems to Human Societies ” Information, 5, pag. 101-119
Ralph Schroeder, Eric Meyer y Linner Taylor (2013) “Big data and the uses and disadvantages of scientificity for Social Research”. Lectures notes. Universidad de Oxford
Klaas Willems (2013) “Culturomics and the representation of the language of the Third Reich in digitized books ” Interdisciplinary Journal for Germanic Linguistics and Semiotic Analysis
En 2010, con el patrocinio de Google, ambos autores crearon un visor de n-gramas, https://books.google.com/ngrams/, esencialmente una aplicación gráfica que mide, en un período establecido, las veces que aparece de una palabra o frase (en la terminología de la lingüística computacionalo, un n- grama) en el medio centenar de libros que Google ha escaneado hasta ahora. Pruebe la herramienta y comprobará que es lo suficientemente adictiva como para que sea probable que a partir de ahora la utilice de vez en cuando.
Pongamos un ejemplo, introduciendo „Garcia Lorca“ y „Almudena Grandes“ como n-gramas. Observará el gráfico siguiente. Como puede comprobarse, las apariciones del nombre de Almudena Grandes comienza a despuntar a mediados de los 80 -recuérdese que Las edades de Lulú se publica en 1989- y crece constantemente hasta una estabilización y descenso en los últimos años. Resulta llamativo que, en comparación, Almudena Grandes es 7 veces más popular en las publicaciones de los últimos tiempos que Federico García Lorca
El argumento de Michel-Aiden para acometer esta neodisciplina fue que la cultura y los cambios sociales se expresan en las palabras. Es posible, siguiendo esta hipótesis, realizar un estudio riguroso a gran escala de la evolución de la cultura mediante el análisis de la aparición, crecimiento, cambios de uso y declive, en su caso, de las palabras publicadas a lo largo de los siglos.
Schroeder y su equipo presentan esta disciplina dentro de un contexto de exploración de nuevas herramientas que aseguren el carácter científico de la investigación social. Aunque desde hace más de un siglo se asegura dicho carácter, no son pocos los autores que duden de que sea apropiado denominarlas Ciencias Sociales. Sin embargo, la culturomía y otros desarrollos basados en el tratamiento masivo de texto digitalizado proporpionan técnicas de manipulación de los símbolos formares que son representativos de las clases de operaciones comunicativas. Las propiedades de
replicación, sistematización y conectividad con otras áreas científicas, intrínsecas en la culturomía, son coadyuvantes en la plena „cientificidad“ de las denominadas Ciencias Sociales.
La metodología de la culturomía para el análisis utiliza una unidad denominada n-grama. Un 1-grama, unidad básica, consiste en una secuencia continua de caracteres. En la práctica, n-gramas significa n palabras. Se calcula la frecuencia dividiendo el número de instancias de un n-grama en un año dado por el número total de palabras en la base de datos para ese año. La base de datos que se utiliza son los libros que Google ha digitalizado, desde el año 1800 hasta ahora, aproximadamente un 5% del total de libros producidos en este período, pero que supone una muestra suficientemente significativa, relevante y confiable desde el punto de vista estadístico.
La culturomía también puede usarse de forma cuantitativa para analizar fenómenos socioeconómicos que, por su misma naturaleza, son difíciles de medir. En este caso, la estrategia es usar las frecuencias de aparición de ciertas palabras como indicadores de los fenómenos sociológicos que se quiere medir, de forma que las palabras se usan como medida de la realidad social. Hay dos factores básicos que contribuyen a establecer esta relación: primero, el cambio cultural, ligado a ideas y conceptos que pueden ser analizados. El segundo factor es el cambio lingüístico, que afecta a las palabras utilizadas en las ideas y conceptos. Un ejemplo puede darnos idea del potencial de este tipo de análisis:
En el gráfico se observa que el concepto „violencia de género“ es de reciente aparición, probablemente relacionado con las iniciativas políticas para la discriminación positiva de la mujer. Por otro lado, puede sorprender que en la producción bibliográfica el término „paro“ tenga un declive a partir de los años 80, pero una perspectiva histórico-económica nos ayudaría a percibir la crisis económica de los 70, „la crisis del petróleo“, tuvo mayor incidencia social que la crisis económica actual vivida en la mayoria de los países desarrollados. Finalmente, resulta significativo que la corrupción sea un tema más relevante que el paro en las publicaciones. Incidentalmente, el súbito crecimiento a partir de los años 90 puede estar ligado con persistentes escándalos de corrupción en las esferas políticas, especialmente en España.
El análisis de libros digitales permite estudiar la difusión de las teorías científicas, cómo las ideas evolucionan a lo largo del tiempo y la incidencia de las formas de pensamiento en la sociedad. Más aún, permite estudiar los cambios en las ideas políticas y en el clima de opinión, incluso relacionarlo con las transformaciones en las instituciones políticas y sociales. En un trabajo reciente, Klaas Willems ha demostrado la influencia de la ideología nazi en la producción textual de los libros alemanes en los años 30 del siglo XX. Para ello, utilizó 50 términos significativos extraidos del vocabulario del III Reich que forman parte del „Kulturbode“ nacionalsocialista.
También se puede analizar el tono de las publicaciones, los sentimientos y el dramatismo en las expresiones culturales de la sociedad. Una aplicación específica apoyada en la culturomía es Culturomics 2.0, un desarrollo de Kalev H. Leetaru que demuestra cómo los textos son indicadores estadísticos de la inestabilidad social y el descontento de la población, que pueden anticipar cambios legislativos, conflictos sociales o transformaciones institucionales. Leetaru trabaja con dos técnicas: primero, la asociación de valores positivos o negativos a las palabras de un diccionario contruido con una idea. Esta asociación permite dar un valor de densidad de los textos. Segundo, se determina la geocodificación de las palabras claves, para extrapolar las menciones significativas a un ámbito socio-geográfico.
La culturomía se inicia con buen pie pero su bondad no está exenta de contoversia, especialmente entre los investigadores de las ciencias sociales. Llevará tiempo acotar los ámbitos de aplicación, mejorar los procedimientos para garantizar la fiabilidad y establecer puentes con otras disciplinas que ayuden a definir claramente el contexto de sus resultados. Por ahora, se alzan voces para oponerse a esta disciplina, al menos a título personal.
No hay sólo un tipo de historia o, más ampliamente, no hay un sólo tipo de humanidades como los autores de la Culturomía parecen pensar. No todo el mundo rastrealas ideas a través del tiempo. Algunos de nosotros miramos a las personas que tenían esas ideas y los lugares donde vivían y trabajaban, y la gente que conocían, y la forma en que vivían. Todo esto no se puede encontrar en los libros, sino que debe rastrearse a partir de otros medios materiales, manuscritos y otras variantes de publicaciones. Aunque las personas culturómicas están seguras de que pueden aplicar sus métodos a los manuscritos y a los mapas, yo no voy a esperar a que esa posibilidad. (A. Guerrini)
En favor del trabajo pionero de Michel y Aiden se constata el apoyo explícito de muchos científicos. Aún más, siguiendo su estela y un enfoque evolucionista, el equipo encabezado por Pedro C. Marijuán ha propuesto el término Scientomics, análogo a culturomics, para una nueva disciplina que ayude a comprender y dar sentido a los procesos históricos de la ciencia, y al conocimiento humano en acción.
Referencias
Anita Guerrini (2011). “Analyzing culture with Google Books: is it a social science?” http://www.psmag.com/media/culturomics-an-idea-whose-time-has-come-34742/, acceso 24.03.2014
Kalev H. Leetaru, (2011) “Culturomics 2.0: Forecasting large–scale human behavior using global news media tone in time and space”, First Monday, 16, Número 9
Jean-Baptiste Michel et al. (2010) “Quantitative Analysis of Culture Using Millions of Digitized Books”, Science, 331, pag. 176-182
Raquel del Moral, Jorge Navarro y Pedro C. Marijuán /2014) “New Times and New Challenges for Information Science: From Cellular Systems to Human Societies ” Information, 5, pag. 101-119
Ralph Schroeder, Eric Meyer y Linner Taylor (2013) “Big data and the uses and disadvantages of scientificity for Social Research”. Lectures notes. Universidad de Oxford
Klaas Willems (2013) “Culturomics and the representation of the language of the Third Reich in digitized books ” Interdisciplinary Journal for Germanic Linguistics and Semiotic Analysis