JINA AI肖涵:帶領來自十個國家的大牛做開源是種怎樣的體驗?

尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️

加入LINE好友

JINA AI肖涵:帶領來自十個國家的大牛做開源是種怎樣的體驗? 科技 第1張

提到「搜索」一詞,你首先想到的是什麼?也許是網站的搜尋引擎,又或是每天都會刷的「熱搜榜」。

但你不一定聽過這樣一個詞:神經搜索,也就是用深度學習及神經網路去搭建一套搜尋引擎,聽上去是不是還挺玄乎的。神經搜索的新概念到底從何而來?神經搜索和普通搜索的區別又在哪裡?

本期《創業內幕》就請來了 JINA AI(極納科技)的創始人兼CEO肖涵,為我們揭開「神經搜索」背後的秘密。JINA AI是開源框架Jina (https://github.com/jina-ai/jina)背後的公司。

JINA AI肖涵:帶領來自十個國家的大牛做開源是種怎樣的體驗? 科技 第2張

Lily:

今天我們要聊一家非常有意思的公司——JINA AI。我們先請JINA AI的創始人兼CEO肖涵介紹一下自己和JINA AI這家公司。

肖涵:

JINA AI是一家神經搜索公司, 神經搜索就是利用深度學習及神經網路去搭建一套搜尋引擎。JINA AI成立的時間不長,在2020年2月疫情期間成立,去年夏天完成種子輪和Pre-A輪的融資。

公司發展到今天已經有員工24名(截至2020年底),是一個非常國際化的公司,我們在柏林、北京都有辦公室。用三個關鍵字概括就是,Search AI(搜索AI)——將搜索領域的AI做成一個框架。第二個是開源,我們是all in開源的一家公司。第三個是Cross-border, 我們是一家非常國際化的公司。

Lily:剛才您提到的幾個概念裡面,什麼叫神經搜索?第二個問題,您剛才提到說你們是all in開源,為什麼要做開源這樣的布局?第三,您剛才說JINA AI是一個非常國際化的團隊,能不能給我們具體解釋一下怎麼國際化?

肖涵:神經搜索這個詞聽著很新,但實際上在學術圈中研究這個東西已經有一段時間了,只不過學術圈管這個叫Neural Information Retrieval(神經資訊檢索)。傳統的搜尋引擎一般是通過符號化文字的匹配,匹配上了,就可以得到結果;匹配不上的話,就得不出來結果。所以傳統的搜尋引擎是通過字符串的匹配。 神經搜索是指不通過字符串的匹配,而是通過神經網路、通過深度學習去尋找輸入和資料庫中文檔的相幹性。這種相幹性和特征表示都是由神經網來評測的。

搜索系統實際上有很多地方可以用到AI、機器學習、神經網路,因此我們就可以把它叫做一個Neural Information Retrieval(神經資訊檢索)。但是Neural Information Retrieval(神經資訊檢索) 是一個相對學術化的詞。我們在做產業的時候,一般都是怎麼簡單怎麼來,所以我們管它叫Neural Research(神經搜索),這就是神經搜索的來源。

Lily:

神經搜索和普通搜索,能不能用例子來給我們解釋一下最大的區別是什麼?

肖涵:

但實際上我想找的是這個問題的答案。我想找的答案並不和我問的問題完全匹配,中間就存在一個語義差。神經網就是用來將我輸入的問題和我想到查詢到的結果,將這兩個東西映射到同一個語義空間,在同一個語義空間中進行查詢。

剛才我舉的這個例子是文檔的,但實際上神經搜索這個概念是非常廣的,所以神經搜索可以鋪到各個方面,包括圖片搜圖片、視訊搜視訊,甚至包括跨模態的搜索。比如通過文字搜圖片,通過圖片搜聲音,通過聲音搜視訊。這些都可以通過神經網路的搜索來實現。

實際上過去也可以搜出聲音、視訊、圖片這些資訊,但往往是因為這些多媒體的資訊被打成標簽了。比如我們在做這期創業內幕訪談的時候,可能會打一大堆標簽。在之後的搜索中,雖然你搜到了這個東西,但背後的搜索原理仍然是符號化搜索,它是通過標簽的匹配來搜到的。 神經搜索的一個目標就是不打標簽,不去進行符號化的匹配,而是通過神經網將所有的特征映射到同一個空間,在同一個語義空間中進行相似意義,甚至相反意義的搜索。

Lily:

剛才您提到三點,第二點是講開源。做神經搜索這樣的一個技術,為什麼要用all in開源這樣一個大背景來完成?

肖涵:

我們公司雖小但是目標非常有野心。我們要提供一套設計模式,一套編程框架。我們想改變的是別人的思維習慣。比如現在到一家公司,去問說你有沒有用AI在做搜索,可能都說有在用。但是如果問他們的實現方式是什麼樣子的,每家公司回答都會不一樣。有些用TensorFlow,有些用Pytorch,有些用Elastic,有些用MongoDB。他們學了很多框架之後,把它們融合在一起去打造出一套針對他們企業內部的一套搜尋引擎。

我們提出的Jina的框架可以說是一套通用的框架,它要解決通用的多模態和跨模態搜索問題。包括圖片搜圖片、聲音搜聲音,文檔搜文檔。那麼在這種框架模式下,我們也提供了一套編程范式,這之所以有挑戰,是因為這套編程范式要改變以往大家對於神經搜索的編程習慣和思維模式。要知道改變一個人的思維模式實際上是非常難的。

這就是為什麼我們需要借助開源的力量。我們從第一天起就是一家all in開源的公司,因為我們不可能用一個閉源的技術去征服開發者。第二,我們也不可能用閉源的技術去和競爭對手競爭。我們的競爭對手今天其實並不多。但是每一個競爭對手都異常強勁,要麼就是從 Google、微軟、Facebook內部孵化出來的項目;要麼就是從大廠跳出來的人去做這個事情。

做公司並不僅僅是做技術。我們要借助開源,借助社區力量去打贏這場仗。這就是為什麼我們從第一天起就一定要走all in開源的道路。

Lily:

如果去看阿裡這些電商平臺,早已可以圖片搜圖片了。在音視訊網站裡,多看一些視訊之後,平臺就會發現你的用戶習慣,推薦類似的東西。我最近正好在買賣房子,如果我看好了一套房,這個房子可能剛好很遠,或者我買不起。系統就會將另一個無論是裝修風格還是戶型都非常類似的房子推薦給我,這其實是神經搜索?

肖涵:

剛才說的可能是推薦,從某種意義上來講,推薦是被動的搜索,搜索是主動的推薦。所以其實很多問題,包括剛才講的這種推薦系統,背後的原理都可以轉化成搜索,這就是為什麼搜索實際上擁有一個非常高的天花板。因為現實生活中很多的問題都可以在某種程度上轉化成搜索問題,然後通過搜索的方法來實現。

舉一個簡單的例子,推薦系統實際上是一種被動的搜索,還有就是在QA問答系統中或者聊天機器人中,一般有兩種生成回答的方法:第一種是真的通過生成模型去生成回答;第二種是通過檢索模型去回答問題。檢索模型往往更實用,也是更容易去開發和生成,從頭開始出打造一套系統。

一個公司中往往有自己的問答庫。比如在一個公司,列印機壞了該怎麼修?這種文檔開始都已經有人寫過,只不過在企業內部找不到,那麼如何通過這種檢索的方式去獲得答案?你可以輸入一個問題,然後去找到回答。所以表面上看這是一個問答系統。你提問然後別人回答,但實際上背後是一個檢索系統。

Lily:

其實JINA成立的時間還很短,從2月份疫情到現在也就是一年左右的時間,在這段時間裡有什麼大客戶在成交嗎?

肖涵:

我們現在已經有在和一些企業公司在談,我們叫做early adopter早期適用者。這實際上對於我們去掌握市場的行情、掌握在產業界中實際應用范例是非常有幫助的。

我們並不是特別著急去推進大客戶完全去投入使用。因為從軟體自身的角度來講還需要一些打磨。但是隨著我們趨近於1.0的里程碑,我們需要更多產業的實力,去發現當Jina框架應用在產業中,應用在B端的一些不管是中型公司還是小型公司時會遇到哪些的問題,然後我們再從中進行迭代。

Lily:

看起來神經搜索是一個非常大的科研話題,您本人是什麼學術背景和職業背景?可以給我們簡單介紹一下嗎?

肖涵:

我之前在德國工作學習生活,一共差不多有9年。我09年來到德國,在慕尼黑讀的碩士和博士,當時就是做機器學習,只不過我們當時做的機器學習,現在看來叫淺度學習。09年到14年的時候,深度學習的框架都還不夠成熟,TensorFlow,Pytorch這些當時都沒有。我們當時做的一些貝葉斯的研究現在可能都不太用了,但是總體來說都是一些非常硬核的機器學習的內容。

14年畢業之後,我就來到了德國一家電商ZALANDO,也是算歐洲最大的一家電商,去做推薦系統和搜索系統。我在德國做了三年推薦引擎和搜索系統。18年初,我來到騰訊深圳的AI lab(AI實驗室),加入了微信背後的搜一搜團隊,在這去做搜索和語義相幹的一些檢索工作。

當時在騰訊也做了很多關於開源方面的工作,其中包含了我在騰訊的開源辦公室,——open source program office,代表騰訊在一些大型的國際化開源基金會上去做文化輸出、文化輸入。所以我在騰訊待了兩年到2020年2月份,決定自己出來把JINA AI做成一家開源公司。

Lily:

您既然已經在騰訊做開源這件事了,同時又是咱們騰訊開源辦公室的成員,為什麼您沒有在騰訊的平臺上做JINA,而是選擇了自己創業自立門戶?

肖涵:

我現在仍然非常感謝能在騰訊有這麼一個機會去做開源,能夠參與到公司開源文化的建設上,這個經歷是非常寶貴的,並不是所有人都能夠加入開源辦公室。又恰好當時騰訊在做開源協同,就是說內部不要重復造輪子,要搞一些開源團隊,也就是open source team,去做一些內部開源。

騰訊更看重的是內部開源,去解決重復勞力的問題,還有廣為詬病的賽馬機制。當時做了非常多的開源文化的嘗試工作。但是在大廠裡做開源,有一個問題就是你做得再好,做得再光彩,總體來就是一個錦上添花的事。因為開源並不是公司的一個命脈,他該怎麼賺錢還是怎麼賺錢,因為他們本身不是一個開源公司。

所以從這個角度來講, 做得再好,並不意味著你對於開源的理解和對於開源的信念就強到哪去,因為實際上是有大廠的庇護。你做壞了也壞不到哪去,因為大廠也不需要靠這個去賺錢。

所以我覺得做開源實際上有三個階段, 第一個階段可能就是你在當作個人興趣來做,業餘的時間下班後寫代碼,然後貢獻一下。第二個階段可能是你把開源當做一個工作來做,包括了你在公司內部,像開源辦公室,你的 KPI就是關於開源的,你要掌握一些開源的方法論,開源的思想,還有開源工作該怎麼進行、開展,這是第二步。 第三個階段就是不需要大廠的庇護了,你非常信念開源這個理念,也非常相信正在做的開源這個事情。那就跳出來做這個事,把開源當做一個生意來做,這個是第三階段。我恰好是從個人開發者到公司內部的開源領導者,最後再到跳出來去做開源,這三步都走過。

Lily:

選擇二月份在德國創業,這背後有什麼考慮嗎?有什麼主動或者被動的原因嗎?

肖涵:

其實IT產業是在疫情中受影響相對較小產業。因為IT本身不需要實體,另外員工遠程辦公,包括異步的開發模式,異步的工作模式,相對來說都是比較成熟的,這種思想觀念相對於其它產業是更成熟的。

尤其是有電話會議,還有slack這種工作協同軟體的幫助。實際上IT產業相對來說受的影響是比較少的。當時之所以到德國把這個公司建立起來,就是因為我們從一開始就意識到,這個公司必須要做成一個國際化的公司。

剛才我也講了,這個公司必須要做成開源的公司,但是僅僅如此還不夠,這個公司還必須要做成一個國際化的公司,為什麼?因為開源這件事情它本身就不是一個帶有邊界的東西,他需要不斷去包容其他,我們的公司的名稱JINA(極納),「NA」就是海納百川的納,也是包含了這一層的意義。「JI」則是取了諧音來自 Geek,極客的意思。所以我們就想到來柏林開始國際化的第一步,我們的野心要遠大於德國或遠歐洲市場,實際上我們會去目標全球的市場。

我對於歐洲,對於德國的IT和AI的環境相對來說有比較成熟的認知。另外我在這邊有一些人脈還有一些關係。第三其實我也看中了柏林,包括歐洲對於開源文化的認知和理解,這點是非常重要的。

他們的程序員、開發人員,對於開源文化的接受和理解程度相對來說要更成熟一些。Linus Benedict Torvalds,Linux的創造者,他本身是芬蘭人,後面移民到美國了。所以很多開源先驅實際上都是在歐洲發展起來的,背後開發人員的思維方式,對於開源的理解和接納,實際上是非常好的,非常適合做開源。這一點其實從我們的人員分布上也可以看出來,我們全球一共有24個人,實際上中國人還是比較少的,只有6個人,剩下18個人全是國際友人(截至2020年底)。

Lily:

這個分布挺有意思,管理這樣一個超級國際化的團隊,你覺得有什麼挑戰嗎?

肖涵:

我覺得這塊的挑戰在於大家來自五湖四海,各個國家對於文化、對於科技文化、對於效率、對於工作文化的理解都不相同。大家對於開源的理解可能也不相同。首先並不是所有人都在開源公司做過,當然我們去招人的時候會考察我剛剛說的幾步:自己是否做過開源,在公司裡是否做過做開源。

我不要求每個人都在公司裡做開源,但是至少你首先要自己做開源。你要對開源這個事有理解,不然思想上統一就會比較難。更多的一些差異和分歧主要在於公司文化、工作文化上的一些差別。比如說國際友人一般不太會跟你客氣,他們不會因為你是老板,是CEO,就畢恭畢敬。他們是有什麼就直說。

Lily:

會直接挑戰你嗎?說你這個事情做的很不對,會這樣直接說嗎?

肖涵:

我們一般會有反饋的階段,叫回溯,每個月有一次回溯會議。類似於吐槽大會,大家就吐槽各種關於工作的事情。實際上回溯會議對於員工的情緒抒發,工作改進是非常有幫助的。

在中國的話,我其實看到這種回溯並不是特別多,也有,但是可能不太像國外這邊放得這麼開。所以我覺得在國外領導一個國際化的團隊,最重要的就是你要想他們所想,要和他們是在同一個思維模式上,然後去理解他們。

Lily:

你覺得你的德國同事能接受996嗎?

肖涵:

其實他們工作時間挺長的。我覺得有兩方面,第一方面就是疫情的原因,大家的工作時間被打亂。在德國我見過有非常標準的就是放一個鬧鐘在辦公室,一到點鬧鈴一打響就自己下班了。但是現在因為政府不太提倡讓你去辦公室辦公,大家在家裡辦公的時候,分界線就變得非常模糊了。

所以我覺得這其中有兩個問題,第一個就是說大家的工作態度要端正,如果態度端正了,實際上剩下的一個問題就是如何區分生活與工作的界限了。並不是所有的德國人都能區分得很好,我們觀察到的是因為疫情的原因,大家工作時間反而會變長。

另外一點就在於,我們公司是一個全球化的公司,我們的工作方式是異步分布式(asynchronized & distributed)。我們24個人(截至2020年底)分布在中國,在北美,在歐洲,還有印度。基本上把全球都覆蓋了,大家連軸轉。這個時候你睡覺的時候別人起來,別人睡覺的時候你起來,有時候就無法避免需要做一些犧牲,配合其他人的時間。背後需要我們公司有更強的科技文化、技術文化和工程文化在背後去領導,才不會讓大家都覺得來到這個公司非常累,24小時要連軸轉。這也是對於公司的挑戰: 在管理一個異步的全球化公司的時候,怎麼去平衡各個國家、各個時區之間的工作。這一點也非常重要。

Lily:

我還是挺有體會的。這種跨時區的工尷尬刁難於GGV的同事來講其實挺常見的。這種長時間的跨時區協同其實需要同事之間充分的默契和信任,也需要彼此給予足夠的包容,它帶來的管理上的不可控因素可能會更多。很多中國互聯網公司都提倡彈性辦公、靈活辦公,但它實際上也是有打卡要求的,對於咱們這種全球型的公司挑戰還是挺大的。

肖涵:

其實覺得開源公司本來的運作方式就是通過任務分解和需求分解,把一個任務拆分成很多小任務,每個人負責一個部分。工程師不需要待在一個辦公室,更多是需要把工作協同起來。

Lily:

你的代碼在業界的認可度非常高,是不是就算大家不認識肖涵,但都看過你的代碼,很多同事都是慕名而來?

肖涵:

我之前做過兩個開源軟體,一個是Fashion-MNIST的一個數據集,這個數據集是我17年在德國的時候做的,到今天在Google學術上也有超過2000多篇論文的引用,已成為機器學習界的一個基準數據集。

另外一個是bert-as-service,是一個NLP方向的,是當時Google在18年初的一個深度學習的Bert的模型。當時我對Bert的模型進行了一套網路層框架式的封裝,能夠讓大家將Bert模型應用到實際的工業中生產場景中。

這兩個開源項目無論在GitHub還是在社區中,口碑都非常好,不僅僅是國內的口碑,而是國際上的口碑。很多來我們公司面試的人都會提到這兩個開源項目,知道這兩個開源項目或者用過這兩個開源項目。所以這個也可以說是一張名片,非常強有力的名片。 當我們再去打國際化,尤其當我們再去打社區,再去打開發者的時候,這是非常強有力的名片。你要征服開發者,唯一的辦法就是用技術去說服他。

Lily:

今年疫情對全球帶來的影響是商業的大幅的縮減和後退,大量的公司出現「內卷」的現象。為什麼你選擇在今年疫情爆發最厲害的時候,創建一家自己的公司,而不是安守在一家公司裡守住已有的成就?你的初心是什麼?

肖涵:

作為創業者,當你完全投入一件事情的時候,對疫情可能沒有太大的感覺。我不會顧及到疫情會不會影響到我。因為在我的認知範圍裡,我覺得疫情對於我們公司不是個事兒。這是一方面,我非常專註地去投入這個事情,所以我不會太去想在疫情期間創業是不是很難。第二點就是,其實我剛才說了,對於開源公司、對於軟體公司來說,我們受到疫情的影響不是特別大,我們恰好可以利用這段時間去韜光養晦,去招募人才。其實我挺感激在疫情期間加入我們公司的同事們。

他們放棄了本來能夠守住的一畝三分地,而加入了一個非常有挑戰、有創造性的一個初創公司,這點我是非常感激的。

Lily:

JINA作為一個開源公司,什麼時候可以商業化?

肖涵:

JINA AI作為一家商業化開源公司,其實意識到社區和技術這兩件事情是我們前兩年或者不僅是前兩年,是要持續輸出的。如果我們不去做這個東西,我們就不是一家商業化開源公司了,商業化開源公司肯定是要先有開源軟體、開源技術,才能去做商業化。第二點就是說作為一家公司來講,這家公司肯定到最後是要賺錢的。所以從這點上來講,我們搭建團隊的一開始,有一個聯合創始人,COO是專門做商業的,他之前在騰訊去代表騰訊雲去做了兩個開源商業化項目合作,一個是和Elasticsearch,一個是和Serverless。所以我們對於商業化的理解和對於整個商業化開源軟體的發展路線實際上是比較清晰的。

從公司的角度來講的話,前兩年我們會專註於技術和社區,增加影響力,把產品打造好,讓社區中的開發者為我們背書,這有點像預售。 把這種思維模式和技術預售給他們,到後面的商業化就更順理成章一些。

肖涵:

最後借助GGV創業內幕這個平臺給我們公司打個招聘廣告。我們誠聘對神經搜索框架、生態、有強烈熱情的工程師、產品經理和戰略分析師。歡迎大家轉發分享,是那句話,人才在哪裡,JINA AI就在哪裡。

JINA AI肖涵:帶領來自十個國家的大牛做開源是種怎樣的體驗? 科技 第3張

About 尋夢園
尋夢園是台灣最大的聊天室及交友社群網站。 致力於發展能夠讓會員們彼此互動、盡情分享自我的平台。 擁有數百間不同的聊天室 ,讓您隨時隨地都能找到志同道合的好友!