<div dir="ltr">Hello guys,<div><br></div><div>So I have this setup that has already stopped on me 3 times the last 6 months. Each time it would replicate properly for 2-3 months and then it would just stop. It currently is stopped since January 11, 2016. The only way I can get replication back is to set everything up from scratch. I&#39;m wondering if anyone has an idea on the issue causing the stoppage. I&#39;m running 64-bit slony 2.2.4.</div><div><br></div><div>Currently, when I run slon on the replicated machine, I get the following:</div><div><br></div><div><br></div><div><br></div><div><div>C:\Program Files\PostgreSQL\9.3\bin&gt;slon slony_Securithor2 &quot;dbname = Securithor2</div><div>  user = slonyuser password = securiTHOR971 port = 6234&quot;</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG main: slon version 2.2.4 starting</div><div> up</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG main: Integer option vac_frequenc</div><div>y = 3</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG main: Integer option log_level =</div><div>0</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG main: Integer option sync_interva</div><div>l = 2000</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG main: Integer option sync_interva</div><div>l_timeout = 10000</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG main: Integer option sync_group_m</div><div>axsize = 20</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG main: Integer option quit_sync_pr</div><div>ovider = 0</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG main: Integer option remote_liste</div><div>n_timeout = 300</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG main: Integer option monitor_inte</div><div>rval = 500</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG main: Integer option explain_inte</div><div>rval = 0</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG main: Integer option tcp_keepaliv</div><div>e_idle = 0</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG main: Integer option tcp_keepaliv</div><div>e_interval = 0</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG main: Integer option tcp_keepaliv</div><div>e_count = 0</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG main: Integer option apply_cache_</div><div>size = 100</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG main: Boolean option log_pid = 0</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG main: Boolean option log_timestam</div><div>p = 1</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG main: Boolean option tcp_keepaliv</div><div>e = 1</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG main: Boolean option monitor_thre</div><div>ads = 1</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG main: Real option real_placeholde</div><div>r = 0.000000</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG main: String option cluster_name</div><div>= slony_Securithor2</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG main: String option conn_info = d</div><div>bname = Securithor2  user = slonyuser password = securiTHOR971 port = 6234</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG main: String option pid_file = [N</div><div>ULL]</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG main: String option log_timestamp</div><div>_format = %Y-%m-%d %H:%M:%S %Z</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG main: String option archive_dir =</div><div> [NULL]</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG main: String option sql_on_connec</div><div>tion = [NULL]</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG main: String option lag_interval</div><div>= [NULL]</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG main: String option command_on_lo</div><div>garchive = [NULL]</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG main: String option cleanup_inter</div><div>val = 10 minutes</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG main: local node id = 2</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. INFO   main: main process started</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG main: launching sched_start_mainl</div><div>oop</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG main: loading current cluster con</div><div>figuration</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG storeNode: no_id=1 no_comment=&#39;Ma</div><div>ster Node&#39;</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG storePath: pa_server=1 pa_client=</div><div>2 pa_conninfo=&quot;dbname=Securithor2 host=192.168.1.50 user=slonyuser password = se</div><div>curiTHOR971  port = 6234&quot; pa_connretry=10</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG storeListen: li_origin=1 li_recei</div><div>ver=2 li_provider=1</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG storeSet: set_id=1 set_origin=1 s</div><div>et_comment=&#39;All tables and sequences&#39;</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. WARN   remoteWorker_wakeup: node 1 - no</div><div>worker thread</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG storeSubscribe: sub_set=1 sub_pro</div><div>vider=1 sub_forward=&#39;f&#39;</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. WARN   remoteWorker_wakeup: node 1 - no</div><div>worker thread</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG enableSubscription: sub_set=1</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. WARN   remoteWorker_wakeup: node 1 - no</div><div>worker thread</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG main: last local event sequence =</div><div> 5000462590</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG main: configuration complete - st</div><div>arting threads</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. INFO   localListenThread: thread starts</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG version for &quot;dbname = Securithor2</div><div>  user = slonyuser password = securiTHOR971 port = 6234&quot; is 90310</div><div>NOTICE:  Slony-I: cleanup stale sl_nodelock entry for pid=5188</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG enableNode: no_id=1</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. INFO   remoteWorkerThread_1: thread star</div><div>ts</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. INFO   remoteListenThread_1: thread star</div><div>ts</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. INFO   main: running scheduler mainloop</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG cleanupThread: thread starts</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. INFO   syncThread: thread starts</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. INFO   monitorThread: thread starts</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG version for &quot;dbname = Securithor2</div><div>  user = slonyuser password = securiTHOR971 port = 6234&quot; is 90310</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG remoteWorkerThread_1: update prov</div><div>ider configuration</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG remoteWorkerThread_1: added activ</div><div>e set 1 to provider 1</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG version for &quot;dbname=Securithor2 h</div><div>ost=192.168.1.50 user=slonyuser password = securiTHOR971  port = 6234&quot; is 90306</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG version for &quot;dbname = Securithor2</div><div>  user = slonyuser password = securiTHOR971 port = 6234&quot; is 90310</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG cleanupThread: bias = 60</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG version for &quot;dbname = Securithor2</div><div>  user = slonyuser password = securiTHOR971 port = 6234&quot; is 90310</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG version for &quot;dbname = Securithor2</div><div>  user = slonyuser password = securiTHOR971 port = 6234&quot; is 90310</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. CONFIG version for &quot;dbname=Securithor2 h</div><div>ost=192.168.1.50 user=slonyuser password = securiTHOR971  port = 6234&quot; is 90306</div><div>2016-01-28 17:41:00 AmÚr. du Sud occid. INFO   remoteWorkerThread_1: syncing set</div><div> 1 with 59 table(s) from provider 1</div></div><div><br></div><div><br></div><div><br></div><div><br></div><div>It gets stuck at &quot;syncing set 1 with 59 table(s) from provider 1&quot; (the last line) forever with the occasional messages that says something about cleaning(threadcleaning I thing).</div><div><br></div><div><br></div><div>Checking the postgres logs, I see lots of:</div><div><br></div><div>2016-01-28 17:33:07 AST LOG:  n&#39;a pas pu recevoir les données du client : unrecognized winsock error 10061</div><div><br></div><div>Which translates to: </div><div><br></div><div>2016-01-28 17:33:07 AST LOG:  was not able to receive the data from the client : unrecognized winsock error 10061<br></div><div><br></div><div>I&#39;m able to connect to the main db from the replicated machine no problem. I have no idea how this error 10061 is caused.</div><div><br></div><div>Any ideas?</div><div><br></div><div>Appreciate the help.</div><div><br></div><div><br></div><div><br></div></div>